人工智能時代,生成式AI如潮水般涌入人們生活和工作的各個角落,從AI對話到文生視頻,從AI辦公到智能客服,其應用層出不窮。AI正在重塑互聯網,與此同時,AI行業智能化的發展,也在呈現出從免費到付費,從個人到企業,從基礎到關鍵的三大變化。AI帶來了前所未有的便利和創新,同時也帶來了一系列備受關注的挑戰。
在數字化浪潮的推動下,AI技術的快速發展,尤其是生成式AI和大模型的應用,為互聯網帶來了新的機遇和挑戰。《智見·指揮官》欄目邀請到華為公司副總裁、ISP與互聯網系統部總裁岳坤,快手科技網絡中心總經理劉洋,金山辦公AI研發總監劉強以及科技KOL黃海峰,共同探討AI服務的可靠性和原生創新在互聯網行業中的應用。
"提升智能韌性,加速原生創新"訪談專場現場合影
(從左至右:主持人、快手劉洋、金山劉強、華為岳坤、KOL黃海峰)
AI服務的可靠性:企業級應用的關鍵需求
隨著生成式AI在各個領域的深入應用,其可靠性問題日益凸顯。尤其是對于企業級AI服務,如辦公、廣告、客服等,可靠性更是至關重要。
劉洋表示,快手致力于打造值得信任的溫暖線上社區,構建高效精準的推薦系統。生成式AI會嵌入到每一個業務系統里面,其可靠性不能低于原有云服務的可靠性,AI應該充分發揮長板效應。例如,快手自研的“可靈”視頻生成大模型上線后,在內容生產、廣告素材生成和數字人直播等方面發揮了重要作用,但同時AI作為生產工具,用戶對其可靠性也提出了更高的要求。
劉強認為,在辦公軟件中AI的可靠性至關重要。以Excel表格中的公式為例,以前用戶需專門學習復雜公式才能處理表格數據,而在生成式AI時代,用戶只需用自然語言描述問題,大模型就能生成相應公式處理數據并得出結果。然而,一旦用戶養成了使用AI的習慣,對其可靠性的要求就會變得更高,因為任何故障都可能導致工作效率的下降。因此,AI服務的可靠性需要達到電信級甚至更高的水平。
岳坤從To C和To B領域的角度分析了對AI可靠性的要求。在To C領域,運營商業務通常按照五個九的可靠性來設計,以確保用戶在關鍵時刻的通信需求。在To B領域,如港口、鐵路和金融證券等行業,對可靠性的要求甚至更高。因此,互聯網公司若想在智能化時代拓展To C智能化業務和To B智能化場景,就必須提升可靠性。
此外,黃海峰提到,作為快手、WPS和華為的用戶,AI的出現為大家帶來了很多的便利性與趣味性,但使用體驗感的背后,需要更高可靠性的支撐。例如快手的AI生成、WPS的AI校對等。當越來越多的企業引入AI,不僅需要提升AI的使用體驗,也要考慮其安全性和可靠性。
ICT基礎設施:提升AI可靠性的關鍵支撐
AI服務的可靠性離不開ICT基礎設施的支持。ICT基礎設施包括互聯網公司的數據中心基礎設施、數據中心互聯網絡、運營商和ISP提供的有線和無線寬帶接入服務等。為了提升ICT基礎設施的可靠性,保障AI更好地服務,各方專家提出了不同的觀點。
劉洋指出,大模型高度依賴ICT基礎設施,包括網絡、服務器及系統軟件等。因為其訓練要求高,涉及To B和To C推理應用,成本高昂。從投資角度而言,想要發揮硬件建設的集群效應,就要保證系統的高可靠性,基礎設施需具備高可用性,如4-5個9級別。與此同時,還要求系統具備強大的軟硬件能力、修復能力,以應對復雜需求。
劉強提到,AI訓練集群是串行,意味著單點故障發生后,系統需要停下來等故障排除。生成式AI背后的多個支撐服務,如存儲優化、數據庫、大數據分析和安全服務等。在WPS與昇騰大模型的訓練推理實踐中,建立了完整的容錯體系,包括對集群異常、NPU故障、網絡故障等方面的處理措施,以構建高可用訓推訓練集群。集群可用性每提升1個百分點,可節省上百萬投資。
岳坤指出,所謂“4個9”“5個9”和“6個9”標準,即系統可靠性的百分比。系統可靠性的百分比越高,則系統中斷時間越短,代表系統越可靠。選擇何種標準取決于業務需求和客戶容忍度,辦公系統通常4個9已足夠,但關鍵業務需更高標準。岳坤還提出了多種從單點到多中心容災提升可靠性的方案,強調需根據業務影響和可接受程度平衡投資與可靠性。同時,他呼吁大家共同提高系統可靠性,保障用戶體驗。
黃海峰表示,近年來,很多企業在IT領域不斷加大投入,采購最先進的服務器、存儲設備,注重性價比、可靠性。個人認為在設備采購方面,不能僅僅就單獨采購設備,而是要從系統性的建構進行采購,從軟件、硬件及管理等多方面,去打造具有可靠性的基礎設施,注重高安全性與高性價比。
提升系統可靠性:互聯網公司的探索與實踐
頭部互聯網公司采用部件級引入和深度解耦的方式,構建算存網的數據中心基礎設施,如何保障既能深度解耦又能安全可靠成為關鍵問題。
劉洋認為,互聯網公司要提升系統可靠性,需強化通用性和標準化。復雜網絡容易導致很多問題,所以需要對關鍵設備和器件進行清晰統一的定義。在此背景下,互聯網公司正通過自研軟件,有效管理硬件,實現標準化交付和全方位感知,確保網絡可靠性。通過快速報警和精確定位,加速故障恢復,為可靠性提供堅實保障。
劉強指出,在大模型時代,算網協同與算存協同對模型訓練效率至關重要。算網協同通過優化網絡拓撲,提升數據傳輸效率,加速模型訓練;而算存協同則通過優化高性能存儲與緩存,確保數據高效讀寫,同時保證數據準確性與一致性,共同提升訓練效率。
岳坤表示,華為RAMS實驗室也被稱為韌性實驗室,在可靠性、可用性、安全性等多個方面進行了深入的研究和技術創新。可靠性即確保服務連續運行,可用性則強調整體能力的提升,可維護性關乎故障修復速度,而安全性則無處不在,需時刻警惕。我們期望在AI時代,提升互聯網基礎設施的韌性,把我們的韌性發揮到極致,以滿足客戶需求,確保服務穩定運行。
黃海峰提到,解耦與可靠性就像是魚和熊掌難以兼得,一是接口標準化困難,二是不同部件組合可靠性挑戰大。中小廠商難以自研,依賴集成廠商可能效果不佳。通信領域基站解耦帶來的新問題,是創業企業參與但盈利困難。完全標準化可提高性價比,但可靠性要求高時,整體方案更優。各家應對策略值得相互借鑒,以實踐檢驗真理。
AI時代的展望:智能韌性與原生創新的融合
在討論的最后,主持人提出了一個開放問題:互聯網行業基礎設施最關心的指標包括性能、可靠性、開放、安全、可用性、可維護性等,從使用者的角度看,前三名的指標是什么?
劉洋表示,互聯網公司首先要關注基礎設施,所以高性能排在第一位,其次是高性價比和高可靠;劉強認為,對辦公軟件使用者而言,安全性應該是第一位,其次是高可靠與高性價比;岳坤指出,智能時代產品和服務的第一指標應該是好用,第二指標是信賴,第三指標是原生,就像是華為昇騰、鯤鵬提出的原生計劃;黃海峰提到,作為用戶和行業觀察者,可靠性至關重要,所以指標的排序為高可靠、高安全與高性價比。
互聯網行業的加速發展,涉及戰略規劃、人才儲備、技術應用和基礎設施建設等多個方面。AI技術的可靠性和原生創新是推動這一轉型的關鍵因素。未來,隨著AI技術的不斷發展,華為希望大家能夠合力提升AI服務的可靠性,加強ICT基礎設施建設,推動互聯網行業和相關產業在AI時代中的蓬勃發展。
在線客服
個人及家庭產品
熱線:950800(7*24小時)
華為云服務
熱線:4000-955-988|950808
企業服務
熱線:400-822-9999
運營商網絡服務
熱線:4008302118