受訪者:華為云人工智能領域首席科學家 田奇
有這樣一個案例,某工廠的IT負責人想要應用AI,咨詢之后卻發現開發成本過于高昂,人才、算力、算法等條件都不具備,最后只能作罷。
有這樣一位朋友,任職于某家AI技術供應商,他們推出的行業解決方案備受好評,卻在實際進入商業化階段時,發現大量客戶都需要定制,只能讓公司的AI專家四處奔波,解決用戶的細小問題,最后利潤卻連人員開支都無法覆蓋。
還有一條朋友圈,一位AI開發者扼腕,惋惜于中文世界缺少NLP預訓練大模型。
其實,這些朋友都遇到了同一個問題:一道名為“AI開發”的產業天塹。
當我們談論AI時,總是會將其效果等同于數據集、實驗室里的能力上限,卻忽略了在真實的開發、訓練、部署中,AI有著太多碎片化與不確定性的因素。因此,如何跨過這道產業天塹,就成為了一場名副其實的全球大賽。
這場賽跑中至關重要的一個項目,名為“預訓練大模型”。隨著預訓練大模型的產業與戰略價值在國際上水漲船高,致力于將AI打造為新一代信息技術核心抓手的中國產學各界都感受到了一絲緊迫。
中文世界什么時候能迎來強大可用的預訓練大模型?面對AI開發的“天塹”,我們有什么自己的解決之道?
就在種種聲音不斷發酵的同時,華為云人工智能領域的首席科學家田奇,正與團隊一同發起一次悄無聲息的沖鋒。
這次沖鋒的“行動代號”,叫做——盤古大模型。
天塹:“小作坊式”的AI開發困境
試想一下,如果每家企業在進行研發時,都需要自己做螺絲、軸承、齒輪這些基礎部件,那整個社會的工業化從何說起?
但在AI領域,卻真的會出現這種情況。如今,AI技術的企業滲透率僅為4%,距離產業爆發期還有相當長的路要走。究其原因,并不是AI缺乏價值,而是開發過程中存在大量的碎片化因素。每家想要應用AI的企業,可能都需要一些技術水平高的人進行獨立的架構設計與調參。這就像每家工廠都需要聘請設計師來設計螺絲一樣,是一種相當粗放、原始的手工作坊模式。
來到華為云的田奇及同事們都發現了這個問題。
加入華為之前,田奇已經是AI領域業界知名的學者。他是美國伊利諾伊大學香檳分校博士、是IEEE Fellow,也是原德州大學圣安東尼奧分校計算機系的正教授。在高校任教17年之后,帶著學術界的前沿思考和科研成果,田奇與團隊來到了產業一線,他們首先關注到的,就是廣泛存在于各個角落的AI開發困境。
由于傳統的NLP、機器視覺模型開發都來自研究機構,所以其開發模式也天然與實驗室對齊,缺乏產業界要求的效率、標準化與成本可控。
比如說,某家企業在開發一個項目時,往往需要開發一系列定制化的小模型,由于每個模型的開發周期都相對較長,且需要不斷完成各種數據清洗、數據增強、模型適配等瑣碎繁雜的工作,因此,這個過程中,開發人員會選擇自己熟悉、擅長的模型與開發方式,而這會導致每個模型之間的差異化很大。一旦出現問題就可能推倒重來,而人員變動更可能讓所有努力付之東流。
基于此,一般這種開發模式均會存在“三高”問題,即對開發人員的專業性要求高、綜合成本高、不可控程度高。
如何突破這道產業的天塹?從工業體系的邏輯上看,核心方案就是提升AI開發前置工作的標準化程度,將不同開發者所需模型的公約部分提前訓練好。這就是工業化中的零件化、標準化和流程化。
在探索AI工業化的過程中,預訓練大模型逐漸成為了行業認可的方案。其邏輯是提前將知識、數據、訓練成果沉淀到一個模型中,然后將這個基礎釋放到產業,再由不同行業、不同企業的開發者在此基礎上進行二次開發和微調。就像工業化社會的第一步,是完善重型機械的建造能力,而AI工業化的來臨,也需要首先擁有作為底座的“重型機械”。這也成為盤古大模型團隊在華為云體系中的首要任務——翻越開發天塹,在于能筑“重器”。
盤古大模型已經在100多個行業場景完成驗證
登山:盤古大模型背后的人與事
要想打造一個屬于中文世界,并且適配各種真實產業場景的AI預訓練大模型,擺在研發團隊面前的是兩大門檻。一個是技術門檻,大模型需要卓越的并行優化來確保工作效率,這對網絡架構設計能力提出了更高的要求。第二是資源門檻,大模型訓練需要極大的算力,在訓練千億參數的盤古大模型時,團隊調用了超過2000塊的昇騰芯片,進行了超過2個月的訓練。這對于一般企業來說顯然難以承擔。
總之,想要快速打造一個可堪重用的AI大模型,需要調用各方的力量,并且精準完成技術上的進化。
2020年夏天GPT-3的出現,讓歐美AI界對預訓練大模型的興趣大增。但在國內,產業界對NLP預訓練大模型的關注還相對較少。而機器視覺領域的預訓練大模型,在全球范圍內更是十分陌生的新鮮事物。
2020年3月,田奇加入華為云后便開始組建團隊,并且進行了方向梳理;8月,團隊迎來新的核心專家;9月,團隊開始推動盤古大模型的立項,希望能夠在華為云的產業基座上,完成適配各個產業AI開發的大模型;11月,盤古大模型在華為云內部立項成功,并完成了與合作伙伴、高校的合作搭建。
同時,在打造盤古大模型之初,團隊就確立了三項最關鍵的核心設計原則:一是模型要大,可吸收海量的數據;二是網絡結構要強,能夠真正發揮出模型的性能;三是要具有優秀的泛化能力,可以真正落地到各行各業的工作場景。
接下來就是選擇賽道的問題。
當時,NLP領域的預訓練大模型已獲得廣泛關注,順理成章就成為了盤古大模型的重中之重。同時,AI在產業應用中最廣泛的需求是機器視覺能力,盤古大模型也瞄準這一領域,在NLP及機器視覺兩個領域的大模型開發上雙管齊下。
與此同時,盤古大模型也完成了未來規劃。首先,希望能把機器視覺、NLP、語音,甚至計算機圖形學的技術結合起來,形成多模態的預訓練大模型,以增強預訓練大模型的跨領域協同落地能力;其次,AI落地中有一個十分重要的領域是科學計算,如海洋、氣象、制藥、能源等領域均有非常強的知識處理、科學計算的需求,而用AI的方法去求解科學計算的問題,無疑將帶來十分巨大的價值潛力。因此,多模態與科學計算大模型,將是盤古接下來的行動方向。
在確定了建設方案與賽道選擇之后,接下來的研發工作雖順序開展,但仍會經歷創造性研究過程中產生的一系列挑戰。
舉例來說,盤古大模型的核心開發過程,是以海量有效數據進行模型預訓練,以實現吸收大量數據之后模型的高度智能化,但數據和算力從哪里來,就成為一個不可避免的問題。在盤古大模型的開發過程中,華為云與合作伙伴多方推動,確保了所需數據及算力資源的保障到位。但即使華為云擁有非常好的資源基礎,在千億參數級別的大模型面前仍顯不足。為此,田奇團隊嘗試與合作伙伴緊密協作,調用一切資源來確保開發進度——如團隊通過與鵬城實驗室的合作,完成了模型訓練所需算力的調用。
而在數據與知識方面,盤古大模型的開發團隊經常會遇到與具體行業知識體系、數據系統的磨合問題,在具體過程中,也會經常出現意料之外的情況。例如一個醫學數據的準確率,顯然應該依賴醫學專家的解答,但在具體場景中,往往醫學專家的判斷準確率并不高。這類AI領域之外出現的情況,往往會反向影響到盤古大模型的開發進程。為此,盤古大模型團隊需要與具體的行業專家進行反復溝通,希望把他們的知識或者直觀感受,轉化為計算機可量化的模型,再對訓練出的結果進行協同驗證。如此進行反復的跨領域溝通與聯動,最終才可能達成關于AI的共識。
在盤古大模型的開發過程中,由于時間緊張、訓練難度及成本巨大,并且還是機器視覺與NLP雙模型的同時推動,自然需要內部團隊的“超人發揮”。田奇回憶,團隊內部都叫自己“特戰隊員”,也就是角色需要經常互換,工作需要相互支撐,哪里缺人就要在哪里頂上。作為技術專家,同時也要考慮很多產業落地、商業化方面的問題。
這個支撐盤古大模型不斷攻堅克難的團隊,起初僅有幾個人,他們是讓盤古大模型得以從實驗室走向產業的中堅力量。如今,團隊已逐漸壯大起來,擁有20多名博士、30多名工程師、3名廣受關注的“華為天才少年”,還有50多名來自全國C9高校的專家。
翻山越嶺從來不易,智能時代亦是如此。
翻越:“盤古”究竟強在何處?
2021年4月,盤古大模型正式對外發布。其中,盤古NLP大模型作為業界首個千億參數的中文預訓練大模型,在CLUE打榜中實現了業界領先。為了訓練NLP大模型,團隊在訓練過程中使用了40TB的文本數據,包含了大量的通用知識與行業經驗。
盤古CV大模型也在業界首次實現了模型的按需抽取,可以在不同部署場景下抽取出不同大小的模型,動態范圍可根據需求調整,從特定的小場景到綜合性的復雜大場景均能覆蓋;同時,其提出的基于樣本相似度的對比學習,實現了在ImageNet上小樣本學習能力上的業界第一。
通過這些數據,我們可以進一步考察盤古大模型的優勢及能力點之所在。
首先,我們知道盤古大模型擁有機器視覺模型,回到NLP領域中,在盤古大模型的研發過程中,團隊考慮到在真實的產業場景中有大量的內容理解需求,比如客服、智能對話等,于是給盤古大模型設計了兼顧架構,且同時能高度完成理解與生成的任務。
再來看一些具體的技術差異,盤古大模型提升了復雜場景下的小樣本學習能力,使小樣本的學習效率提升了一個數量級;在微調能力上,盤古擁有更好的數據吸收及理解能力,可以在真實行業場景中實現模型應用效率的提升;在行業知識的集成方面,盤古大模型能力更強,其采用更靈活的模塊設計,能夠根據業務場景的適配,提升行業知識的吸收效率。
在技術創新之外,盤古大模型還是一個天然瞄準AI工業化、現實場景的項目。在立項初期,研發團隊就與合作伙伴進行了一系列商業化驗證,以此來確保盤古大模型走入真實產業場景后的效率及適應能力。這也是盤古大模型的一大差異化特點,它并非為實驗室而造,而是將工業化的一面放置在更高的優先級上,是一個以商業價值驅動研發創新的“實干模式”大模型。
與其他預訓練大模型的另一個不同點在于,華為團隊在研發過程中始終將生態化、協同創新納入考量。因此,盤古大模型是一個開放、可生長的產業實體,可以在各個環節引入生態合作伙伴、高校科研團隊,以及不同領域AI開發者的力量。以此確保了盤古大模型融入產業鏈條、搭建生態化合作的能力。
從技術化、商業化、生態化三個層面,盤古大模型驅動預訓練大模型進入了一個新的階段,也為“作坊式AI開發”到“工業化AI開發”的轉換奠定了堅實的基礎。
盤古之力,在于合力。
燈火:大模型的落地進行時
雖然發布時間只有幾個月,但從立項之初,盤古大模型就已經開展了一系列產業合作。這些來自千行百業的“盤古故事”,可以讓我們看到大模型與AI開發之變帶來的真實影像。
在物流場景里,盤古大模型協助浦發銀行構建了“物的銀行”——浦慧云倉。在人員行為、貨物檢測等方面,可將性能提升5%~10%;同時,開發效率也大幅提升,原本需要1~2個月的開發工作,現在只需要兩三天就可完成,極大地降低了開發中的人力、算力及維護成本。
在盤古大模型的落地進程中,“意外”驚喜也經常出現。比如,在國家電網巡檢案例中,由于缺陷的種類復雜多樣,采用傳統的方法需要對大多數缺陷適配特定的模型才能滿足性能需求,因此,100余種缺陷就需要開發20多個模型,造成模型迭代維護非常困難。盤古大模型創造性地提供了行業預訓練模型,得益于其突出的特征表達能力,能夠做到一個模型適配所有缺陷,不僅極大地提升了開發效率,平均識別效果也提升了18%。此外,盤古大模型還提供了針對零樣本的缺陷檢測功能,能夠快速判斷出新缺陷,可貼近于真實巡檢員的能力。
隨著成功案例的不斷增多,盤古大模型的行業認可度也開始節節攀升,推動“預訓練大模型是AI工業化主要途徑”成為了行業共識與產業發展方向。目前,盤古大模型已經在能源、零售、金融、工業、醫療、環境、物流等100多個行業場景完成驗證,精度提升、效率加強、開發成本下降,逐漸成為盤古大模型走向產業的幾個“標簽”。
萬家燈火初上,百業AI將興。
“精度提升、效率加強、開發成本下降”,逐漸成為盤古大模型走向產業的幾個“標簽”
思索:AI工業化的虹吸與變革
盤古大模型的故事當然剛剛開始,但從它的立項、研發和落地進程,我們卻可以得到一些關于AI工業化的思考。
從歷史演進看,一種產品的工業化進程必然需要經歷研發為重—基座為重—產品為重三個層級。例如我們熟悉的智能手機,也是在經歷了微型處理、無線通信、屏幕觸控等技術的儲備階段之后,最終形成了一套標準化的集成邏輯與基礎產業鏈。這一階段,廠商不必再花費巨資進行基礎研發,而是可以用相對較低的成本完成零部件的采購與集成制造。也只有這樣,廠商才能打磨產品,雕琢功能,消費者才能用上物美價廉的智能手機。
將這個邏輯回溯到AI領域。自以深度學習為標志的AI第三次興起之后,這項技術得到了快速發展,但其基礎業態還處于“研發為重”的第一階段,由于行業中缺乏公開、有效、低成本的產業基礎,而導致很多理論上成立的方案難以落地。
而盤古大模型的價值,恰恰就在于推動了AI的低成本、可復制。雖然在打造大模型的階段需要耗費巨大的研發成本與資源,但一旦突破產業規模期,就將帶來全行業的普惠價值。田奇認為,目前我們正處在AI工業化開發模式起步后的快速發展階段,而大模型是最有希望將AI進行落地的一個方向。
照此來看,我們在觀察、思考和推動預訓練大模型發展時,不應該僅停留在科研基礎設施的角度,而是應該以產業應用為導向,引導各方全力以赴,謀求AI工業化進程的質變契機。
盤古大模型的實踐表明,這個過程需要多重力量的攜手與跨界。當初,田奇加入華為,一度被視作AI學者進入產業界的代表性事件,如今看來,這種“跨界”和“變化”確實起到了作用。田奇有著最新的研究方法、技術創新能力與國際視野,在華為云的產業結構中,田奇團隊也找到了學術界所不具備的驅動力——在產業界,科學家必須思考功耗、效率、成本、商業場景等一系列真實問題,將“學以致用”落實到方方面面。
盤古大模型的開發過程,猶如一場AI學者及工程師與各行業專家、企業的對話。鐵路、物流、醫學、天文,種種專業領域的知識要融入大模型之中,這就需要更強的協同能力與相互理解。
產學研的縱向融合及不同行業領域的橫向協同,產生了AI在工業化階段必須經歷的虹吸效應。從這個角度看,盤古大模型也是一次產業、科研的虹吸范本。
這種“協同發力、重裝行動”的盤古大模型模式,或許將在未來一段時間內不斷涌現,也將成為云計算與AI產業的戰略重心。而其帶來的影響,可能將推動AI開發的綜合門檻下降,一系列產業與社會價值的提升,以及戰略級AI基礎設施的完備。
據田奇回憶,在打造大模型的過程中,他更多考慮的是可能帶來的商業價值。如果不能復制推廣,那么大模型可能就是“一個只能在實驗室中被觀賞的東西”。團隊希望大模型能夠在更多場景中被使用,這樣才能帶來改變。
當更多科學家、行業專家、AI架構師用這樣的角度和動力去思考AI、推動AI、建造AI時,橫亙在AI面前的產業天塹,就將最終會成為登山者的豐碑,成為AI工業化變革的標志。
也許有一天,我們在聊AI往事的時候,會記住這么幾個字:
AI落地,“盤古”開天。
在線客服
個人及家庭產品
熱線:950800(7*24小時)
華為云服務
熱線:4000-955-988|950808
企業服務
熱線:400-822-9999
運營商網絡服務
熱線:4008302118