中國大模型:後中爭先,不走捷徑
文 | 佘宗明
在《5000天后的世界》中,著名未來學家凱文·凱利預言:“在未來的50年裡,AI將成爲可以與自動化和產業革命相提並論的,不,應該是影響更爲深遠的趨勢。”
而今,大模型似乎就是那根槓桿。自ChatGPT問世以來,“工業革命級的生產力工具”“有史以來最大的平臺革命”“新範式的新拐點”之類的說法,已將大模型“封神”。
公開數據顯示,截至今年7月底,國內已經有130個大模型產品亮相或宣佈。“百模大戰”中的“百”,已非虛指。
有意思的是,在大廠們爭前恐後入局之時,騰訊卻一直保持自己的節奏。
9月7日,在2023騰訊全球數字生態大會上,騰訊混元大模型正式亮相,騰訊宣告全面擁抱大模型。
在廠商們爭搶頭啖湯時不出來,在大模型密集發佈期不出來,等大模型的喧鬧消退後終於現身。
與其說這是“遲”,不如說它更是“實”——以實促實,不騖虛聲,保持自己節奏,不被外界左右。這裡的實,是實用,是實幹,也是實誠。
說到“混元”,許多人可能會想到道家的“混元即無極,無極生太極”。混元所指,是鴻蒙狀態,是萬物根源。
道可道,非常道。道家始祖老子曾說過“我有三寶,持而保之”,其中之一就是信奉敢爲天下後。
而在“中國巴菲特”段永平的闡釋中,“敢爲天下後”還有後半句:後中爭先。
騰訊早在2021年就推出了千億和萬億參數的NLP(自然語言處理)稀疏大模型,打破了CLUE三大榜單記錄。
馬拉松長跑中,方向對、策略準往往比起步快更重要。在通用大模型發佈節奏上,騰訊更像是以慢爲快,不走捷徑。
騰訊董事會主席兼CEO馬化騰就說:“我們最開始以爲這(指AI大模型)是互聯網十年不遇的機會,但是越想越覺得這是幾百年不遇的、類似發明電的工業革命一樣的機遇。”
他認爲,“對於工業革命來講,早一個月把電燈泡拿出來,在長的時間跨度上來看是不那麼重要的。關鍵還是要把底層的算法、算力和數據紮紮實實做好。”
都說“做三四月的事情,在八九月自有答案。”有些玩家習慣了在打通概念炒作跟對韭當割鏈路後一哄而上,“三四月”的事情剛開始做就掏出了PPT、半成品,騰訊卻在“六七月”裡不事張揚,直到“八九月”有了答案才讓其面世。
混元大模型參數展示的樸實,可堪佐證——沒有狂堆參數,也沒展示打了多少榜,騰訊方面主要披露了兩個數字:超千億參數規模,幾乎是當前通用大模型的標配;預訓練語料超2萬億tokens,和目前最強開源模型Llama 2持平。
樸實反映的,不是能力的讓渡,而是求實的態度:不追求Chat(聊天)上的花哨,而追求應用場景上的實效;不是基於國外開源模型訓練求快,而是從零開始、全鏈路自研。
實用導向,指向的是讓大模型從“可用”變爲“好用”。
不得不說,當下的大模型正陷入“又強大,又弱雞”的悖論:一方面,很多大模型在問答時能秀得一手好打油詩、抖出一番機靈,另一方面,在行業應用中又沒太多實質性用處。
大模型研究者李莉就認爲,現在很多模型的研究者和應用的製作者,考慮的是如何讓別人記住自己,所以效果特別視覺化,“每個視頻讓人看得血脈賁張,我們紛紛表示太酷炫了,但是靜下心來,我們對於技術該怎麼用一般都沒有答案……如果真正放到經濟中,你會發現根本用不上。”
這正是ChatGPT熱度滑坡的主要原因:前不久,Newsweek調查顯示,ChatGPT的用戶數量已經比今年年初高峰時期下降了近95%。用戶選的最多的理由就是,感覺“ChatGPT對工作的促進能力沒有想象那麼強”。
這難言奇怪:在行業應用場景中,用戶在意的,可不是大模型能玩什麼梗、扯什麼淡,而是能否提供專業知識和行業數據。“大”不是最重要的,“專”纔是。ChatGPT上生成的很多回答,就被指看上去專業,專業人士一看卻似是而非。
而今,隨着大模型進入Gartner曲線的相對冷靜階段,越來越多的人已意識到,應用場景是決定大模型能否走遠的關鍵因素。沒有落地場景,就沒商業前景,也就難以走遠。
正因如此,大模型行業正在從拼參數變爲拼落地,B端行業應用已成主戰場。這勾勒出的,是大模型正從“技術力”轉向“生產力”的商業化圖譜。
騰訊對此就早有清晰認知:大模型的長期價值將通過行業應用來體現,絕不僅限於聊天機器人這樣簡單的問答場景。
這次發佈會上,騰訊就強調面向產業,明確要以提效爲第一要義。騰訊高級執行副總裁、雲與智慧產業事業羣CEO湯道生就表示,“大模型需要基於產業場景,與企業數據融合,才能釋放出最大的價值。”
以垂(垂直大模型)應垂(垂直細分行業的需求),方爲實用。今年6月,騰訊雲從產業客戶需求場景出發,依託騰訊雲TI平臺打造模型精選商店。
這次發佈的混元大模型,則將作爲騰訊雲MaaS服務的底座,爲各業務領域提供支持。
推出的是爲應用而生的“從實踐中來,到實踐中去”的實用級大模型,而非花裡胡哨的AI“大玩具”,本就是“實”的體現。
實幹做派,着眼的是讓大模型更成熟更靠譜。
大模型要走入行業產業場景,就得減少“幻覺(即胡言亂語)”、避免“誘導(即誘導偏見或欺騙等)”。
克勞德·香農認爲,信息的本質是消除不確定性。但體驗過的用戶都知道,當下的大模型都有着很強的“不確定性”——它經常會變成CheatGPT,給你胡編亂造一通。
若這只是大模型跟用戶相互“調戲”,那無非是提供了些笑料,可行業場景專業度要求高、邊際容錯率低,若是提供了錯誤信息,很可能引發嚴重後果。
正因如此,面向產業的大模型必須變得更專業更成熟更靠譜,不能是初看什麼都懂、細看什麼都不“專”。
騰訊爲此採取的策略可以歸結爲兩點:1,全鏈路自研;2,將內部業務場景當“磨刀石”。
騰訊的混元大模型,從高速網絡、底層服務器到網卡、高速組網和平臺、模型、算法都是自研,AI基礎設施、機器學習框架、語料庫與模型算法等也是從零訓練。
騰訊解鎖全鏈路自研,瞄準的既是運用自身的技術棧體系,實現根本的業務技術能力突破,也是利用自主體系的研發道路,更好地應對旗下海量高併發業務的衝擊。
客觀上講,基於國外開源模型進行“本土化改良”固然是一條更容易的路子,可大模型既然是工業革命級的機會,只依靠國外的“開源模型”遠不夠。
騰訊集團副總裁蔣傑說:“外界其實一般多會用到知識圖譜,甚至搜索外掛來讓模型的檢索支持能力變得更強,騰訊也會用,但不能用的比例很高。我們一定要在整個的大模型的預訓練階段把這個問題解決掉,控制掉。”依託自研的“探真”算法,混元大模型幻覺比例比其他開源大模型下降了30%到50%。
騰訊還在向外部推出大模型前,將其在騰訊雲、騰訊廣告、騰訊遊戲、騰訊金融科技、騰訊會議、騰訊文檔、微信搜一搜、QQ瀏覽器等50多個內部業務中先行驗證。
先打磨好大模型產品,再拿出來服務行業產業,箇中的創新探索與審慎務實,也是主打一個“實”。
實誠態度,立足的是讓大模型迴歸服務屬性。
湯道生說:“從一個大模型,到提供一個用戶可以感受到的服務,中間有很多的環節和工序。騰訊其實是提供整個端到端的AI服務流程中所需要的‘全鏈條工具’。我們的TI平臺就是一個能滿足整個工序、環節的需求,給客戶提供高效模型搭建服務的重要工具。這可能是大家比較少從友商那裡聽到的。”
將基於自研的大模型技術能力開放,將其用於從田間到產線的很多角落,這需要“以實幹促實用”。
迄今爲止,騰訊已和1萬1千家生態夥伴展開緊密合作,推出了覆蓋100多個產業場景的行業解決方案,共同服務千行百業。
中國科學院自動化研究所權威學者王飛躍就說,“促進原始創新,確保自主可控,是大模型時代我國人工智能發展的當務之急。”原始創新也是爲了更好地助益產業。
大模型迭代優化,也得直面社會多方對數據安全的顧慮:一直以來,有些人對大模型訓練過程中涉及的數據安全問題表示擔憂。
但主流大模型在“喂”數據時,其實需要的是那些沉澱後留下的專業性強、知識密度高的數據,而非真假難辨且缺乏知識含量的個人隱私信息,或是極度瑣碎且偏口語化的聊天內容。
特別是那些專業大模型,在對採集到的數據加以甄別時,會對那些涉隱私信息進行清洗。
蔣傑表示,“我們可以向大家保證,我們做的小模型、大模型還是大語言模型,都絕不會使用個人隱私數據。”
不封閉,不逾矩,方顯實。
大模型很熱,但本質上,大模型是信息化的下一幕。過去十多年的信息化對應的時代大幕上,寫着的主題是“數字化”。大模型同樣是數智化變革的助推器。
只不過,以往互聯網發展撬動的是流通環節減少、流通效率提升,以AI爲代表的數字化工具要介入的層次更深——其核心是要增加基礎價值。
這就需要,將數字化觸角伸向生產端與供應側,覆蓋包括從工業製造到冶金採礦、從港口運輸到農林牧副漁的各行各業。
這對國內大模型的發展不無啓示:自從ChatGPT面世後,中國大模型廠商跟OpenAI差距有多遠,就成了行業關心的話題。
應用場景,或許正是中國大模型彎道超車的突破口。
國家信息中心專家張振翼就指出,當前美國在大模型發展中具備一定的領先優勢,我國需要加強自身獨特優勢的探索。在他看來,當前我國發展大模型人工智能主要有三個方面的優勢:應用場景資源極爲豐富、數據要素政策設計較爲領先、在相關領域的技術創新上已經具有一定積累等。
可以看到,在移動互聯網時代,中國互聯網企業就憑着衣食住行康樂教和產業領域的豐富場景,跑通了模式,做大了規模。
在今天,中國龐大市場上積累了海量數據,包括物流、電商、醫療等各個領域的,各個行業數字化轉型的強烈需要,又爲大模型落地提供了需求端支撐。
順勢而爲,以實用實幹實誠之“實”,加速大模型的產業應用,中國大模型從跟跑到並跑再到領跑的圖景,纔會愈發可期。