Scaling Law 遇瓶頸,AI 幻覺仍未解決!全球機器學習技術大會重磅開幕,揭示大模型未來之道

從算法到應用,從技術突破到場景落地,大模型在這一年中取得了哪些具有里程碑意義的進展?

作者 | 《新程序員》編輯部

出品 | CSDN(ID:CSDNnews)

11 月 14 日,由 CSDN 聯合高端 IT 諮詢與教育平臺 Boolan 舉辦的“2024 全球機器學習技術大會”在北京盛大開幕。大會核心聚焦大模型技術演進、多模態、GenAI 產品創新與探索等開發者們關注的 AI 前沿技術,共設置 12 大技術專題。主會場上,CSDN 高級副總裁、Boolan 首席技術專家李建忠,新加坡工程院院士、IEEE Fellow、崑崙萬維榮譽顧問顏水成,傳神語聯創始人何恩培,新浪微博首席科學家、新技術研發負責人張俊林結合實踐案例分享了他們在 AI 時代領悟的全新思考。

大會期間,來自騰訊、阿里巴巴、字節跳動、百度、美團、小米、螞蟻集團、eBay、快手科技、京東、金山辦公、小紅書、得物、崑崙萬維、新浪微博、商湯科技、潞晨科技、智譜AI、百川智能、新浪微博、瀾舟科技、傳神語聯、昇騰、快遞100、人民郵電出版社異步社區、電子工業出版社博文視點、清華大學出版社、機械工業出版社、人民郵電出版社圖靈文化、JINA AI、Dify.AI、中科加禾、Lepton AI、RMKV元始智能、趨境科技、Percena、中國國際圖書貿易集團有限公司、瞻勝傳播、中國搜索、新譯科技、東方國信、Nimdzi Insights 等知名科技企業與組織,中國科學院、微軟亞洲研究院、北京智源人工智能研究院、中國人民大學、中國人工智能學會、中國信息通信研究院、北京語言大學、北京交通大學等學術科研機構的技術大咖與專家學者齊聚一堂,向現場觀衆與「雲會員」們深入分享大模型技術實踐及應用落地經驗。

李建忠:大模型技術演進與應用創新洞察

作爲 AI 領域的探索者與見證者,CSDN 高級副總裁、Boolan 首席技術專家李建忠爲大會帶來主題爲《大模型技術演進與應用創新洞察》的開場演講。他首先談到了廣受業界關注且成爲推動大模型發展關鍵的擴展法則(Scaling Law)。Transformer 架構自 2017 年問世以來,逐漸引領 AI 進入大模型時代,此架構的成功在於完美適配了 Scaling Law,實現了算力、數據、參數三者之間的解耦,使得它們能夠獨立、快速地擴展。

李建忠 CSDN 高級副總裁、Boolan 首席技術專家

深入剖析 Scaling 背後的技術哲學,李建忠強調:“解耦方可通用,通用方可擴展。解耦需要設計正交,正交意味着獨立性。” 在李建忠看來,這一哲學不僅適用於 AI 領域,同樣在互聯網發展史上也有深刻體現,例如:TCP/IP 協議實現了對網絡連接的 Scaling,Web/HTML 則實現了對網絡應用的 Scaling。

立足當下,李建忠基於強大的 Scaling 能力分享了過去一年中大模型技術的三大演進趨勢:

Inference Scaling :從訓練到推理。在推理能力方面,李建忠以 OpenAI o1 爲例並指出,OpenAI o1 基於強化學習(RL)和 Self-play 實現了推理的 Scaling Law,使模型從預訓練階段的“統計學習”轉變爲推理階段的“探索創新”,完成了從系統 1(快思考)到系統 2(慢思考)的飛躍。

Modality Scaling:從文本到多模態。在多模態智能方面,李建忠分析了幾個重要案例:Sora 使用 Patch 統一視覺數據的“元表示”,GPT 使用 token 統一自然語言文本的"元表示",智源 Emu3 和 GPT-4o 則分別實現了多種模態的統一。李建忠強調了語言在多模態智能的地位,他引用維特根斯坦的觀點:“語言的邊界即思想的邊界”,認爲語言不僅包含人類知識,也蘊含了思維的推理過程。如果多模態系統中缺乏充分的語言數據支撐,其智能能力將受到嚴重限制。

Data Scaling:數據擴展。李建忠指出,AI 大模型的數據將從互聯網上現有的數據(結果性、靜態、顯性)、逐步過度爲合成數據(機器生成)和共生數據(過程性、動態、隱性)。在互聯網上的靜態數據被消耗殆盡的趨勢下,人機共生數據將爲大模型提供源源不斷的數據供給。

最終,在落地的應用層面,李建忠認爲 2024 年最顯著的發展是智能體(Agent)。他預見互聯網將從“信息網絡”向“行動網絡”演化,在這個新的範式下,人類只需表達需求,智能體就能完成規劃和行動。這種轉變不僅改變了計算任務的模式,也將重塑人機交互的方式,開啓了一個全新的智能時代。

顏水成:基礎模型的根基

新加坡工程院院士、IEEE Fellow、崑崙萬維榮譽顧問顏水成在《基礎模型的根基》主題演講中表示,最初在 Training Scaling Law 階段,AGI 似乎還遙不可及。然而,隨着 Inference Scaling Law 的提出,通向 AGI 方向的路徑越來越清晰。不過,顏水成指出,無論是文本交流、語音對話,還是基於視頻的互動,實時性的要求都非常高。在這種情況下,僅靠 Training Scaling Law 和 Inference Scaling Law 是無法完全解決問題的。他強調,如果要長期致力於 AGI 的研究,關鍵在於 AI 系統與 AI 算法的結合。

顏水成 新加坡工程院院士、IEEE Fellow、崑崙萬維榮譽顧問

基於對大模型基礎研究的深度思考,顏水成認爲 AI 研究應該聚焦在兩個關鍵維度:一是從 AI 系統維度將 AI 理解爲“Almighty Intelligence”(萬能智能),二是從 AI 算法維度將其視爲“Affordable Intelligence”(可負擔智能)。

在 AI 系統研究方面,顏水成強調“研究即產品”的理念。他認爲大模型研究應該包括語言、多模態、音樂、音頻、視頻和 3D 等多個維度,並以實際應用爲導向。這種研究思路已經在多個領域展現出潛力,比如利用分層推理提升對話系統的能力,以及在音樂生成和短劇製作等領域的創新應用。特別值得注意的是,在短劇創作領域,顏水成認爲這可能是 AI 最具想象力的應用空間。他詳細介紹了從劇本創作、角色生成、場景製作到最終視頻合成的完整工作流程。“雖然目前的效果還不夠完美,但我相信在接下來半年到一年時間裡,隨着各類基礎模型的進步,特別是在可控視頻生成方面的突破,這個領域會有重大進展。”

在算法研究方面,顏水成指出,要讓 AI 真正成爲“可負擔的智能”(Affordable Intelligence),算法創新至關重要。在很多數學家眼中,機器學習工程師主要做三件事——逼近誤差(網絡架構)、估計誤差(數據/損失函數)和優化誤差(參數優化器)。顏水成透露其個人主要更想專注於第一和第三個維度上的研究上,其背後原因是考慮到目前訓練一個大模型動輒需要 6500 萬美元,如果能在訓練或推理效率上提升 20-50%,就能產生巨大的經濟和環境效益。

在具體的算法創新上,顏水成重點介紹了 Skywork AI 在 MoE(專家混合)系統優化上的突破。通過引入“零計算專家”(Zero-computation Experts)的概念,他們成功將 MoE 的計算效率提升了一倍,同時保持甚至提升了模型性能。“我們不僅在 FFN 層實現了這一突破,還將 MoE 思路成功應用到了注意力機制中,創造了 Mixture-of-Head Attention 結構。”

在優化器方面,他們開發的新型優化器在各類架構上都展現出了顯著優勢,能在繼續訓練場景下實現 1.5-2 倍的加速。顏水成特別提到了一個有趣的發現:在不同層次的網絡中,底層更依賴於困難樣本的梯度,而高層則更依賴於簡單樣本的梯度。這一發現啓發了新的訓練策略,有望進一步提升模型性能。

“在中國,特別是在訓練加速這個領域的研究還比較少,大家都不太願意投入。” 顏水成指出,“但這恰恰是一個極其重要的方向。從長遠來看,只有讓 AI 變得更高效、更經濟,才能真正實現 AI 的廣泛應用,特別是在端側設備上的智能化轉型。”

何恩培:基於雙網絡架構的數推分離大模型探索與實踐

未來的大模型是否有可能在保持高性能的同時,而又讓客戶能夠安全可控和經濟適用?這是一個值得深思的問題。傳神語聯創始人兼董事長何恩培以《基於雙網絡架構的數推分離大模型探索與實踐》爲題,首次對外分享了傳神在大模型領域的獨特探索。他們開發的大模型“任度”是全球首個通過雙網絡架構實現數推分離的大模型,形成了“雙腦”聯合推理的獨特優勢。傳神是全球大模型領域第一家實現數推分離技術路線的人工智能企業,也是中國人工智能在行業內的重大突破。

何恩培 傳神語聯創始人兼董事長

何恩培表示,任度幸運地走通了一條獨特的路。它從未從主流大模型發展遇到的問題中尋找突破機會,而是自公司誕生起就走在這條路上,一走,就是近 20 年。

回看過去,從 1999 年開始,傳神就選擇了完全自主研發的道路。在當時開源框架並不流行的背景下,他們開發了自己的神經網絡庫 zANN。談及背後原因,何恩培坦言,“這不是因爲我們預見到今天的科技形勢,而是爲了提高開發效率。2015-2016 年主流開源框架出現時,我們也討論過是否轉向開源,但最終選擇了繼續堅持自主研發。現在看來,這個選擇讓我們獲得了更大的創新空間。就像蓋房子,如果地基是別人的,想要改變就會受到很多限制。”

至於後來任度爲何會走數推分離路線,何恩培表示,“2021 年我們做法律 AI 助手時遇到過一個問題 ——每天都有新的判例數據產生,不可能每次都重新訓練整個模型。”因此,他們基於 moH(混合商)架構實現數推分離,推出了“任度”,以此解決大模型領域如何高效處理增量數據這一難題。

雙網絡架構的核心在於將推理訓練和數據處理分開。推理網絡負責思維和決策,數據學習網絡負責知識獲取和存儲,兩個網絡通過共享嵌入層和中間表示層進行協同,形成了一種類似於“主腦”與“輔腦”的高效配合模式,支持獨立訓練和聯合推理。這樣的設計不僅避免了額外計算資源的需求和專業人才的大量投入,還能有效防止模型能力隨時間退化,同時確保數據的安全性和隱私性,無需客戶數據離場訓練。

值得一提的是,傳神“根原創”任度大模型爲雙網絡數推分離這一創新性架構築牢了基座。其最大意義在於,從底層算法框架到上層應用都是全技術棧自主研發的成果,未使用任何開源代碼和框架,有力保障了技術自主與安全可控。

何恩培特別提到,今年 7 月,他們請中國信通院進行了評測,確認任度是一個“零開源依賴”的大模型 —— 無主流開源大模型依賴、無主流開源機器學習框架依賴、無第三方開源庫依賴、無開源許可證依賴、無已知開源安全漏洞風險。在當前複雜的國際形勢下,這種技術自主性變得尤爲重要。

“開源很重要,可以快速解決當下問題,讓我們當下獲得更好,但一定要拿出一定資源支持自主的原始創新——根原創,因爲自主可控的根原創,是爲了未來我們可以長久的活的更好更安全。”何恩培表示,“我相信中國有很多像我們這樣的團隊在默默耕耘,他們或許還沒有站出來,但終將會成爲中國 AI 技術發展的重要力量。”

張俊林:OpenAI o1 技術原理解析

兩個月前,OpenAI 推出了其最新力作——OpenAI o1,迅速成爲了科技界的熱點話題。OpenAI o1 最大的亮點在於其具備了類似人類的推理能力,這意味着它能夠在處理複雜問題時,不僅僅是簡單地匹配已知的數據模式,而是能夠在模型內部執行一個類似於“思考”的過程。這種能力讓 o1 在物理、數學、生物和化學等多個學科領域的表現力都不錯。關於 OpenAI o1 是如何實現這一突破的,新浪微博首席科學家和新技術研發負責人張俊林進行了深入的技術解析,揭示了 o1 模型背後的技術原理和創新。

張俊林 新浪微博首席科學家、新技術研發負責人

張俊林首先從認知科學角度解釋了 o1 的重要性。人類大腦有兩種思考模式:快思考(系統 1)和慢思考(系統 2)。傳統大語言模型如 GPT-4 類似於系統 1,只能進行快速、直覺式的反應。“它一旦輸出某個 token 就不會回頭修正,即使發現錯誤也只能用更多的錯誤來掩蓋,這也是大模型產生「幻覺」的重要原因之一。” 而 o1 則通過強化學習實現了類似系統 2 的深度思考能力。

在奧林匹克數學等高難度測試中,o1 展現出了遠超 GPT-4o 的表現。“最新版本在奧數測試中能達到 56 分,而此前的模型只有 13 分左右。這種在複雜邏輯推理方面的巨大提升,將爲 Coding 等複雜應用帶來革命性變化”,張俊林分析道。更重要的是,o1 開創了強化學習 Scaling Law 的新範式。傳統的 Scaling Law 認爲只要增加模型規模、數據量和算力,模型性能就會持續提升。“但這條路已經接近極限,目前最大的訓練數據集也就是 18T 數據,想要獲得更多高質量數據越來越困難。” 張俊林指出,o1 通過在推理階段引入強化學習,開闢了能力提升的新路徑。同時,o1 也爲小模型發展掃清了障礙。

在探討 o1 的技術架構時,張俊林認爲它很可能借鑑了 AlphaZero 的思路。“在 o1 發佈後,OpenAI 團隊多次提到他們一直在思考如何將 AlphaZero 的搜索模式引入語言模型。” 他分析,o1 可能採用了連續狀態空間(輸入問題和已生成的思考過程)配合離散行爲空間(各種思考模式)的設計,通過強化學習來選擇最優的思考路徑。

“最關鍵的創新在於如何將強化學習與語言模型結合”,張俊林解釋說,“強化學習負責在高層次上選擇思考策略,而語言模型則負責具體的 Hidden COT 對應Token的生成。這種結合讓模型既能進行系統性的規劃,又保持了語言表達的流暢性。”

對於 o1 是否由單個模型構成的爭議,張俊林傾向於認爲是多模型協同的結果,最小構成可能是主模型+COT 摘要模型,也可能是主模型+輔助模型池子+COT 摘要模型。

如今 o1 模型這種以強化學習與 LLM 融合構造的新型架構模式已經開始改變整個行業。張俊林以搜索引擎爲例,“在 o1 之後,各大搜索引擎紛紛推出'深度搜索'功能,通過將複雜問題分解爲多個子問題,對多次搜索結果通過邏輯推理來整合最終答案,這本質上就是借鑑了 o1 的思路。”

大模型的未來之道

在本次主會壓軸的圓桌對話環節中,CSDN 高級副總裁李建忠、Codeplay 技術副總裁 Michael Wong、傳神語聯副總裁藺偉、新浪微博首席科學家和新技術研發負責人張俊林在 CSDN &《新程序員》執行總編唐小引的主持下,圍繞“大模型的未來之道”展開深入探討,共同探索大模型技術的發展方向與挑戰。

張俊林直言,當前大模型的幻覺問題並未得到根本性解決。他分析說,幻覺的來源非常複雜:“一種可能是模型內部知道答案卻沒有輸出,另一種可能是根本就沒有學到這個知識。” 雖然業界普遍通過 RAG 的方式來應對這個問題,但這只是應用層面的緩解方案。“爲什麼說 GPT-4 會產生幻覺?因爲一旦它輸錯了一個點,後面就會產生更多錯誤去讓整體看起來更合理,這也是幻覺產生的原因之一。這是個非常難解決的問題,目前並沒有被根本解決。因爲幻覺的來源多種多樣,很難用統一的方式把所有問題都解決。”

在談到大模型邏輯推理能力的提升時,張俊林強調了預訓練和 inference 階段推理的相互促進關係。當前的一大趨勢是在預訓練階段加入大量代碼、數學或科學論文來增強模型的邏輯能力。而談到 o1 模型帶來的影響,他預測未來算力資源分配將發生顯著變化:“真正從頭做大規模訓練的公司會越來越少,因爲投入的資源是巨量的,而更多算力資源會投向模型在線推理階段。” 展望 2024 年,他認爲頭部公司如 OpenAI、Google、Anthropic 都會推出新一代大模型,“雖然可能不會帶來像 GPT-4 對 GPT-3 那麼大的提升,但效果仍會出奇地好。”

藺偉分享了傳神選擇零開源依賴路線的深層思考。“這取決於你是否有主動選擇的機會,還是被動選擇,” 他開門見山表示,這一戰略選擇得益於公司大模型團隊近 20 年來作爲技術極客和技術自信的持續探索。而在藺偉看來,OpenAI 的技術發展路線特別值得關注:“OpenAI 走了一條演繹歸納法的路,而大部分公司是通過應用來驅動需求的歸納演繹法。OpenAI 選擇在沒有大量應用的年代,通過演繹方式去推導第一性原理,這更適合科學技術的發展。”

在討論 Scaling Law 時,藺偉提出了一個生動的比喻:“假設一個手機預裝了全球的 App,它的成本大概是幾十萬一臺。對用戶來說,拿到手第一件事就是刪掉不需要的 App。” 他認爲,現在的集中式預訓練就像這樣,成本高昂且實用性不足。相反,更理想的方式是“把預訓練數據從十幾個 TB 減少到 10% 甚至更低,並且到達合格推理能力後再通過模型的數據實時學習能力學習客戶需要的更新數據。” 放眼未來,藺偉認爲大模型會經歷類似計算機發展的歷程:“從集中式的大型機過渡到 Unix 小型機、PC S 服務器,再到個人電腦和手機、傳感器,未來基於實時學習能力的分佈式訓練模式應該會成爲主流。”

李建忠立足技術演進的視角,對大模型的發展提出了獨到見解。他認爲,現階段大模型主要在生成式 AI 領域表現出色,但隨着推理能力的提升,將開始在更多確定性的執行場景發揮作用。“推理能力實際上在 o1 模型之前是比較弱的,”他解釋道,“所以在很多實際應用中,大家通常只把它用於生成性任務。但一旦涉及決策、醫療、法律這些嚴肅的場景,就會發現推理不足會帶來很多問題。”

關於擴展法則(Scaling Law),李建忠認爲它作爲一個已經被各方驗證的規律,其正確性是毋庸置疑的。關鍵在於其支撐條件:“算法、算力、數據這三個支撐條件中,互聯網領域的數據已經接近枯竭,但人類生活中還有大量動態的、實時的環境交互數據未被充分利用。” 他特別舉例說明:“就像特斯拉 FSD,每天有 幾多萬輛車在全球訓練,這種數據的反饋爲整個預訓練提出了新的改進要求。” 展望未來,他做出了明確的預測:“包括推理側的成熟、預訓練分佈式以及實時數據的接入,這些基礎設施在 2030 年左右會達到當年移動互聯網的成熟度。就像移動互聯網從 2007 年 iPhone/Android 發佈到 2015 年真正爆發一樣,大模型也需要這樣一個基礎設施完善的過程。”

Michael Wong 帶來了他對軟硬件生態系統的前瞻遠見。“令人驚訝的是,Scaling Law 在相當長時間內都是正確的,但現在可能已經趨於平穩,”他開篇點明,“這標誌着我們已經達到了通用預訓練模型的里程碑,下一個里程碑將需要更專業的硬件。” 在硬件發展趨勢上,他預見了激烈的競爭格局:“你們已經看到了張量處理單元(TPU)、數據處理單元和特定於 AI 的芯片的出現,這將推動像英特爾、AMD、英偉達這樣的傳統公司,以及 Cerebras、Graphcore、TensorTrend 這樣的新興參與者之間的競爭。也許有一天這些新興參與者會取代大公司,這正是爲什麼大公司都在積極尋求合作。” 能源效率問題也是他特別關注的焦點。“人們已經在談論使用核電站爲數據中心供電,” Michael Wong 指出,“雖然現在對能耗的估算存在爭議,但未來能源必然會成爲一個巨大的約束因素。”

在軟件生態方面,Micheal Wong 預測將出現專門的 AI 編程語言,並指出一個有趣的現象:“AI 科學家們正在解決編譯器工程師幾十年來一直在處理的問題,比如批處理、低延遲、緩存等。” 他以交通系統爲例形象地闡釋了軟件基礎設施的未來:“許多不同的交通網絡由不同運營商管理,它們必須協同工作。衆多的 AI 框架也必須像這樣學會相互溝通。這可以通過標準化實現,或者開發能在不同框架間進行翻譯的 AI 語言。”

精彩花絮,現場參會者絡繹不絕

在會場之外的展廳中,快遞100、人民郵電出版社異步社區、電子工業出版社博文視點、清華大學出版社、機械工業出版社、人民郵電出版社圖靈文化等合作伙伴展位吸引了衆多參會者的目光。參觀者們興趣盎然地與各展商交流互動,深入瞭解各項創新成果,現場熱鬧非凡!

至此,全球機器學習技術大會首日的技術盛宴圓滿落幕。來自學術界和產業界的專家學者爲我們帶來了對大模型技術發展的深刻洞察,從技術演進到工程實踐,從理論突破到產業落地,爲與會者呈現了一場高水準的技術分享。

明天,四大分論壇同步進行,大會將繼續圍繞大模型應用落地、多模態、視頻生成、代碼生成等前沿議題展開探討,更多技術創新與實踐經驗等待各位見證,敬請期待!

最後,還有一則好消息:ML-Summit 全球機器學習技術大會「雲會員」重磅來襲!雲會員將通過線上線下的多種互動渠道,與全球頂尖的 AI 專家們交流、學習與成長。無論您身處何地,雲會員計劃都將爲您打開通往知識與資源寶庫的大門。