王小川的步伐鏗鏘有力,百川再次迎來里程碑

6日,百川智能召開主題爲“百川匯海,開源共贏”的大模型發佈會,中科院院士張鈸親臨現場並發表致辭。會上,百川宣佈正式開源微調後的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat與其4bit量化版本,並且均爲免費可商用。百川智能同時還開源了大模型訓練的Check Point,併發布Baichuan2技術報告,詳細介紹Baichuan2的訓練細節,幫助大模型學術機構、開發者和企業用戶更深入的瞭解其訓練過程,更好地推動大模型學術研究和社區的技術發展。

體驗鏈接:

https://github.com/baichuan-inc/Baichuan2

報告鏈接:

https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf

此時距離百川智能的成立過去僅五個月左右,王小川當初的豪言“要做國內最好的大模型”,現在依然時常被人提起。看他最近幾個月的表現,王小川的話正在逐步成爲現實。

文理兼備,強過LLaMA2

這次的Baichuan2究竟有多強?Baichuan2-7B-Base和Baichuan2-13B-Base均基於 2.6萬億高質量多語種數據進行訓練,在保留了前代良好的生成與創作能力,流暢的多輪對話能力以及部署門檻較低等衆多特性的基礎上,兩款新品在數學、代碼、安全、邏輯推理、語義理解等能力都有顯著提升。舉個例子,Baichuan2-13B-Base相比前代,數學能力提升49%,代碼能力提升46%,安全能力提升37%,邏輯推理能力提升25%,語義理解能力提升15%。

7B和13B的兩款新品在各大評測榜單上的表現都頗爲亮眼,在MMLU、CMMLU、GSM8K等權威評估基準中都以明顯優勢領先LLaMA2。而對比其他近似參數量的大模型,它們的表現也可圈可點,性能優於不少同尺寸競品。而在MMLU等多個權威英文評估基準下,Baichuan2-7B以70億的參數,在英文主流任務上甚至能與130億參數量的LLaMA2一較高下,Baichuan2-13B則更勝一籌。

能超過“羊駝”的確可喜可賀,但是也請注意與更高標杆的差距。Baichuan2-7B對比GPT-3.5-Turbo還有進步空間,尤其是在安全、代碼、數學計算、邏輯推理等方面差距較大。

公佈技術報告,促進生態繁榮

雖然當前世界上自稱開源的大模型產品很多,但大部分都是公開自身的數據權重,對訓練相關的細節還是有所保留,其他企業或研究機構只能在此基礎上做有限的微調,很難進行深入研究。6日的發佈會上,百川正式完全公開Baichuan2的技術報告。其中詳細介紹Baichuan2訓練的全過程,包括數據處理、模型結構優化、過程指標等外界普遍關心的問題均可在其中查閱。

自四月成立以來,百川智能就一直通過開源的方式助力國產大模型的生態繁榮,並將此納入公司的重要發展戰略。成立不到半年,百川已經相繼發佈了Baichuan-7B、Baichuan-13B兩款開源免費可商用的中文大模型,以及一款搜索增強型Baichuan-53B,兩款開源大模型在多個權威評測榜單均名列前茅,目前下載量已累計超過500萬次。同時在上週通過《生成式人工智能服務管理暫行辦法》備案的企業中,百川也名列其中,可以正式面向公衆提供服務。

在6日的發佈會現場,新發布的兩款Baichuan2大模型得到了上下游企業的積極響應,騰訊雲、阿里雲、火山方舟、華爲、聯發科等衆多知名企業均參加了本次發佈會並與百川智能達成了合作協議。

首創全程開源,助力學術研究

一般說來,大模型訓練包含獲取保質保量的數據、大規模訓練集羣穩定訓練、算法調優等多個環節。每個環節都需要大量人力物力財力的投入,從零到一完整訓練一個大模型的高昂成本,往往就是學界對大模型深入研究的攔路虎。有鑑於此,本着協作和持續改進的精神,百川開源了新款大模型訓練從220B到2640B全過程的 Check Ponit。

這對科研機構研究大模型訓練過程、模型繼續訓練和模型的價值觀對齊等極具價值,將極大推動國內大模型的科研進展,開源訓練模型過程對國內開源生態尚屬首次。

在四月成立百川智能時王小川曾表示,公司的目標始終是“打造國內最好的大模型”,計劃在今年Q4時發佈對標GPT-3.5的大模型,明年Q1發佈超級應用,希望在開源閉源方面都能做出貢獻。“我們認爲國內有需求,也是我們能貢獻的地方是在開源方面。所以公司成立之後就開始發佈開源大模型,同時也兼顧了閉源大模型的訓練。”

雖然四月時“打造國內最好的大模型”曾引起不小的爭議,但經過近幾個月的實際表現來看,王小川可能沒有吹牛。即便百川后續的產品沒有達到外界預期,但它勢必在國產大模型的征程中留下難以磨滅的一筆。