騰訊大模型開源的“冷思考”
本報記者 李靜 北京報道
繼騰訊混元文生圖模型開源之後,近日,騰訊混元最新的MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”也正式開源,支持企業及開發者精調、部署等不同場景的使用需求,可在HuggingFace、Github等技術社區直接下載,免費且可以商用。
據介紹,騰訊混元Large是目前開源領域參數規模和效果表現都較好的MoE模型(Mixture of Experts,即混合專家模型,是目前國內外主流的大模型結構),而騰訊混元3D生成大模型則是業界首個同時支持文字、圖像生成3D的開源大模型。兩個模型均屬騰訊自研,在架構、算法、數據等方面有獨特創新,填補了行業空白。目前,兩個模型均已經在騰訊業務場景中落地應用,經過實踐的檢驗,是面向實用場景的應用級大模型
AI大模型浪潮席捲而來之時,騰訊不是衝在最前面的那一波;當市場上關於開源與閉源爭論不斷時,騰訊也沒有着急站隊。如今在開源文生圖視頻模型之後,騰訊又陸續開源了一些模型,在大模型的開閉源上,騰訊混元大模型究竟是怎麼考慮的?
“騰訊做大模型一年多時間並沒有着急去開源,我們認爲很重要的一個原因是開源的結果,其實是自然而然的發展,而且騰訊是在閉源做得比較好之後才做的開源。”騰訊機器學習平臺總監、騰訊混元大語言模型算法負責人康戰輝在接受《中國經營報》等媒體記者採訪時說道。
2023年9月,在2023騰訊全球數字生態大會上,騰訊混元大模型正式亮相,並宣佈通過騰訊雲對外開放。2024年5月,騰訊混元文生圖大模型全面升級並對外開源。
大模型市場上關於開源還是閉源一直都有爭論。百川智能在2023年6月15日發佈了國內首款開源可商用的70億參數量大語言模型Baichuan-7B,上海人工智能實驗室在2023年7月開源了書生·浦語大模型70億參數的輕量級版本InternLM-7B,Meta在2023年7月發佈了LLaMa 2模型,並在2024年4月發佈了Llama-3。
還有一些廠商則是閉源大模型的擁護者。OpenAI的GPT系列、谷歌的Bard、百度的文心大模型都是市場上著名的閉源大模型。
該如何定位大模型是開源還是閉源?康戰輝指出,對於頭部大型企業來說,業務多且複雜,超級複雜的業務可能就是需要閉源大模型才能解決,雖然成本攤下來更大,但提升的能力更強。開源大模型面對的則是不同的開發者,尤其有大量的中小企業,以及個人開發者,他們對成本的考量更重一些。
騰訊大模型則是在閉源做好之後再逐步對外進行開源。在開源選擇上,騰訊混元大模型選擇了先開大的後開小的。康戰輝解釋這一選擇背後的原因:“首先,開源理念上先開大的模型,是因爲我們開始做的東西都是大的,這是歷史原因。另外,我們優先考慮把騰訊內部業務上使用的模型對外開源,後續還會開源一些小的模型,也是延續這個模式。”
以此次開源的騰訊混元Large爲例,該模型已經在騰訊內部的AI搜索、AI閱讀等業務做過試用,騰訊金融領域、協同辦公三件套等業務裡面都涉及到騰訊混元Large,有些已經上線使用。
對於騰訊混元大模型開源時間晚於市場上很多的開源大模型廠商,騰訊方面則認爲“好飯不怕晚”。
“去年大模型如火如荼,開源大模型也是百花齊放。今天大家來看,大家還是各歸各位。”康戰輝說道,“底層大模型就是AI時代的一個操作系統、是一個底層基礎設施、是一個長期的事情,另外,底層模型不是C端產品,不存在入口、流量問題的困擾,是可以沉下心來長期深耕的事情,所以我們認爲多模態大模型真的一點不晚。”
據介紹,現在騰訊混元大模型開源的參數權重,並不涉及到數據和代碼,但是接下來會把訓練的代碼開源出來,同時會把評估期開源。
康戰輝表示:“大模型開源數據本身意義不大。”因爲大模型不是軟件,而是靠大量數據驅動。舉一個例子,學界有很多開源的模型、開源的數據,但是開源數據很難被大家共建,因爲數據規模太大了,不是寫一行代碼就能共建的事情。現在的大模型普遍訓練的數據都是幾萬億tokens,對於業界來講是很難把數據維護起來去做進一步的挖掘。
(編輯:張靖超 校對:顏京寧)