李彥宏給開源大模型潑冷水,他們卻有不同看法|解碼AI
大模型究竟開源好還是閉源好?近日,圍繞開閉源的路線之爭,因百度董事長李彥宏的一則內部講話再掀風浪。
4月11日晚,百度董事長李彥宏的內部講話曝光,給開源大模型潑了不少冷水,他稱大模型開源的意義不大,閉源模型在能力上會持續領先而做模型的創業公司既做模型又做應用的“雙輪驅動”不是一個好的模式。
“1.關於開閉源之爭,核心是要看誰在開源。2.雙輪驅動,是一線創業AGI公司的唯一解。”第一財經記者獨家獲悉,當晚,百川智能CEO王小川在一次微信羣討論中發表了不同觀點。
在羣裡,金沙江創投主管合夥人朱嘯虎也表示:“GPT4就能實現90%以上的商業需求,開閉源無所謂了,以後大模型API就是自來水的價格。”他又補充道:“但是用戶需要的是純淨水,氣泡水,烏龍茶……”
大模型生態社區OpenCSG的創始人陳冉在接受第一財經記者採訪時表示,自己對於開源意義不大的說法“嚴重不認同”,無論是國內還是海外,大模型開源都已經成爲一大趨勢,且開源趨勢會促進和推動行業在這之上的商業化,快速迭代、快速試錯、共創共擔,“開源只會越來越澎湃向上”。
在業界,堅定認爲閉源大模型好於開源大模型的業界人士,與推動大模型開源者形成兩股分流。第一財經記者與多名業內人士交流了解到,閉源和開源大模型在應用場景上形成了初步分化,兩者各有利弊,但在大模型應用初期都有生存空間。
閉源還是開源好?
在國內科技大廠中,百度、字節、騰訊、華爲等公司目前尚未公佈過開源大模型。與此同時,也有不少企業選擇了閉源與開源並行的路線。截至目前,包括阿里通義千問、百川智能、360、崑崙萬維、智譜AI、浪潮、智源、科大訊飛、零一萬物、APUS等都曾發佈不同參數的開源大模型。其中達到千億參數的開源大模型有APUS-xDAN 大模型4.0(MoE)(1360億)和浪潮信息的“源2.0” 102B(1026億)。
爲什麼李彥宏認爲大模型開源的意義不是很大?在內部講話中,他給出的理由是,有商業模式的閉源模型才能聚集人力和財力,中國和美國最強的基礎模型都是閉源的,而最好的小模型都是大模型降維做出來的,而且閉源在成本、效率上有優勢,同等能力閉源模型推理成本更低,響應速度更快。
他還有另一個理由,即模型開源跟傳統軟件開源如Linux、安卓不同,“雖然開源模型Llama也鼓勵大家貢獻各種各樣的數據、代碼,但實際上最主要的開發者就是Meta,不是一個真正大家一起來協同開發的產品。”
站在“閉源”一面的,還有月之暗面創始人楊植麟、他此前曾在接受採訪時表示,閉源會有人才聚集和資本聚集,最後一定是閉源更好,海外有幾百個基於開源擴散模型Stable Diffusion的應用,但沒有一個跑出來。
楊植麟此前還曾提到,以前所有人都可以貢獻到開源中,而現在大模型開源本身還是中心化的。截至目前,月之暗面並未公開提及有關開源大模型的具體計劃或項目。
更早之前,人工智能科學家沈向洋在一個行業論壇上談及大模型開源閉源路徑之爭。他認爲,業內第一名一定是閉源,第二名他仍然躊躇不定,第三名纔會是開源。
但總有人相信開源的力量。
一家開源不同參數規模的模型,同時也做閉源大模型的負責人告訴第一財經記者,模型的能力在不斷髮展,AI領域的技術創新和突破一直沒有停止過。不同的企業和開發環境,會對模型尺寸、模型能力,以及背後的資源有不同的考慮。有的時候大家考慮的是極致的性能,有的是有充分的資源,需要更高質量的模型。
還有從業者對記者表示,李彥宏的意思是創業者依賴百度大模型就夠了。但目前大模型還處在發展初期,遠沒有誰一家獨大或者壟斷行業。即便百度是國內較早入局大模型的一個,現在也正面臨着月之暗面Kimi的突襲。
王小川也認爲,開源和閉源並不像手機中iOS或者安卓操作系統只能二選一,開源確實容易“建立人品”,“朋友多多的”,讓大家迅速瞭解和評測大模型的好壞。同時開源也是爲商業化做準備,如果大家用起來覺得不錯,當需要更好的服務和更大的參數時,可以探索進一步的商業化路徑。
此前,阿里雲CTO周靖人在接受包括第一財經等媒體採訪時也曾迴應路線之爭,他稱開源社區已經蓬勃發展起來了。他稱,阿里雲的初衷不是把模型攥在自己手上去商業化,而是幫助開發者,開源生態對促進中國大模型的技術進步與應用落地,以及生態的蓬勃發展至關重要 。
“從資源、數據和人力看,有商業模式的閉源大模型比開源大模型做得好的說法,一定程度上是成立的,原因是模型訓練成本高,需要財力支持,例如訓練一次要1000萬美元。”新浪微博新技術研發負責人張俊林告訴記者。但從另外一個角度看,這個說法又不完全正確,因爲現在很多開源大模型也是大公司做的,也有資源投入。
上海人工智能實驗室領軍科學家林達華教授對第一財經表示,閉源可能會在產品打磨上做得更強,所以產品成熟度各方面會更好,而對於開源模型來說,在產品成熟度上雖比不過閉源模型,但它能夠支撐更廣泛的從業者使用並進行二次開發,“最後可能開源模型的真實市場佔比會非常高”。他認爲,開源閉源會呈現出一個互補的道路,這與過去計算機技術發展潮流裡操作系統領域的windows和Linux類似。
開放原子開源基金會資深法律顧問劉偉此前在GDC大會上表示,閉源模型有幾個瓶頸,一個是雲端推理的成本太高,如果併發需求很高可能隨之產生很大的延遲。模型越大其靈活性和經濟性越低,還有模型通常的幻覺問題可能也需要場景的支持才能進一步結合。
“開源模型勝在開源小模型上,可以靈活部署到終端設備上,包括PC、手機上可以實現低遲延推理的AI體驗,可以用高質量的數據訓練出垂直領域的應用,可以加快大模型在應用中賦能千行百業中,也就是說閉源的‘病’開源剛好都可以‘治’。” 劉偉提到。
MiniMax 技術副總裁安德森此前對第一財經記者表示,開源和閉源各自都有存在的優勢和價值。開源能吸引更多開發者共同參與,加速技術的發展和普及,也能激發出更多的創新和創意。閉源模型的質量和穩定性更可控,能更好地保護知識產權、推動商業化落地。“我認爲開源和閉源可以相互補充,形成一種更加開放、協作和創新的發展模式,共同推動大模型領域的發展。”
大模型開發者高曉安(化名)去年便開始根據開源模型微調並在開源平臺上發佈項目,他認爲,開源給大模型生態帶來了有利的改變。“大模型開發者可以基於開源模型做許多二創工作,出現了各種版本的StableDiffusion模型,各種基於Llama模型的中文Llama模型等,這是閉源模型無法做到的。”
高曉安還認爲,開源大模型的另一個優勢不能忽視,相比使用將公司資料‘喂’給閉源模型可能造成的數據泄露問題,收集獨有的業務數據以訓練開源模型則少了這方面憂慮,經過訓練的模型亦可媲美甚至超越ChatGPT等閉源模型。當然,開源大模型還有一個優點,即給大模型企業“打廣告”,包括谷歌、阿里、百川智能在內,都開源了參數量較小的模型,參數量較大的模型則閉源甚至收費。
開源ToB閉源ToC?
談論開源大模型好還是閉源大模型更好,一個潛在語義是兩者會在相同的應用場景互相較量。但實際上,目前開源大模型和閉源大模型已形成了一定程度的分化。有大模型開發者告訴記者,基於免費和數據安全考慮,很多公司已在開源大模型的基礎上做出了自己的大模型。
“開源和閉源形成兩個陣營,場景上看,開源更傾向於To B,閉源更傾向於To C,是兩個賽道。”張俊林表示,開源無法To C,因爲不提供具體產品,不可能響應個人用戶,但開源可以面向企業,企業可以基於開源大模型,獲得在數據隱私性上的優勢。
王小川認爲,從To B角度,開源閉源其實都需要。未來80%的企業會用到開源的大模型,因爲閉源沒有辦法對產品做更好的適配,或者成本特別高,閉源可以給剩下的 20%提供服務。二者不是競爭關係,而是在不同產品中互補的關係。
林達華提到,從ToB的角度來說,開源會比閉源更好,因爲它有更大的開放性去做二次開發。雖然未來閉源模型廠商會推出平臺化的服務,開發者在上面用其標準化的工具可以做單一行業和垂直方向的模型。但是各行各業的需求非常複雜和多樣化,可能並不是標準化的一套工具鏈能全部覆蓋的。
“很多行業的企業和機構會有需求,想自己掌控整個模型的迭代,引導到自己需要的方向上去,但他們沒有基礎模型的投入,也不願投入太大或沒有這個能力,在這種情況下開源模型對他們來說是個最好的選擇,可以圍繞它做各種細節上的二次開發,這種開發不一定是標準的工具鏈能夠支撐的。“林達華表示,未來這種開源的模式能夠支撐經濟體系裡大量的產業需求。
對於閉源模型來說,更大的機遇在一些非常聚集的賽道,“如最後有可能會出現一個聊天APP,有非常大的C端流量,這一方向有可能就是一些大廠在一個商業化的體系裡走出來。”
林達華認爲,閉源大模型核心的邏輯在於它能夠構成商業閉環,能夠有大量的用戶反饋,在固定的渠道里形成壁壘,假設最終其能找到真正擊中用戶痛點的地方,且通過用戶的反饋能夠去提升能力,那它就能佔住一個賽道,在這裡面進行商業化變現。最終,面向不同的需求,會有不同的模式,閉源和開源會形成一個互補的效應。
從大模型廠商的選擇層面看,張俊林認爲,選擇開源是一種差異化策略。閉源大模型商業模式更加清晰,但弊端在於,如果模型效果做不到最好就很難收費。而如果走開源路線,雖然原則上模型不收費,但也可以據此形成商業模式,就像開源的Linux也有商業模式。所以廠商如果沒有信心將大模型做到最好,開源便是一個選擇。
張俊林認爲,開源不一定就會成功,開源大模型即便不是最好,也應該有特點,開源大模型應有準確定位。例如走“小而強”路線,參數量小雖然不如參數量大的模型效果好,但有成本低、部署簡單、對硬件要求不高的特點,可以部署至移動設備,應用場景多。另外一種選擇則是做大參數,例如Grok,主打性能好的特點。
高曉安在體驗後對記者表示,開源大模型和閉源大模型的做法也存在差異。雖然近期開源的Grok-1參數量達到上千億,但很多開源大模型參數量只有70億、130億參數,如阿里雲Qwen-7B、Baichuan2-13B。他告訴記者,相比閉源大模型比拼參數,這些小參數量開源大模型能通過堆更多預訓練數據,達到較好的效果。
“同樣的數據量情況下,更大參數模型的訓練收斂速度更快,效果也更好,但訓練成本也高很多。而小一些的模型部署成本更低,在實際業務中使用更友好,且有一些實驗表明,70億和130億模型預訓練數量還沒達到飽和的程度。”高曉安認爲。
張俊林也認爲,現在小模型的能力已在快速提升,且能力還看不到上限,原則上只要給小模型更多數據,效果還會持續上升。
不過,高曉安認爲開源大模型也有明顯弊端,若不談開源大模型的廣告效應,開源大模型本身商業化仍存在一定難題。開源模型可以考慮針對商用版本收費,但在開源大模型競爭激烈的情況下這種做法比較困難。
開源公司的盈利點在哪裡?林達華認爲,開源廠商可以建立一種服務,“有價值的不完全只是模型本身,而是連帶着它的服務,因爲基於開源模式做二次開發是相當複雜的事情,在沒有足夠的技術支持的情況下,做這個事的成本會非常高,這時候技術服務的價值就能夠發揮出來。”
對於開源的商業模式,陳冉認爲,這個打法就像互聯網時代移動應用的市場模式,“免費試用一段時間,後面有企業包裝後的功能或者服務,這個東西也相當於汽車裡的發動機,直接用不起來,需要包裝成整車(企業功能)。”
“大模型會展開一個非常大的商業空間,不同的方式不同的點上,會有很不一樣的模式,最忌諱的是把所有東西套到一個‘鞋子’上面。”林達華對第一財經說。