阿里雲CTO談大模型開閉源之爭:模型應用不能只對接一個形式
5月9日,阿里雲正式發佈通義千問2.5,並稱在中文語境下,模型性能全面趕超GPT-4 Turbo。相比於通義千問2.1版本,通義千問2.5的理解能力、邏輯推理、指令遵循、代碼能力分別提升9%、16%、19%和10%。
當前行業對大模型的關注除了各項參數本身,有關開源與閉源路線之爭也成爲一大焦點。談及此話題,阿里雲首席技術官周靖人在接受界面新聞等媒體採訪時表示,模型之上的應用和創新非常多,不能僅僅侷限於使用某一款閉源的框架或者說只能對接某一個形式。
在他看來,不管在PC端還是手機端,大模型可以適配各種各樣的場景,能夠快速搭建更加複雜的業務,而這需要一個非常開放的開源生態去對接,全球開發者以及全球企業都在擁抱這樣一個體系。
和周靖人的觀點所不同,百度CEO李彥宏在今年4月的一次內部講話中表示,閉源模型在能力上會持續地領先,而不是一時地領先。模型開源也不是一個衆人拾柴火焰高的情況,這跟傳統的軟件開源,比如Linux、安卓等很不一樣。
李彥宏認爲閉源是有真正的商業模式的,是能夠賺到錢的,賺了錢才能聚集算力、聚集人才。
在李彥宏表達其看法之後,多位互聯網大佬給出了自己的判斷。比如,360公司CEO周鴻禕表示,一直相信開源的力量,未來一兩年內,開源的力量很有可能會達到或者超過閉源的水平。知名投資人朱嘯虎則稱,開源小模型必然是未來方向,且商業機會很多。
大模型開源和閉源的路線之爭,本質上是在探討開發者能否幫助大模型進行迭代升級。
大模型的開源和軟件開源是完全不同的邏輯,開源軟件因爲代碼完全公開,社區開發者可以參與迭代,不斷提升軟件能力。但開源模型像一個“黑箱”,不管是模型、算法還是數據,都無人知曉,只是最終產生一個模型開放給用戶使用。在一些堅持閉源邏輯的廠商看來,開發者參與對大模型迭代幫助不大,開源大模型和開源軟件是兩回事。
對此,周靖人表示,整個開源的開發者生態對技術發展的貢獻毋庸置疑,這也是他對開源生態基本的判斷。
他指出,大模型帶來的潛力還沒有被真正挖掘出來。目前有很多企業是結合自實際的開發場景和業務需求去做,未來還將有一個翻天覆地的變化。在這個時間點,阿里雲希望能夠以開放的心態把先進的技術開源出來,讓大家做並行探索。
阿里雲公佈的最新數據顯示,通義大模型通過阿里雲服務企業超9萬,通義開源模型累計下載量突破700萬。
通義大模型已經在PC、手機、汽車、航空、天文、礦業、教育、醫療、餐飲、遊戲、文旅等多個領域落地,阿里雲堅持的開源生態也不僅限於大語言模型領域,還包括視覺模型、聲音模型。比如,中國科學院國家天文臺人工智能組基於通義千問開源模型開發了新一代天文大模型“星語3.0”,這是大模型首次應用於天文觀測領域;陝煤建新煤礦等十餘座礦山推出由通義大模型支持的新型礦山重大風險識別處置系統,成爲大模型在礦山場景的首次規模化落地。
另據界面新聞了解,雖然阿里雲一直堅持開源模式,但其也在佈局閉源模型。目前無論是開源模型還是閉源模型,大模型平臺還未靠大模型本身實現盈利。從亞馬遜等國際互聯網巨頭的實踐也可以看出,他們是在通過出售搭載大模型能力的雲服務賺錢。
有分析認爲,阿里雲現階段強調堅持開源,目的不僅僅是開源本身,而是通過開源把大模型能力做強。
阿里雲方面也在有意強調通義千問的能力。除了通義千問2.5在中文語境下模型性能全面趕超GPT-4 Turbo之外,通義還發布了最新款開源模型——1100億參數的Qwen1.5-110B,據稱該模型在MMLU、TheoremQA、GPQA等基準測評中超越了Meta的Llama-3-70B模型。