英偉達已成大模型行業的“蘋果”,無問芯穹要做一種更兼容的“安卓”

作者 | 王兆洋郵箱 | wangzhaoyang@pingwest.com

1

轉折

2018年夏天,夏立雪提交了他在清華大學電子工程系的博士論文。時間往前推5年,他的導師汪玉剛剛成爲副教授,有了帶博士的資格,於是夏立雪成爲了汪玉的第一位博士生,進入了NICS-EFC實驗室,這個實驗室專注於做一件事:

針對深度學習的軟硬件聯合優化。

今天已是清華大學目前最年輕系主任的汪玉,博士畢業留在電子系任教時選擇了定製應用域加速的方向,這在那時這是個較少人研究的領域。人工智能需要軟件和硬件一起實現,區別於今天人們經常會刷到的各種算法層面的優化方法,也區別於以英偉達一代又一代新架構爲代表的硬件本身的迭代方法,這個實驗室在走第三條路。它希望從軟硬件的結合處來切入。汪玉很早提出了“深度學習算法-編譯-芯片聯合設計”的路線,這也成爲軟硬件聯合優化的一個典型路線。

這個實驗室在2016年孵化了AI芯片公司深鑑科技,它從軟件的升級來提升硬件的效率,並在2018年被賽靈思用3億美元收購。這證明了這個技術的產業價值,然而這個技術路線一直無法更進一步:當時的AI領域,落地解決各個場景的算法都是一個個特定的小算法,要服務100個場景,就要做100次聯合優化。

它沒有規模效應。

“在2018年的時候,我們沒有預料到這個問題最終解決的方式,但我們相信硬件一定會遇到瓶頸,這時就需要新的東西去做極致的跟進。”夏立雪對我說。深鑑是第一條路,而夏立雪們走了另一條路:

“我們相信一定會不斷有新的計算範式能覆蓋全新應用場景,使得軟硬件聯合優化這件事成爲行業不斷髮展的關鍵。”

這個“賭注”在2022年底有了結果:ChatGPT征服了世界,基於Transformer架構的大模型統一了天下。

勝出的不只是這個賭注,軟硬件聯合優化這件事一下子變成了可以標準化和規模化的技術——從要服務100個場景就要做100次聯合優化,到一次聯合優化就能滿足80%的需求,一個十餘年積累的技術等來了一個意料之外的轉折時刻。

“等”了十年的人們自然知道其中意義。作爲汪玉實驗室“大師兄”的夏立雪與汪玉以及諸多師兄弟密集溝通後,只用幾個月快速完成了團隊組建。在2023年初,一家叫做無問芯穹的公司成立。汪玉爲無問芯穹的發起人,夏立雪擔任CEO, 原商湯科技數據與計算平臺部執行研究總監、時任北京大學副研究員的顏深根,以及現任上海交通大學長聘教軌副教授,清源研究院人工智能設計自動化創新實驗室負責人戴國浩爲聯合創始人,分別擔任CTO和首席科學家。之後它也快速完成了數億元人民幣融資。

無問芯穹希望把汪玉實驗室過去十年積累的全棧技術,變成可以規模化服務整個模型產業的標準化產品。“MxN”是他們創業以來主打的標籤:它希望打破不同芯片不同模型的阻隔,用軟硬件聯合優化的方式把M種模型和N種芯片統一起來。

但可能性遠不止於此。

用夏立雪的話說,模型成本下降本質上是要做三件事:能源公司負責確定每一度電的價格,模型公司決定一個token能做多少事情。而在這中間,就是每一個 token 用多少度電的問題。

“我們要解決的是這個問題。”

1

AI Infra公司終於可以成爲“安卓”

第一次召開產品發佈會時,夏立雪站在臺上,背後是無問芯穹的一整個技術產品圖。它全面而細緻,涵蓋了大模型從訓練到推理,從芯片到應用的各個環節。

無問芯穹構建了一整套從底層芯片到上層模型的“全棧垂直優化”技術:

在推理層,無問芯穹將其前沿研究成果FlashDecoding++以及在多款異構芯片上的FP16、INT4精度的計算優化技術集成在Infini-ACC大模型計算優化引擎裡,同時結合請求服務層面的高效調度技術,顯著提升推理速度和系統吞吐率,超越國際最主流的推理框架vLLM。

對推理進行優化已經是個確定的需求,也有很多創業公司在做相似的事情。

更重要的在於訓練層面。無問芯穹的Infini-AI能實現異構混訓,也就是在訓練階段,用不同廠商的芯片來一起提供算力。

站在2024年上海世界人工智能大會的舞臺上,夏立雪發佈了無問芯穹大規模模型的異構分佈式混合訓練系統,千卡異構混合訓練集羣算力利用率最高達到了97.6%。同時,他宣佈無問芯穹Infini-AI雲平臺已集成大模型異構千卡混訓能力,是全球首個可進行單任務千卡規模異構芯片混合訓練的平臺,具備萬卡擴展性,支持包括AMD、華爲昇騰、天數智芯、沐曦、摩爾線程、NVIDIA六種異構芯片在內的大模型混合訓練。

無問芯穹希望把這一切用標準產品提供給用戶,讓他們可以在無感知的情況下用上異構、高性價比且好用的算力,那些其他方式或平臺訓練而來的模型也可以0成本遷移到無問芯穹的平臺上。

深度學習本質上是一個擬合器,讓模型通過學習大量數據,產生預測數據的能力,然後用神經網絡把參數定下來,再通過給足夠多的X、Y做標記,從算法的層面上去支持不同的應用。這些計算通過GPU爲主的芯片完成。而優化就是要幫助這個過程中的各個環節去繁從簡,多餘的邊和點去掉,可以進一步壓縮的地方抽象成一個層級,芯片的電路等設計也根據這些特點做出改進。過往對於人臉識別,語音識別等各種場景,要用不同的模型,也就要做不同的優化。而現在一個Transformer統一了大部分模型的底層,優化也就可以更加集中。

無問芯穹這樣的AI Native Infra公司終於可以封裝一切。

“因爲模型通用了之後,把原本Infra的切面從一個更底層的東西推到了大家面前,把這個賽道的所有的事情都變寬了。”夏立雪說。

但除了技術範式演變帶來的機會,顯然無問芯穹的新模式也也與今天算力市場被英偉達“壟斷”的格局有關。

最理想的情況當然是所有開發者都可以用到性能最強的芯片。但現實顯然骨感很多。一方面,英偉達性能最強的芯片本身也在遭遇產能限制,另一方面,中國市場面對的是更嚴峻的現實,英偉達的高端產品進不來,芯片高端工藝受限,國產品牌選擇較多但又都處在追趕狀態,模型廠商們需要異構集羣。

無問芯穹的MxN方案可以幫助這些芯片廠商與英偉達競爭,同時幫助模型廠商從英偉達享受的緊俏資源競爭中脫身。

事實上,英偉達也是軟硬件聯合優化路線的集大成者。

人們對英偉達展開過無盡的分析,但這些視角總是從硬件或軟件的單一維度去分析英偉達:強大的CUDA已經是黃仁勳欽定的護城河;硬件上英偉達已經開啓智能手機的節奏一年一代,並且優先享受制造廠最先進製程的產量。

因此外界也很容易會認爲英偉達內負責軟硬件之間協同的部門,似乎會處在不可一世的CUDA和貢獻現金的硬件芯片的“夾縫”中,忙於處理銜接兩者的需求。但據英偉達內部員工介紹,事實上,英偉達的軟硬件協同部門,是一個可以給CUDA團隊和芯片硬件團隊同時下需求的存在。

而這樣的路線終將迎來對手,無問芯穹是其中之一。但這個對手不是一個芯片公司,於是一個問題也隨之而來:英偉達把一切掌握在自己手裡來做協同優化,而作爲一個AI Infra公司的無問芯穹,面對的則是各個獨立的芯片和模型公司,它要如何帶着大家“團結”起來?

“原因很明顯,過度依賴單一硬件平臺可能會使企業面臨供應鏈風險,現在算力集羣也有多種選擇,絕大部分集羣已經或正在從同構轉向異構,這個事情現在是成立的。”夏立雪說。

“大模型現在在落地的關鍵階段,它對於成本是有很強的訴求。所以我們其實是要聯合模型、聯合硬件,共同把模型成本打下去,讓它的市場需求無限大。”

今天所有人有共同的目標,這是一個難得的共識,也是一個難得的機會。

這些變化也帶來了新的打法上的可能。

在過往挑戰英偉達的各種路線裡,如何穿越CUDA的護城河是一個繞不開的話題。很多公司選擇從CUDA的兼容入手。但夏立雪認爲現在可以有新的身位。

“CUDA其實可以理解爲一個硬件的說明書,當然最簡單的方法是把所有人的說明書都彙總起來,甚至編寫一個自己的說明書。但問題是,這樣做,我面向的還是那些翻看說明書的人。”他說。“但其實每個人用手機的時候,根本就沒有翻過手機說明書。”

“所以我們想做的是把所謂的CUDA做厚,厚到算法語言的這一層,這樣的話它看上去統一了CUDA,但我其實不需要把說明書合併,我只需要把所有的手機的界面通過一個安卓系統,接到不同家的芯片,接到不同家的手機。”

從這個意義上,無問芯穹的全棧系統其實就是一個全新的操作系統,一個要把各家的“CUDA”都接入其上的安卓。

“而這件事的基礎就是真的可以存在一個安卓。”他說。“是大模型使得這件事從不可能變成了可能。”

在大模型統一了底層框架帶來規模化的可能之前,AI Infra公司沒機會成爲一個“高兼容的安卓”。現在無問芯穹認爲,天時地利人和都齊了。

“今天能做成這件事,天時地利人和都有。當前我們來牽頭可以得到認可。因爲不是我們在追着別人幹,而是大家都會認可我們的價值。”夏立雪說。

“清華電子系奠定了這樣一個技術基礎,我們和這些模型公司和這些硬件公司都有充分信任關係,所以更應該在這個時代站出來做這個事情。”

1

算力的運營商

任何因爲新的技術機會而誕生的公司都會面對兩個問題,一是當下的商業模式,二是未來行業穩定下來後它的定位。無問芯穹對這兩個問題都想的挺明白。

在商業模式上,無問芯穹沒有走ToB領域最常見的軟件付費模式。這也是中國toB一直繞不開的一個坎。美國的每一個細分領域都可以基於軟件付費生長出成功的ToB公司,但在中國市場似乎總是走不通。

無問芯穹找到了另一條路。夏立雪把它形容爲“運營商”模式。

在夏立雪看來,無問芯穹是一個運營商的角色——它本質上在運營算力資源,軟件平臺是運營資源所需要的工具。

“我們看到了能夠帶着硬件,帶着資源去售賣,而且客戶是認可我們的價值的。”

而它的大客戶就是模型廠商。

大模型在今天是個由算法在帶着上下游走的行業。“它中間尖,像大雁飛行的陣容一樣,由模型指導着下面需要什麼樣的集羣和算力,上面需要什麼樣的應用,能做什麼樣的場景。”夏立雪說。

“那麼,整個行業由算法驅動,算法其實是大模型公司在做。我們的大客戶就是大模型公司們。我要跟着這個行業最先進的信息跑,我才能持續知道我上下游對應的資源要怎麼配置,我對應的場景會在什麼地方爆發,會有什麼樣的客戶。我會順着大客戶帶動小客戶的方式,這樣我們的決策風險和效率指向都是更可控的。”

2018年從清華博士畢業之後,夏立雪加入了阿里雲。此前更多在對內提供技術服務的阿里雲,在當時開始對外服務,並承擔營收任務,夏立雪負責起阿里雲的用戶增長產品,從一個技術人的角色變爲業務的負責人。

這段雲計算的從業經歷對他影響很深。

“我認爲雲廠商有一個非常成功的邏輯,就是他願意付出成本去做一些大客戶,但是這些客戶對他來說是非常重要的,他所有技術產品的能力並不僅僅因爲自己的開發很厲害,更重要的是他們會跟客戶深度綁定之後,知道客戶需要什麼。”他說。“說白了就是這些產品其實是被大客戶‘訓’出來的。但拿着這些產品去服務中小客戶就會建立優勢和規模。我們現在也是這樣。”

4個月前,無問芯穹Infini-AI大模型開發與服務雲平臺宣佈首次公測,至今已有智譜AI、月之暗面、生數科技等大模型公司客戶,另有20餘家AI Native應用創業公司在使用無問芯穹提供的工具鏈開發自身業務模型。

在和芯片廠商的關係上,無問芯穹更像是一種生態夥伴的關係。大家都在搶英偉達的市場,需要一個這樣的角色幫助大家快速擴張。無問芯穹也在一個一個的和這些芯片廠商建立深度的合作。2024年1月,它與AMD達成戰略合作,5月與摩爾線程合作完成基於國產GPU千卡集羣的3B模型實訓,這次發佈大模型異構千卡混訓平臺,在技術面也得到了AMD、華爲昇騰、天數智芯、沐曦、摩爾線程等異構芯片的支持。

不過,夏立雪認爲未來不管是算力不足還是大模型的落地問題,一定都會逐漸被解決。到那時候無問芯穹的模式不一定是現在這樣一個“團結”大家的角色,而是在一個穩定的鏈條裡找到它自己的固定的位置。

“在那個時候,其實我們就不是再去做純MxN的事。而是像一個雲廠商一樣,形成規範的上下游合作。我們在其中會成爲必要的一環。”