「清程極智」發起人翟季冬:中國AI算力行業,不能只“照抄”英偉達丨涌現36人
作者丨邱曉芬
編輯丨蘇建勳
一場超算比賽的激烈程度,或許不亞於一場F1賽車比賽。
所有的隊伍,要經過三輪廝殺,從美國廝殺到歐洲、再到亞洲。來自全球頂尖學校的學生隊伍,各自帶着他們最先進的算力前往賽場。
當每一個隊伍被分派五道應用題時,他們要調教好服務器裡面的七八個裸金屬硬疙瘩,讓它計算超越人腦所能回答的複雜題目。
作爲清華大學計算機系的教授,翟季冬在過去多次帶領學生參與,還曾經拿過十幾次冠軍。不過他發現,超算比賽幾乎等同於一次英偉達先進GPU的集體展示——幾乎所有隊伍,清一色標配英偉達的機器。
情況能否有一些改變?
這個問題一直縈繞在翟季冬心頭,這也是「清程極智」誕生的原因之—,想要讓國產的算力也能逐漸站到臺前。有所不同的是,不與過去大多數國產芯片創業者一般,他並不打算從重資產的硬件方向切入算力賽道。
在過去,中國的芯片創業基本集中在wifi芯片、MCU等更普適的領域,嘗試自下而上突圍。直到2020年前後,隨着國際博弈趨勢加劇,國內才漸漸掀起了以GPU爲代表的AI芯片創業熱潮,直接切入半導體、AI的要塞。
但這個賽道過去幾乎是充滿艱辛,頂着壓力前進。國產AI芯片的對手只有一個,牌桌對面是幾乎壟斷着全球半導體行業所有優勢資源的英偉達。
從另一個角度看,這正是中國AI芯片的機會。
只是,新的變化是,經過幾年的沉澱,大家逐漸正視原來的雄心,新的反思出現。一些現實擺在眼前:儘管中國大部分AI芯片喊出了“對標英偉達”的口號,但被大模型廠商實際使用時,軟硬件的短板難免暴露。
“想用三四年超越英偉達,是一個不可能的任務,中國的芯片廠商只在硬件層硬拼英偉達的打法是不是行得通?”在先進製程落後,積貧積弱的情況下,嘗試從軟件層面切入創新,是盤活國產芯片“螞蟻雄兵”的重要一環。
而這正是翟季冬和「清程極智」團隊想做的事情。
顯然,在過去,軟件幾乎是AI芯片經常被忽視的環節。如果以英偉達爲參考,可以發現,英偉達並非一家簡單的硬件公司,相反,他們反而更願意以軟件公司自詡——英偉達負責軟件的人員,幾乎是硬件團隊的數倍。
而在軟件上持續下功夫,也讓英偉達在過去受益匪淺。一個有意思的現象是,當人工智能的發展迅猛,從2013年的卷積結構,迭代到如今的Transformer,芯片的熱潮跌宕起伏,但英偉達的硬件始終萬變不離其宗”。翟季冬表示,這正是由於英偉達的計算芯片上層有靈活的軟件作爲支撐。
翟季冬向《智能涌現》介紹,目前,「清程極智」的團隊推出了「清程Pro」、「清程Pro Max」的軟件平臺,從軟件的方式切入,優化國產算力,讓國產算力也能有不輸英偉達產品的效果。
比如,經過實測,「清程Pro」與某國產芯片合作後,將芯片推理的吞吐量提升了 1.7 倍,遠超於英偉達同類產品;「清程Pro Max」則從芯片之間的連接入手,能夠在兩三臺服務器互連的情況下,把大模型推理吞吐量提高大約五六倍。
據翟季冬介紹,在某國產卡四卡平臺上,清程極智的推理系統FastDecode 對某 130B 大模型可達到相比於 vLLM 多達 7 倍的生成吞吐量。
“軟件可以幫你做好多事情,一定程度上可以彌補硬件本身的缺陷”,目前,「清程極智」已經與不少國產芯片廠商、國產大模型廠商達成了深度合作。
在此前,翟季冬的團隊還曾經研發出能夠在超級計算機上訓練百萬億參數模型的「八卦爐」系統。令人難以置信的是,這臺有足球場大小的超算系統,背後的芯片全部都是國產芯片。
翟季冬介紹,在超算上驗證過的「八卦爐」系統是清程極智的核心技術之一,提供針對芯片體系架構的算子編譯優化,以及面向超大規模集羣的並行計算解決方案,包括網絡通信優化,容錯系統,負載均衡等,未來將支持更多的國產算力,進行高達十萬卡的超大規模訓練。
翟季冬判斷,未來中國的AI芯片行業,在訓練側或許只有少數幾家能夠勝出,但中國在端側應用的想象力會比美國更強,推理芯片必將百花齊放,明年下半年或許會有更多新公司的涌現。
而在這種趨勢下,分散的中國AI芯片市場,給軟件創新的涌現,提供了一塊溼潤的土壤。
以下《智能涌現》與翟季冬的交流實錄(略經摘編)
用軟件盤活”國產算力
智能涌現:您之前的經歷如何?爲什麼是選擇和算力優化有關的領域進行創業?
翟季冬:我在清華的時候,2014年就開始帶着本科生去參加全球超算比賽,每年是有三場比賽,美國一場,歐洲一場,亞洲一場。我們會帶一個小規模集羣,包括幾臺服務器,每臺服務器有多個加速卡。
主辦方會提供五道左右應用程序,每個隊伍在各自攜帶的集羣上優化應用程序,最終看哪個隊伍整體性能最高。有點像F1賽車,我們既要帶不錯的硬件,同時也要把這些程序在機器上的性能發揮到極致。
我們總共在國際超算比賽中拿到十幾次冠軍,但是我們之前用的都是英偉達最好的GPU去參賽,比如H100、A100。
我們團隊在智能算力優化方向積累了很多年,這次想要通過產學研的機制去更好地推動這個方向,同時也助力國產芯片的發展。
智能涌現:你們最近對接了不少國產芯片,目前這些產品用起來的體驗如何?
翟季冬:國產芯片目前的算力性能雖然相比英偉達還存在一定差距,但是整體性能還不錯。國產芯片目前主要的問題是軟件生態。國內目前做AI芯片會有十幾家,但是我們發現依然有許多用戶對國產芯片的接受程度不高。
比如大家要做很多一些酷炫的AI應用,上層模型在標準的開源版本上有所改動,這時在國產芯片上運行就可能遇到一些問題,而使用英偉達的芯片遇到的問題就少得多。
我們思考的問題是,怎麼能把國產算力市場盤活,讓上層的大模型應用感受不到國產芯片在使用過程中一些不順暢的地方,或者說盡可能獲得和英偉達一樣的使用體驗。
其實在十年前,大家也覺得,相對於成熟的CPU體系,英偉達的 GPU不好用。英偉達也是經歷了好多年才構建出成熟的軟件生態的,國產AI芯片公司都是2016年之後成立,有的是2020年左右,如果說想用三年的時間超過英偉達,這是一個比較大的挑戰。
我們也在想,中國芯片如果完全復刻英偉達的路線,是一個最簡單可行的思路,但是這條思路是不是最好?可能還需要進一步思考。
我認爲,國產芯片如果能把軟件做好,硬件也能發揮到極致。
智能涌現:你們現在的商業模式是什麼?
翟季冬:我們的核心技術集中在智能算力系統軟件。從商業模式來說,我們會將這一系列的軟件與算力結合起來,使算力變得更好用,以不同形式直接交付給終端用戶。
我們今年上半年的計劃是,和底層芯片廠商緊密合作,同時在上層幫助大模型廠商無感遷移模型到國產芯片上。有幾家知名國產大模型公司都是清華計算機系孵化的,我們跟這些機構有很多深度的合作。
智能涌現:你們怎麼用軟件的方式,去解決國產芯片硬件層面不好用的問題?
翟季冬:我們曾經在某國產芯片上加上我們的軟件,形成軟硬一體化解決方案「清程Pro」,把大模型推理吞吐提高了1.7倍。後來我們在此基礎上做了一些硬件改進,形成了「清程Pro Max」上,可以把吞吐提高大約五六倍。
軟件可以幫你做好多事情,一定程度上可以彌補硬件本身的缺陷。
智能涌現:優化是一錘子買賣嗎?如何提升算力優化的效率?
翟季冬:從我們系統軟件的設計角度看,給任何一種芯片做的優化,再用到其它芯片架構上是不需要全部重新實現的。因爲我們的軟件在設計上有大量是共性的,我們在最底層的編譯器,會有一層統一中間表示,會跟各種芯片架構去對齊,這樣不同廠商可以買不同的AI加速芯片,用我們的一套軟件,也能支持多種芯片。換句話說,上層模型一直在迭代,而清程的技術能力可以持續高效地支持新興模型的底層算子優化,未來跟各芯片廠商和模型廠商會是持續合作的狀態,不會只是一錘子買賣。
智能涌現:咱們的技術壁壘是什麼?
翟季冬:第一個是AI編譯器,它的核心作用是把上層模型算子高效地轉換成底層AI芯片可以執行的代碼,把底層不同AI芯片的計算能力釋放出來。我們清華大學計算機系高性能所的實驗室在這塊有非常好的技術積累。
第二個是並行系統。當前的計算系統是一個高度併發的系統,無論是大模型訓練、微調或推理,都需要把模型映射到多塊AI芯片、以及AI芯片內部的多個功能單元。
模型如何拆分,通信如何高效完成,這些都是並行系統需要去考慮的事情。我們在大規模並行系統方面,做過很多相關的工作。
中國芯片創業,需要新創新思路
智能涌現:但是行業裡面,是不是還沒有這種圍繞創新方式的反思?
翟季冬:不能說完全沒有反思,但還需要有更多思考,核心痛點在哪?原創力在哪?
我認爲現在中國芯片所面臨的核心痛點,是如何要讓這些芯片變得更好用,真正把底層的算力給發揮出來。
智能涌現:你覺得怎麼看中國芯片公司過去幾年的打法?
翟季冬:英偉達花了20年,把硬件、軟件積累起來,已經有很多創新內化在產品中。國產芯片不是通過學習它的公開這些材料簡單的模仿就能超過他。
如果中國公司想要在訓練側超越英偉達,除非你有本質的創新,中國發展其實不要簡單的copy,模仿人家永遠只能是跟在人家後面,我覺得核心的要有自己的科技創新。
一個更有價值的思考是:中國的芯片公司在國際供應鏈上明確受限這種情況下,我們怎麼能通過軟件和硬件協同創新來突破重圍?
這是中國芯片一個更好的出路。我們其實可以通過軟件的方法,有效地把這些芯片給整合起來。
像英偉達這麼多年,它的架構本身沒變。從2013年的卷積,到現在的Transformer,英偉達的底層架構不變,它通過軟件來想辦法幫用戶去適配,我覺得這就是軟件的意義,因爲軟件相對比較靈活。
智能涌現:爲什麼是選擇在中國,做這種算力軟件優化方向的創業?
翟季冬:在國外,做算力相關的軟件只要把英偉達、 AMD兩家服務好,基本上也就解決問題了。美國現在英偉達是一家獨大,去整合其他芯片的意義有限,但是在中國,這反而有機會。
如果英偉達所有的算力對中國都開放,那麼中國芯片成長的機會也會少很多。
對於國產芯片來說,英偉達的弱點纔是他們的機會點,如果你盯着他的強項去做的話,很難超越他。中國的芯片市場越分散,端側芯片的場景越分散,反而越能給軟件創業帶來更多機會。
智能涌現:有沒有感覺現在國內的芯片廠商比較各自爲政,缺乏合力?
翟季冬:英偉達是一家很有野心的公司。他們做了一系列GPU加速卡,然後又收購了網絡芯片公司邁絡思、又做了自己的 ARM CPU,他想做一體機,甚至想收購 ARM。但是國內的大部分芯片廠商其實都沒有野心和能力去整合,大部分國產廠商都很分散,有的更偏向於推理,有的更偏向於訓練,所以我感覺現在國產的算力很難形成合力。
但是從另一個角度來看,這反而對算力軟件的創業有機會,我認爲這個現狀,在未來5-10年還是會存在。
美國訓練更強,中國端側想象力更豐富
智能涌現:國內堅持做萬卡訓練的芯片公司,是因爲buy in了scaling law?您怎麼看,它會持續嗎?
翟季冬:所謂的大模型可以理解爲將海量的數據壓縮起來,放到一個千億或者萬億的數據庫裡,是一個數據壓縮的過程。
如果編碼和壓縮算法更高效,那可能原來用萬億參數才能壓縮,現在用5000億的模型就可以完成壓縮了。
如果能夠在單位的參數量內集成更多的知識,那就不需要一味的追求這個大參數量。大模型參數變大,我認爲是無奈之舉,未來在算法層面肯定還是需要去不斷創新。
智能涌現:硅谷有很多新架構的芯片出現,您覺得中國未來也會出現這種現象嗎?
翟季冬:與美國相比,中國的應用場景更多,端側如何把性能、成本、功耗能做到極致,是非常關鍵的。
在未來,端側相比服務器側會更百花齊放,所以端側軟件在這裡面起的作用也會更大。
智能涌現:不過國產芯片有的從訓練做起,有的從推理切入,其實從商業的角度來看,從訓練還是推理哪一側做起更好?
翟季冬:從中國發展角度來說,我認爲訓練和推理都很重要,如果連算力集羣都要靠特殊途徑獲取,從國家和產業發展的角度都是不可持續的。萬卡國產訓練平臺的要求很高,可能只有幾家企業最後能勝出。
對於一些公司來說,可能短期內在訓練側卷不過某些公司,或者市場上有一些公司可以買到可用的芯片,那他的策略可能就會往端側偏移。
今年是大模型應用的元年,目前還在探索應用的階段,如果應用近兩年爆發的話,端側推理的需求也會隨之爆發。端側對成本更敏感,場景也會更多。
美國大模型訓練雖然要比中國做的更好一點,但是中國端側應用的想象力還是要比美國更強一些,端側其實也在各種嘗試探索,有可能明年或者今年下半年,可能慢慢的就會有一些現象級應用冒出來。
智能涌現:但是你們不做硬件,後續怎麼去很好發揮軟件的能力?
翟季冬:雖然我們目前不做芯片,但是我們已經跟芯片廠商有很多深度合作。芯片廠商給我們開放了底層的接口,我們能夠從非常貼近芯片的層面去進行軟件開發。
end
end