無問芯穹發佈千卡規模異構芯片混訓平臺,千卡異構混合訓練集羣算力利用率最高達到97.6%

7月5日消息,2024年世界人工智能大會AI基礎設施論壇上,無問芯穹聯合創始人兼CEO夏立雪發佈了全球首個千卡規模異構芯片混訓平臺,千卡異構混合訓練集羣算力利用率最高達到了97.6%。

同時,夏立雪宣佈無問芯穹Infini-AI雲平臺已集成大模型異構千卡混訓能力,可進行單任務千卡規模異構芯片混合訓練的平臺,具備萬卡擴展性,支持包括AMD、華爲昇騰、天數智芯、沐曦、摩爾線程、NVIDIA六種異構芯片在內的大模型混合訓練。7月起,通過試訓申請的用戶,已可在Infini-AI上一鍵發起700億參數規模的大模型訓練:"打開水龍頭前,我們不需要知道水是從哪條河裡來的。同理,未來我們用各種AI應用時,也不會知道它調用了哪些基座模型,用到了哪種加速卡的算力——這就是最好的AI Native 基礎設施。”

據悉,4個月前無問芯穹Infini-AI大模型開發與服務雲平臺宣佈首次公測,已有智譜AI、月之暗面、生數科技等大模型公司客戶在Infini-AI上穩定使用異構算力,還有20餘家AI Native應用創業公司在Infini-AI上持續調用各種預置模型API,使用無問芯穹提供的工具鏈開發自身業務模型。

作爲大模型不可或缺的訓練和推理,均需要強大的計算資源支撐。然而,與國際上模型層與芯片層“相對集中”的格局相比,中國的大量的異構芯片也形成了“生態豎井”,不同硬件生態系統封閉且互不兼容,給算力的使用方帶來一系列技術挑戰。

據不完全統計,宣佈擁有千卡規模的中國算力集羣已不少於100個,出於諸多緣由,比如過度依賴單一硬件平臺可能會使企業面臨供應鏈風險,又比如國產芯片的性能快速提升爲集羣方提供了多種選擇,絕大部分集羣已經或正在從同構轉向異構。“生態豎井”的存在讓大多數企業和開發者對此望而卻步,即便算力集羣衆多,也難以實現有效的整合與利用,這無疑是對算力資源的浪費。“生態豎井”不僅成爲構建AI Native基礎設施的最大難點,也是當前大模型行業面臨“算力荒”的重要原因。

爲此,構建適應多模型與多芯片格局的AI Native基礎設施,無問芯穹的底層解法是,提供高效整合異構算力資源的好用算力平臺,以及支持軟硬件聯合優化與加速的中間件,讓異構芯片真正轉化爲大算力。

近日,無問芯穹與清華、上交的聯合研究團隊發佈了HETHUB,這是一個用於大規模模型的異構分佈式混合訓練系統,這是業內首次實現六種不同品牌芯片間的交叉混合訓練,且工程化完成度高。

夏立雪介紹,這項技術工程化的初衷,是希望能夠通過整合更多異構算力,繼續推高大模型技術能力的上限,同時通過打通異構芯片生態,持續降低大模型應用落地成本。當前,大模型行業發展正在進入規模化產業落地階段對大模型訓練需求日益迫切。

無問芯穹的AI計算優化能力與算力解決方案能力,以及對“M種模型”與“N種芯片”行業格局的判斷,構建了“MxN”中間層的生態格局,實現多種大模型算法在多元芯片上的高效、統一部署。截止目前,Infini-AI已支持了Qwen2、GLM4、Llama3、Gemma、Yi、Baichuan2、ChatGLM3系列等共30多個模型,以及AMD、華爲昇騰、壁仞、寒武紀、燧原、海光、天數智芯、沐曦、摩爾線程、NVIDIA等10餘種計算卡。

“技術上限推高與技術落地擴散不矛盾,且取決於我們決心如何對待這個技術。”夏立雪表示,今天說讓大模型成本下降10000倍,就像30年前說讓家家戶戶都通電一樣。優良的基礎設施就是這樣一種“魔法”,當邊際成本下降到臨界值,就能有更多的人擁抱新技術。(湯姆)

本文來自本站科技報道,更多資訊和深度內容,關注我們。