智算需求20年增長百億倍,算力中心朝“萬卡”規模演進

紅星資本局9月29日消息,9月27日-29日,2024中國算力大會在河南鄭州召開。會上發佈的《中國綜合算力指數報告(2024)》顯示,從人工智能模型角度看,過去20年間(2003年-2023年),智能算力需求大概增長超過百億倍,構成算力增長的最主要驅動力。

紅星資本局在採訪中瞭解,在智能算力需求快速爆發的同時,國產算力仍長期面臨兩大問題:第一,國產GPU缺乏生態支持,難以替代英偉達的GPU;第二,如何在國產GPU單卡性能有限的條件下,通過其他技術手段提升整體算力水平。

萬卡集羣加速佈局

在大模型領域有一個著名定律Scaling Law(尺度定律),指模型性能會隨着參數、算力、數據集的規模增加而提高。在該定律作用下,全球的算力中心朝着萬卡規模方向演進。今年以來,中國移動、聯通、電信三大運營商均在加速推進超萬卡集羣智算中心的建設。

本屆算力大會上,河南投資集團總經理硃紅兵透露,目前,河南已經建成投產了240P的英偉達H800智算中心。他表示,接下來,河南將打造中部最大的萬卡智算集羣,明年年底實現2000P的算力供給。

萬卡集羣是指由一萬張及以上的加速卡(如GPU、TPU或其他專用AI加速芯片)組成的高性能計算系統,用以訓練基礎大模型。這種集羣可支持千億級甚至萬億級參數規模的大模型訓練,有助於大幅壓縮大模型訓練時間,以實現模型能力的快速迭代。簡而言之,萬卡集羣成爲這一輪大模型基建軍備競賽的標配。

摩爾線程副總裁馬鑑表示,萬卡集羣首先難在超大規模的組網,關鍵在於能不能把上萬塊GPU聯在一起解決一個問題。1萬塊以上的GPU在一起訓練的時候,如果每天都有GPU掉線就非常痛苦。沒有用戶願意用這樣的GPU,所以超大規模的萬卡以上集羣的穩定性是大家面臨的重要挑戰。

中國信息通信研究院院長餘曉暉認爲,與美國相比,我國算力芯片生態比較碎片化,有幾十款算力芯片,不同的芯片,對應不同的開發框架、軟件棧以及算子庫等。“這是一個非常大的挑戰,異構算力之間的協同穩定問題亟需解決。”

餘曉暉表示,萬卡不等於萬卡集羣,如何打造如此規模的集羣也是下一步要面臨的挑戰。“有了萬卡、10萬卡,不一定就能把萬卡、10萬卡的能力完全發揮出來,卡越多,故障的概率越高,怎麼能夠打造大的、穩定的算力集羣,是一項全球面臨的挑戰,需要非常多的技術創新協同。”餘曉暉強調。

2024年至2027年中國算力規模會進一步增長

紫光股份董事長、新華三集團總裁兼CEO於英濤表示,在“算力即國力、智能即未來”的時代背景下,智算已經成爲全球高科技角逐的主要賽道。他指出:“今年,全球生成式人工智能的投資比去年增長接近10倍,我們預測2024年至2027年中國算力規模會進一步急劇增長。”

雖然我國的智算技術不斷突破,但產業發展仍有一些問題待解。

於英濤指出,多地針對算力基礎設施賽道進行超前部署,但也存在一些問題。他認爲,在行業熱度高漲的背景下,需要給行業提一個醒,要保持“冷思考的定力”,客觀測算算力需求,統籌安排智算中心佈局,“小步快跑”,不斷健全完善試錯包容的機制,避免出現投資浪費。

他認爲,相比於投資建設,算力中心的運營和管理更爲重要。“算力中心,投資建設是容易的,但是算力運營模式探索和創新是更重要的話題,如何提高智算中心利用率,防止出現算力的空置、空轉,保持投資的良性循環是必須解決的問題。”於英濤表示,開放、務實和應用導向是算力產業高質量發展的關鍵所在。

硃紅兵談到,目前算力產業發展在場景端的需求尚未完全釋放。以化工、能源、製造、交通運輸、物流等爲代表的場景類實體企業算力應用大多停留在嘗試階段。前期投入大,降本增效不明顯,企業投入積極性不高。

同時,他提到,智算GPU還是面臨着“卡脖子”的問題。他認爲,近年來國產GPU企業雖然取得了顯著進步,但在單卡性能、萬卡互聯、生態建設上,與國際先進水平仍存在一定差距,短期內難以實現國產體,導致國內人工智能尤其是大模型的產業落地、市場普及更加困難。

年度8項重大成果發佈

大會主論壇上,“算力中國·年度重大成果”正式發佈,分別由中國移動、聯通數科、國家超級計算無錫中心、阿里雲、天翼雲、超聚變、鄭州大學國家超級計算鄭州中心、聯想集團牽頭申報的8項成果榮獲“年度重大成果”。

具體來看,分別是:“九州”算力互聯網、中國聯通超大規模智算中心服務及大模型行業實踐、太湖之光A+、基於端雲融合計算架構的無影雲電腦、國產液冷單集羣萬卡公共智算中心、FusionPoD for AI新一代全液冷整機櫃GPU服務器、量超融合先進計算平臺以及聯想萬全異構智算平臺。

成果之中也有破紀錄的創新。比如“九州”算力互聯網的原創G-SRv6技術體系得到全球多個頭部企業的積極署名支持,是我國近年來首屈一指的互聯網核心協議國際標準突破。

紅星資本局瞭解到,上述成果已有部分投入使用並取得良好社會經濟效益。其中,中國聯通超大規模智算中心服務已形成超過35個行業大模型和100餘個標杆應用;太湖之光A+國產智算加速卡已形成我國自主研發的業內最高密度一體化服務器機櫃方案,爲超算、智算、科研、企業研發等關鍵領域提供強而有力的基礎算力平臺;基於端雲融合計算架構的無影雲電腦已惠及18萬名中小學生和教師等。

紅星新聞記者 王田

編輯 肖世清