DeepSeek來了,萬卡還是AI入場券嗎?

人工智能的極限就是拼卡的極限。頂級AI公司爲這場“暴力美學”競賽設定了單點集羣萬卡的門檻。

OpenAI的單點集羣5萬張卡,谷歌2.6萬張卡,Meta2.45萬張卡。摩爾線程創始人兼CEO張建中曾在發佈會上表示,“AI主戰場,萬卡是最低標配。”

而隨着DeepSeek的橫空出世,一場關於AI規則重寫的大戲正在上演。

01 萬卡集羣還是AI入場券嗎?

2020年,微軟率先構建了萬卡智算中心用來其AI佈局,隨後各大科技巨頭競相投入萬卡集羣的智算中心建設,例如亞馬遜、谷歌、Meta、特斯拉、xAI,國內科技公司字節跳動、百度、螞蟻、華爲、科大訊飛、小米都建設了萬卡集羣,騰訊、阿里已經卷向十萬卡集羣。

搭建萬卡集羣的智算中心需要耗費巨大的財力,單是GPU的採購成本就高達幾十億元。儘管造價高昂,但“萬卡集羣”智算中心使得訓練複雜的大模型成爲可能,因此被業界視作AI競賽的“入場券”。

長江證券在其研報中指出,“模型大小和訓練數據量大小成爲決定模型能力的關鍵因素。在同等模型參數和數據集下,集羣訓練時間有望顯著縮短。更大、更先進的集羣能及時對市場趨勢作出反應,快速進行迭代訓練。整體上超萬卡的集羣將有助於壓縮大模型訓練時間,實現模型能力的快速迭代,並及時對市場趨勢作出應對,實現大模型技術上的追趕和領先。”

而DeepSeek-V3在訓練時僅僅使用了2048個H800 GPU,但是在多個標準測試中卻獲得了很不錯的消息,在數學基準測試GSM8K和MATH、算法類代碼LiveCodeBench等測試中超越此前的大模型拔得頭籌。這不由引發了一個思考,DeepSeek支持千卡級集羣訓練,那麼萬卡智算中心還是AI入場券嗎?

首先,我們必須要承認萬卡集羣在大模型訓練端仍有必要性,其次,大模型私有化部署已成業內共識,企業私有部署小型數據中心市場將會爆發。

DeepSeek出現之後,衆多公司都在爭相接入,做自己的本地部署。企業建設“自己的小型智算中心”,部署1~10臺服務器(百卡之內),或10來20臺服務器(百卡規模),也可以實現高效的AI業務。這無疑讓AI入場券發生了變化,“暴力堆卡”不再是唯一進場方式,更多的企業可以通過算法優化參與到這場AI熱潮中。

以華爲和瑞金醫院合作發佈的臨牀級多模態互動式病理大模型RuiPath爲例,僅僅使用了16張算力卡,就學習了300餘本病理診斷書籍,在病理醫生整理的常用問題測試中問答準確率可到90%。

高通技術認爲,當前先進的AI小模型已具有卓越性能。模型蒸餾和新穎的AI網絡架構等新技術能夠在不影響質量的情況下簡化開發流程,讓新模型的表現超越一年前推出的僅能在雲端運行的更大模型。

除此之外,企業部署小型智算中心也爲四大運營商和鐵塔公司帶來了新的機遇。小型數據中心的部署需要穩定的場地、電力、網絡等基礎設施,而運營商和鐵塔公司的物理機房資源是現成的,以中國鐵塔爲例,目前擁有210萬站址資源、能源設施和近百萬處機房,並有22萬“通信塔”已升級爲“數字塔”。另外,小型數據中心靠近數據產生源頭,可實現數據的快速處理和分析,對於邊緣算力的需求增加,目前中國鐵塔算力正從集中式向“雲邊端”分佈式範式轉變,每個數據中心每日新增數據量數十T,預計2025年每數據中心接入約二十萬站,未來數據規模將達數十PB級別。

根據Gartner預測,2025年75%的企業數據將在邊緣側處理,邊緣數據中心數量將超過傳統數據中心的3倍。

02 數據中心芯片變革:訓練降速,推理崛起

DeepSeek 採用純強化學習訓練路徑,擺脫了對監督學習微調階段的依賴,同時採用全新的 GRPO 算法讓模型羣體相互學習,將內存消耗降低至傳統 PPO 算法的三分之一,可在更少硬件資源下完成訓練;FP8 混合精度訓練,內存佔用減少 50%,計算吞吐量提升 30%;其數據蒸餾技術,將無效數據比例從行業平均 15% 降至 3% 以下;NVLink+InfiniBand 雙通道傳輸技術使得集羣內部的GPU通信效率提升了 65%。

DeepSeek這些創新性的方法降低了訓練成本,使得數據中心芯片發生變革,未來訓練端的高端GPU需求增速可能放緩,而推理端的算力需求將長期呈增長趨勢。

對此,各大研究機構的判斷不謀而合。其中,Gartner 預測2025年推理的集羣算力規模將超過訓練,IDC預測到 2025 年用於推理的工作負載的芯片將達到60.8%。TrendForce集邦諮詢分析師龔明德指出:“DeepSeek的驅動將促使雲服務商更積極投入低成本的自有ASIC方案,並從AI訓練重心轉向AI推理。預計到2028年,推理芯片佔比將提升至五成。”

顧名思義,訓練芯片是應用在AI模型的訓練階段,需要通過大量標記過的數據來訓練系統以適應特定功能,因此更強調計算性能和存儲能力,而推理芯片在模型訓練完成後,負責使用新數據進行預測和推斷,更注重單位能耗算力、時延和成本的綜合指標。

與英偉達市佔率98%的訓練芯片市場不同,推理芯片市場還未成熟,更加百花齊放。此前在網上掀起一陣熱潮的美國人工智能芯片公司Groq,其成立於2016年,到目前爲止已經獲得了5輪融資,2024年8月Groq完成6.4億美元的最新一輪融資後,估值達到28億美元。Groq專爲大語言量身定製的新型AI加速芯片LPU,性能表現比常規的GPU和TPU提升10到100倍,推理速度達到了英偉達GPU的10倍。

在國外市場,博通和Marvell是主要的推理芯片供應商。其中,博通與谷歌合作設計了六代 TPU,預計將在 2026、2027年推出的第七代 TPU,同時其與Meta在AI基礎設施方面的合作可能會達到數十億美元;Marvell則是與亞馬遜、谷歌和微軟合作,目前正在生產亞馬遜5nm Tranium 芯片和谷歌5nm Axion Arm CPU 芯片,同時預計在2025年啓動亞馬遜 Inferentia芯片項目,2026年啓動微軟Maia芯片項目。

在國內市場,各大科技公司也在積極佈局AI推理芯片市場。

目前,大模型推理階段面臨很多優化挑戰,首先就是KV Cache管理,推理過程會產生大量中間結果用於降低計算量。如何管理這些數據很關鍵,例如採用頁面式管理,但頁面大小是固定還是根據負載特徵動態調整,都需要仔細設計。其次是多卡協同:當模型較大時需要多 GPU 配合,例如在8個GPU上進行大模型推理,如何優化卡間並行也是一大挑戰。最重要的就是算法優化:如何從量化等角度進行優化,充分發揮底層算力性能。

03 算法補性能:芯片競爭開始卷“軟硬協同”

DeepSeek之所以能夠以2048個H800芯片驚豔世界,其中的重要原因之一是其對硬件進行了極致工程化改造,通過自定義 CUDA 內核和算子融合技術,將 H800 GPU 的 MFU(模型 FLOP 利用率)提升至 23%,遠超行業平均 15% 的水平,在相同硬件條件下可完成更多計算任務,提升訓練效率,並且在GPU集羣上實現了98.7%的持續利用率。

這種創新性的用算法補性能方式,被複旦大學複雜體系多尺度研究院院長、上海人工智能實驗室領軍科學家、國際著名計算生物學家馬劍鵬教授稱爲“中國AI的換道超車”。同時,這種方式也將倒逼芯片廠商從“拼製程”轉向“算法適配性”設計,預留更多接口支持動態算法迭代,如可編程NPU架構。

衆所周知,AI用例正在不斷演進,要在功能完全固定的硬件上部署這些用例顯然是不切實際的。而可編程 NPU 架構提供豐富編程接口和開發工具,支持多種編程語言和框架,開發者可方便地根據新算法需求進行編程和配置。同時,支持根據不同算法需求動態重構計算資源,如計算單元、存儲單元等等。

最重要的是,芯片研發成本高,預留接口支持動態算法迭代可使芯片在較長時間內保持競爭力,面對新算法無需重新設計硬件,而是通過軟件升級等方式來適配新算法,再也不懼算法更新迭代。

DeepSeek V3中使用了相比CUDA更底層的PTX來優化硬件算法,繞過了CUDA的高層 API,直接操作PTX指令集進行更細粒度的硬件優化,能在一定程度上擺脫對 CUDA 高層框架的依賴,爲開發者提供了不依賴 CUDA 進行 GPU 資源優化的途徑。同時,DeepSeek GPU代碼使用了OpenAI 提出的Triton編程語言來編寫,而Triton 的底層可調用 CUDA,也可調用其他 GPU 語言,爲適配更多類型的算力芯片奠定了基礎。

因而,我們會看到很多報道中都寫道,“DeepSeek突破英偉達CUDA技術壁壘”。事實上,DeepSeek的這一舉動證明芯片競爭從一開始的粗暴卷硬件進入到更新的“軟硬協同”內卷之中。而開源框架與國產芯片結合會是突破口,DeepSeek既能在英偉達芯片上運行,也能在華爲昇騰、AMD等非主流芯片上高效運行。

更爲深遠的影響是AI芯片領域不再是英偉達“一家獨大”,更多的芯片公司可以參與進來。而處在英偉達上游的存儲芯片公司,例如三星電子、SK海力士等可能也要被迫進行轉型。

此前,三星電子、SK海力士等半導體巨頭的發展戰略一直是採用以通用存儲器爲重點的量產模式,其業務也很大程度上依賴於對英特爾、英偉達和AMD 等主要客戶的批量供應,此前美銀分析預測SK海力士可能獲得2025年英偉達Blackwell GPU的60%以上訂單。

DeepSeek發佈使得科技公司對英偉達高端芯片需求會減少,但是市場對於AI芯片的總需求卻不一定會減少。正如經濟學家傑文斯所言:技術進步雖然提高了資源的使用效率,但需求的增加常常會導致總消耗量反而增加。

亞馬遜首席執行官安迪・賈西曾表示,DeepSeek技術突破反而會推動人工智能整體需求的增長。人工智能推理等技術成本的下降,並不意味着企業會減少在技術上的投入。相反,成本降低讓企業能夠開發此前因預算受限而擱置的創新項目,最終反而加大了整體技術支出。

這無疑是三星電子、SK海力士轉型的巨大機會,擺脫對英偉達的依賴,擁抱更廣闊的市場。HBM需求從高端GPU轉向定製化存儲方案,爲 AI 服務提供多樣化的產品陣容。