Enfabrica推出全球最快GPU網絡接口控制器芯片,獲1.15億美元融資

要提高算力,我們通常首先想到提高單個芯片的處理速度,但實際上,芯片之間的通信速度同樣關鍵。在計算機網絡通信中,帶寬和延遲是兩個關鍵衡量指標,而對於 AI 網絡來說,這一點同樣適用。

對於訓練上千億甚至萬億參數的大規模模型來說,單個 GPU 的處理能力已經顯得微不足道,計算任務往往需要由大型顯卡集羣協同完成。

然而,當前 GPU 內存容量和性能正在迅速增長,但輸入/輸出(I/O)性能的增長卻相對滯後,這成了 AI 算力提升的重要瓶頸,導致了大量計算資源未被充分利用,造成了資源浪費。

圖丨網絡 I/O 性能跟不上 GPU 計算性能(來源:Enfabrica)

由於傳統 PCIe 協議的發展依然落後於時代需求,英偉達轉而開發專有接口協議 NVLink 來應對這一問題,也藉此掌控了行業內的話語權。

也有英特爾、AMD、谷歌、微軟等公司開發行業開放標準 Ultra Accelerator Link 與此對抗。

與之不同是,一家名爲 Enfabrica 的初創公司則選擇開發網絡互聯芯片,通過提供一種替代的擴展方式,融入現有 AI 算力體系中,以實現更高效的數據傳輸,從而減少算力閒置,整體上提高算力系統的利用率。

2024 年 11 月 19 日,在 2024 年超級計算大會 (SC24) 上,該公司宣佈,繼去年獲得包括 NVIDIA 在內的 1.25 億美元 B 輪融資後,已完成 1.15 億美元的 C 輪融資。

這輪融資由 Spark Capital 領投,ARM、思科、三星等參投等,並得到了現有投資者的支持。

同時,Enfabrica 還宣佈將於 2025 年第一季度推出其 3.2Tbps 加速計算結構 (Accelerated Compute Fabric,ACF) SuperNIC 芯片和試點系統。

圖丨 SuperNIC 芯片(來源:Enfabrica)

據瞭解,ACF SuperNIC 芯片採用了一種融合縱向擴展(Scale-Up)和橫向擴展(Scale-Out)的混合架構,形成了一個多維度的高帶寬域。

傳統網絡架構通常依賴於標準以太網網絡和 PCIe 交換機來實現擴展,但這種方式會遇到帶寬瓶頸和延遲管理的問題。

而 ACF SuperNIC 通過結合高基數的 800、400 和 100 千兆以太網接口、32 個網絡端口和 160 個 PCIe 通道,通過更高效的兩層網絡設計,能夠支持超過 50 萬 GPU 的 AI 集羣,從而實現集羣中所有 GPU 的最高橫向擴展吞吐量和最低的端到端延遲。

ACF SuperNIC 的設計目標是用其加速計算結構替代傳統的多層網絡基礎設施,實現計算、內存和網絡資源的可組合 AI 結構。

據 Enfabrica 的聯合創始人 Sankar 解釋,該架構充當中心輻射模型,能夠分解和擴展任意計算資源。

(來源:Enfabrica)

無論是 CPU、GPU、加速器、內存還是閃存,它們都可以連接到這個中心,從而使 ACF-S 有效地充當這些計算資源的聚合 I/O 結構設備。

這種集線器式架構爲計算、內存和網絡資源的靈活組合提供了基礎,實現了更高的可擴展性和計算效率。

該芯片基於臺積電的 5 納米 FinFET 工藝上製造,採用標準的硬件和軟件接口,包括多端口 800 GbE 網絡、高性能 PCIe Gen5,以及 CXL 2.0+ 接口。

在單個硅片中集成了多太比特交換和異構計算與內存資源之間的橋接,通過集體內存分區,在多個端點之間實現低延遲零拷貝數據傳輸,提供更高效的主機內存管理和突發帶寬,從而共同提高 GPU 服務器羣的整體效率和每秒浮點運算 (FLOP) 的利用率。

並且,ACF SuperNIC 所採用的標準接口,可以在不改變設備驅動程序和協議的情況下,在 CXL 3.0 到來之前實現內存擴展和共享,同時未來也兼容 CXL 3.0 標準。

這爲數據中心運營商提供了巨大的運營效率優勢,使他們可以在由來自多個供應商的 GPU 和加速器組成的 AI 計算隊列中部署通用的高性能後端網絡結構。

與此同時,該芯片所具有的“彈性消息多路徑”(RMM)技術,可大規模提高 AI 集羣的彈性、可維護性和正常運行時間,消除由於網絡鏈路故障導致的 AI 作業停滯,從而提高有效訓練時間和 GPU 計算效率,無需更改 AI 軟件堆棧或網絡拓撲。

(來源:Enfabrica)

Enfabrica 稱,ACF SuperNIC 使客戶能夠在相同的性能點上將大型語言模型 (LLM) 推理的 GPU 計算成本降低約 50%,深度學習推薦模型 (DLRM) 推理的成本降低 75%。

該芯片將於 2025 年第一季度開始供貨。該公司預計,到 2027 年,其 SFA 芯片的互連市場規模將達到 200 億美元,主要目標客戶包括公有云和私有云運營商、HPC 系統製造商和網絡設備製造商。

未來,隨着 AI 模型的規模不斷擴大以及算力需求的提升,AI 芯片互聯市場或將繼續壯大。

根據 Dell'Oro Group 的數據,到 2027 年,人工智能基礎設施投資將使數據中心資本支出增加到 5000 億美元以上。

與此同時,根據 650 Group 的數據,到 2027 年,數據中心在計算、存儲和網絡芯片上的高性能 I/O 芯片支出預計將翻一番,達到 200 億美元以上。

除了 Enfabrica 之外,思科也於去年推出了支持 AI 網絡工作負載的 Silicon One G200 和 G202 硬件系列。

其他競爭對手如 Broadcom 和 Marvell 也在積極研發高性能交換機,博通的 Jericho3-AI 架構甚至可以連接多達 32,000 個 GPU。在中國,國數集聯也於今年 4 月推出了業界首款 CXL 多級網絡交換機參考設計。

背靠英偉達的 Enfabrica 能否實現其目標,還有待市場的檢驗。

參考資料:

1.https://www.businesswire.com/news/home/20241119607725/en/Enfabrica-Raises-115M-in-New-Funding-to-Advance-its-Leadership-in-AI-Networking-Solutions

2.https://www.allaboutcircuits.com/news/startup-enfabricas-accelerate-compute-fabric-addresses-ai-ml-in-the-cloud/

3.https://nowlab.cse.ohio-state.edu/static/media/workshops/presentations/exacomm24/ISC%202024-talk_final%20(1).pptx.pdf

4.https://blog.enfabrica.net/press-release-enfabrica-announces-availability-of-worlds-fastest-gpu-network-interface-controller-e7223fb98aa1

5.https://techcrunch.com/2023/09/12/enfabrica-which-builds-networking-hardware-to-drive-ai-workloads-raises-125m/

運營/排版:何晨