Cerebras 推出強力 AI 推理芯片叫板英偉達 DGX100
Cerebras 已推出其最新的 AI 推理芯片,該芯片被譽爲英偉達 DGX100 的強大競爭對手。
該芯片擁有 44GB 的高速內存,使其能夠處理具有數十億到數萬億參數的 AI 模型。
對於那些超出單個晶圓內存容量的模型,Cerebras 可以在層邊界處對其進行拆分,把它們分佈在多個 CS-3 系統之中。單個 CS-3 系統能夠容納 200 億個參數模型,而 700 億個參數模型可以由少至四個系統進行管理。
Cerebras 強調使用 16 位模型權重以保持準確性,這與一些把權重精度降低到 8 位進而可能導致性能降低的競爭對手形成對比。Cerebras 表示,其 16 位模型在多輪對話、數學和推理任務中的表現比 8 位模型高出多達 5%,確保輸出更準確、更可靠。
Cerebras 推理平臺可通過聊天和 API 進行訪問,並且被設計成讓熟悉 OpenAI 聊天完成格式的開發人員能夠輕鬆集成。該平臺具備以每秒 450 個令牌運行 Llama3.1 70B 模型的能力,這使其成爲實現此類大型模型瞬時速度的唯一解決方案。對於開發人員而言,Cerebras 在推出時每天提供 100 萬個免費令牌,據說其大規模部署的定價明顯低於流行的 GPU 雲。
Cerebras 最初推出的是 Llama3.1 8B 和 70B 模型,並計劃在不久的將來增加對更大模型(如 Llama3 405B 和 Mistral Large 2)的支持。該公司強調,快速推理能力對於實現更復雜的人工智能工作流程以及增強實時 LLM 智能起着至關重要的作用,特別是在像支架這類技術中,其需要大量的令牌使用量。
帕特里克·肯尼迪來自服務之家(ServeTheHome),在最近的 2024 年熱門芯片研討會上看到了該產品的實際運行情況,並指出:“在演講前,我有機會與安德魯·費爾德曼(Andrew Feldman,Cerebras 的首席執行官)坐在一起,他向我現場展示了演示。速度快得令人咋舌。這件事之所以重要,不單單是由於人類的即時交互。相反,在一個代理的世界中,計算機人工智能代理和其他幾個計算機人工智能代理相互交流。想象一下,如果每個代理都需要數秒才能輸出結果,而且在該流程中存在多個步驟。倘若您考慮自動化的人工智能代理流程,那麼就需要快速推理來縮短整個鏈條的時間。”