☰

Cerebras 推出強力 AI 推理芯片叫板英偉達 DGX100

Cerebras 已推出其最新的 AI 推理芯片，該芯片被譽爲英偉達 DGX100 的強大競爭對手。

該芯片擁有 44GB 的高速內存，使其能夠處理具有數十億到數萬億參數的 AI 模型。

對於那些超出單個晶圓內存容量的模型，Cerebras 可以在層邊界處對其進行拆分，把它們分佈在多個 CS-3 系統之中。單個 CS-3 系統能夠容納 200 億個參數模型，而 700 億個參數模型可以由少至四個系統進行管理。

Cerebras 強調使用 16 位模型權重以保持準確性，這與一些把權重精度降低到 8 位進而可能導致性能降低的競爭對手形成對比。Cerebras 表示，其 16 位模型在多輪對話、數學和推理任務中的表現比 8 位模型高出多達 5％，確保輸出更準確、更可靠。

Cerebras 推理平臺可通過聊天和 API 進行訪問，並且被設計成讓熟悉 OpenAI 聊天完成格式的開發人員能夠輕鬆集成。該平臺具備以每秒 450 個令牌運行 Llama3.1 70B 模型的能力，這使其成爲實現此類大型模型瞬時速度的唯一解決方案。對於開發人員而言，Cerebras 在推出時每天提供 100 萬個免費令牌，據說其大規模部署的定價明顯低於流行的 GPU 雲。

Cerebras 最初推出的是 Llama3.1 8B 和 70B 模型，並計劃在不久的將來增加對更大模型（如 Llama3 405B 和 Mistral Large 2）的支持。該公司強調，快速推理能力對於實現更復雜的人工智能工作流程以及增強實時 LLM 智能起着至關重要的作用，特別是在像支架這類技術中，其需要大量的令牌使用量。

帕特里克·肯尼迪來自服務之家（ServeTheHome），在最近的 2024 年熱門芯片研討會上看到了該產品的實際運行情況，並指出：“在演講前，我有機會與安德魯·費爾德曼（Andrew Feldman，Cerebras 的首席執行官）坐在一起，他向我現場展示了演示。速度快得令人咋舌。這件事之所以重要，不單單是由於人類的即時交互。相反，在一個代理的世界中，計算機人工智能代理和其他幾個計算機人工智能代理相互交流。想象一下，如果每個代理都需要數秒才能輸出結果，而且在該流程中存在多個步驟。倘若您考慮自動化的人工智能代理流程，那麼就需要快速推理來縮短整個鏈條的時間。”

Cerebras 推出強力 AI 推理芯片叫板英偉達 DGX100

相關資訊