AI芯片的潛在顛覆者:你不想再用GPU

如果您希望可以時常見面,歡迎標星收藏哦~

來源:內容由半導體行業觀察(ID:icbank)編譯自venturebeat,謝謝。

人工智能芯片初創公司Groq的聯合創始人喬納森·羅斯 (Jonathan Ross)昨天宣佈,其產品的開發者採用率有望創下歷史新高。該公司在短短四個月內就吸引了28 萬名開發者加入其平臺,羅斯稱這一壯舉在硬件行業前所未有。

“據我們所知,就任何開發者的崛起、任何新硬件平臺的採用而言,這幾乎是最快的,”羅斯在接受 VentureBeat 的 Matt Marshall 採訪時表示。他補充說,“我們實際上沒想到會這麼快就流行起來。”

Groq 對AI 推理芯片的創新方法推動了這一快速採用。與傳統 GPU 不同,Groq 的架構消除了外部內存,Ross 聲稱這是“您實現推理的真正瓶頸”。

羅斯詳細闡述了 Groq 解決方案的技術優勢。“想象一下,如果你進行 Google 搜索,需要 10 秒鐘才能得到答案,”他說。“從內心來說,這隻會很痛苦。”這種比較強調了 Groq 旨在爲 AI 推理帶來的速度改進。

這家初創公司的爆炸式增長現在帶來了一個不同尋常的挑戰:管理巨大的需求。“我們的團隊就像,我們有佈線團隊試圖將機架佈線起來,這太瘋狂了,”羅斯承認,強調了滿足客戶需求的緊迫性。

儘管面臨擴展挑戰,Groq 仍充分利用了其發展勢頭。該公司最近與首批 50 名客戶商談了提高付費費率限制的問題。“我認爲在 36 小時內,超過 35 家客戶簽署了一份承諾一年的採購訂單,”Ross 透露,這遠遠超出了他們的預期。他補充道,“我們整天都在專注於如何儘快將更多產能投入生產。”

這家初創公司的野心不僅限於快速採用。羅斯提出了一個大膽的目標:“我們的目標是在明年年底前佔領全球人工智能推理市場的一半份額。”爲了實現這一目標,Groq 計劃部署 170 萬個人工智能處理器。“這相當於 Nvidia 去年部署的 3 倍,”羅斯聲稱,直接向行業領導者發起挑戰。

行業分析師認爲,開發人員的快速採用是市場興趣和 AI 芯片領域潛在顛覆的有力指標,儘管這並不能保證長期成功。AI 行業密切關注 Groq 滿足需求的步伐。

羅斯在谷歌工作期間的經歷,曾負責 TPU(張量處理單元)的開發,這爲 Groq 的方法提供了借鑑。“我們希望確保全世界都能使用人工智能,”他解釋說,並將自己在谷歌的工作與 Groq 的使命進行了比較。

如果這家初創公司保持增長軌跡並兌現性能承諾,它可能會重塑 AI 推理硬件的格局,並挑戰 Nvidia 等老牌公司。Ross 強調了他們的技術優勢的重要性:“就像你不想使用 CPU 來運行這些模型一樣,如果你有 LPU,你也不會想使用 GPU。”

隨着 Groq 加速擴大生產規模,羅斯暗示了未來的挑戰和機遇。“主要的區別在於,這一切的靈感來自於谷歌的經驗,當我們進行搜索時,並不是只有一臺服務器響應查詢,”他說道,解釋了 Groq 的分佈式方法與傳統方法的不同之處。

憑藉前所未有的增長和雄心勃勃的計劃,Groq 將自己定位爲 AI 芯片市場的潛在顛覆者。隨着該公司努力滿足不斷增長的需求並兌現承諾,科技行業密切關注這家初創公司是否能夠真正挑戰該領域的老牌巨頭。

Groq 推出閃電般快速的 LLM 引擎

Groq現在允許您直接在其網站上使用領先的大型語言模型 (LLM) 進行閃電般快速的查詢並執行其他任務。

該公司上週悄然推出了這項功能。結果比該公司之前演示的要快得多,也更智能。它不僅允許您鍵入查詢,還允許您使用語音命令說出查詢。

在我進行的測試中,Groq 的響應速度約爲每秒 1256.54 個token,Groq 表示,這一速度幾乎是即時的,而 Nvidia 等公司的 GPU 芯片無法做到這一點。這一速度比 Groq在 4 月份展示的每秒 800 個token的速度更高,這已經令人印象深刻。

默認情況下,Groq 的站點引擎使用 Meta 的開源 Llama3-8b-8192 LLM。它還允許您從更大的 Llama3-70b、一些 Gemma (Google) 和 Mistral 模型中進行選擇,並且它將很快支持其他模型。

這次體驗意義重大,因爲它向開發人員和非開發人員展示了 LLM 聊天機器人的速度和靈活性。Groq 的首席執行官喬納森·羅斯 (Jonathan Ross) 表示,一旦人們看到在 Groq 的快速引擎上使用 LLM 是多麼容易,LLM 的使用率將進一步增加。例如,演示提供了在此速度下可以輕鬆完成的其他任務的概覽,例如生成招聘信息或文章並即時更改它們。

Groq 之所以受到關注,是因爲它承諾能夠比競爭對手更快、更經濟地完成 AI 任務,該公司表示,這是因爲其語言處理單元 (LPU) 在執行此類任務時比 GPU 效率高得多,部分原因是 LPU 以線性方式運行。雖然 GPU 對於模型訓練很重要,但在實際部署 AI 應用程序時(“推理”是指模型採取的操作),它們需要更高的效率和更少的延遲。

羅斯告訴 VentureBeat,到目前爲止,Groq 已免費提供服務來支持 LLM 工作負載,並且得到了大量開發人員的支持,目前已超過 282,000 名開發人員。Groq 於 16 周前推出了這項服務。

Groq爲開發人員提供了一個控制檯來構建他們的應用程序,類似於其他推理提供商提供的服務。但值得注意的是,Groq 允許在 OpenAI 上構建應用程序的開發人員通過一些簡單的步驟在幾秒鐘內將他們的應用程序切換到 Groq。

雖然您可以向 Groq 引擎輸入查詢,但現在您也可以按下麥克風圖標後說出查詢。Groq 使用 Whisper Large V3 模型(OpenAI 最新的開源自動語音識別和語音翻譯模型)將您的語音轉換爲文本。然後將該文本插入爲 LLM 的提示。

Groq 表示,其技術在最差的情況下僅使用 GPU 三分之一的功率,但其大多數工作負載僅使用十分之一的功率。在這個似乎 LLM 工作負載永遠不會停止擴展、能源需求只會不斷增長的世界裡,Groq 的效率對 GPU 主導的計算領域提出了挑戰。

事實上,Ross 聲稱,到明年,全球一半以上的推理計算將在他們的芯片上運行。

https://venturebeat.com/ai/groq-claims-fastest-hardware-adoption-in-history-at-vb-transform/

點這裡加關注,鎖定更多原創內容

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》爲您分享的第3824內容,歡迎關注。

『半導體第一垂直媒體』

實時 專業 原創 深度

公衆號ID:icbank

喜歡我們的內容就點“在看”分享給小夥伴哦