蘇媽殺瘋了:移動端最強NPU算力達50TOPS,最強AI芯片挑戰英偉達

機器之心報道

作者:杜偉、亞鸝

一年一度的 Computex 科技大會成爲了 GPU 廠商們秀肌肉的舞臺,其中當屬英偉達和 AMD 最爲亮眼。英偉達現場拿出了量產版 Blackwell 芯片,還公佈了未來三年的產品路線,包括下一代 Rubin AI 平臺。

AMD 當然也不甘示弱,CEO 蘇姿豐亮出了旗下的 CPU、GPU 產品及路線圖,包括全新 Zen 5 架構的桌面端 Ryzen 9000系列 CPU、AI PC 芯片、數據中心芯片和 GPU。

蘇姿豐

全新 Zen 5 架構

銳龍 9000 桌面系列芯片首次亮相

蘇姿豐在演講中着重介紹了基於 Zen 5 架構的全新桌面端 Ryzen CPU,它們經過優化可以通過神經網絡處理器來加速 AI 工作負載。

下圖爲下一代高性能 CPU 核心 Zen 5 的各項規格,它不僅是當前 Ryzen 9000 系列處理器的核心,也將成爲今年下半年推出的 Turin Epyc 霄龍服務器 CPU 的核心。

蘇姿豐表示,Zen 5 是 AMD 迄今設計的性能和能效均最高的核心,而且它是從頭開始設計的。其中,該核心擁有一個新的並行雙管道前端,旨在提高分支預測準確性並減少延遲,並能夠在每個時鐘週期提供更高的性能。

此外,Zen 5 具有更寬的 CPU 引擎指令窗口,可以並行運行更多指令,以實現領先的計算吞吐量和效率。與 Zen 4 相比,Zen 5 的指令帶寬增加了一倍,緩存和浮點單元之間的數據帶寬增加了一倍,AI 性能增加了一倍,同時具有完整的 AVX 512 吞吐量。

蘇姿豐現場首次展示了採用 Zen 5 架構的 Ryzen 9 9950X。

Ryzen 9 9950X 擁有 16 個核心和 32 個線程,加速後運行速度可以高達 5.67 GHz。Zen 5 的平均每個核心指令比之前的 Ryzen 芯片以及「Genoa」Epyc 9000 系列處理器中使用的 Zen 4 核心多 16%。此外,TDP 爲 170W,L2+L3 緩存爲 80MB。

下圖爲 Ryzen 9000 全系列 CPU,包括了 Ryzen 9 9950X、Ryzen 9 9900X、Ryzen 7 9700X、Ryzen 5 9600X 以及規格比較。這些產品預計今年 7 月上市。

AMD 給出的內部遊戲測試數據顯示,Ryzen 9 9950X 對遊戲性能的提升幅度不一。比如在《無主之地 3》中的表現僅比英特爾 Core i9-14900K 高出 4%,在《殺手 3》中高出 6%,在《賽博朋克 2077》中高出 13%。此外,Ryzen 9 9950X 在《F1 2023》中的表現較英特爾提升了 16%,在《DOTA 2》中提升了 17%,在《地平線零之曙光》中提升了 23%。

50TOPS

AMD 最強移動端 NPU 算力

蘇姿豐展示了下一代 AI PC 芯片 —— 銳龍 AI 300 系列 APU(第三代)。

下圖爲銳龍 AI 300系列芯片實拍。

銳龍 AI 300 系列芯片旨在提供下一代 AI PC 體驗,因而要求 NPU、CPU 和 GPU 均要達到最佳。

銳龍 AI 300 系列首發提供了兩款型號,銳龍 AI 9 HX 370 和銳龍 AI 9 365。下圖爲銳龍 AI 9 HX 370 的參數規格。

銳龍 AI 300 系列採用了XDNA AI NPU,號稱移動端最強 NPU,算力達 50TOPS,不僅達到了微軟對新一代 AI PC「NPU 算力 40TOPS 以上」的標準,還超過了高通驍龍 X Elite 的 45TOPS、英特爾 Lunar Lake 的 40-45TOPS。

AMD 表示,搭載銳龍 AI 300 系列的筆記本將於今年 7 月起陸續上市。

最高 192 核心 384 線程

第五代 EPYC 霄龍問鼎數據中心芯片

蘇姿豐現場也展示了第五代「Turin」EPYC 霄龍芯片,它號稱全球最強數據中心 CPU。

下圖爲第五代 AMD 霄龍 Turin 芯片的參數規格。目前沒有透露太多細節,從基礎信息參數來看,Turin 具有 192 個 Zen 5 核心和 384 個線程,採用與 Genoa Epyc 9004s 相同的 SP5 插槽適配。

Turin 芯片可能會被命名爲 「Epyc 9005s」。可以期待的是, 在 IPC 方面,它與 Ryzen Zen 5 芯片相近。相較於 Zen 4 核心,IPC 改進可能在 15% 到 20% 之間。蘇姿豐展示了 Turin 芯片的一些早期基準測試數據。

如下圖所示,圖上爲具有 128 個核心的 Turin 芯片在 NAMD 分子動力學應用程序中運行 STMV 基準測試的性能。Turin 芯片模擬了 2000 萬個原子,並計算了計算引擎在 24 小時內可以處理多少納秒的分子相互作用。可以看到,128 核心的 Turin 芯片是 64 核心英特爾「Emerald Rapids」Xeon SP-8592 + 工作量的約 3.1 倍。

圖下爲基於 Meta Llama 2 7B 模型的 AI 吞吐量基準測試,該模型以 INT4 數據格式處理,推理 token 生成設置爲 50 毫秒。128 核心的 Turin 芯片是英特爾競品 CPU 性能的 2.5 倍到 5.4 倍之間,具體數值取決於工作負載。

對標英偉達

AMD 的 Instinct GPU 也一年一更

講完了 CPU,接下來的重頭戲就是 Instinct GPU 了,它將是 AMD 未來產品戰略的一個重要抓手。

蘇姿豐表示,「Antares」MI300 系列是 AMD 歷史上增長最快的產品,在 HPC 和 AI 工作負載方面的可用性看起來有點像英偉達 GPU,不過其所提供的性能優勢以及 HBM 內存容量、帶寬優勢較爲突出。

比如在推理工作負載方面,通過對 Llama 3(具有 700 億參數)進行推理檢驗性能的結果來看,一臺配備 8 個 MI300X GPU 的服務器性能約爲一臺配備 8 個 H100 GPU 加速器的英偉達 HGX 性能的 1.3 倍。而在 Mistral 7B 模型上,單個 MI300X 的性能則是英偉達 H100 GPU 的約 1.2 倍。

隨後,蘇姿豐公佈了2024-2026 年的 Instinct GPU 路線圖,今年推出 MI325X,2025 年推出 MI350,2026 年推出 MI400。

MI325X 將具有更大的算力規模,並轉向 HBM3E 內存。下圖爲 MI325X 的基礎性能規格,內存增加了 2 倍,最高可達 288GB;帶寬增加了 30%,達到了 6TB / 秒。

下圖爲 MI325X 的數據傳輸速度與英偉達 H200(141GB 內存)比較的結果。值得一提的是,1 萬億參數的模型將適配一臺配有八個 MI325X 的系統主板,每個 GPU 都有 288GB 的 HBM3E 內存容量。

據悉,MI325X 最快將在今年第四季度推出。不過到那時,英偉達將在該領域中憑藉 B100 佔據一席之地,並將大規模量產 H200。因此,AMD 感受到了危機,並且迅速行動。

這也是爲什麼 AMD 提前推出 MI350X 的原因,它採用了全新 CDNA 4 架構、臺積電 3 納米工藝、288 GB 的 HBM3E 內存以及 FP6、FP4 數據類型。MI350X 也將成爲 AMD Instinct MI350 系列的第一款產品。

在推理性能方面,CDNA 4 架構是 CDNA 3 的 35 倍。

MI350 的內存容量將是英偉達 2025 年推出的 B200(Blackwell Ultra 架構)芯片的 1.5 倍,AI 計算能力是後者的 1.2 倍。

AMD 這波就是奔着英偉達去的,到時候有好戲看了。

https://www.nextplatform.com/2024/06/03/amd-previews-turin-epyc-cpus-expands-instinct-gpu-roadmap/

https://www.anandtech.com/show/21415/amd-unveils-ryzen-9000-cpus-for-desktop-zen-5-takes-center-stage-at-computex-2024