☰

針對兆級規模參數量的AI需求打造 NVIDIA揭曉「Blackwell」新一代顯示架構

▲NVIDIA揭曉代號「Blackwell」的新一代顯示架構

因應近年自動生成式人工智慧技術應用發展，以及多模運作的人工智慧興盛，NVIDIA在此次GTC 2024正式揭曉代號「Blackwell」的新一代顯示架構，接續代號「Hopper」成爲新一代推動加速運算的顯示架構。

「Blackwell」顯示架構，是以美國統計學家、加州大學柏克萊分校統計學名譽教授，同時也是美國國家科學院的首位黑人院士身分的David Blackwell姓名爲稱，其同時也是描述如何將任意粗略估算值轉化爲以均方誤差準則，或是任何一種類似準則優最佳化的估算值的拉奧-布萊克韋爾定理（Rao–Blackwell theorem）共同提出者。

▲NVIDIA執行長黃仁勳右手拿的就是「Blackwell」顯示架構GPU，左手則是先前推出的「Hopper」顯示架構GPU，明顯在面積尺寸大了一些

依照NVIDIA說明，「Blackwell」顯示架構是針對兆級規模參數量的人工智慧需求打造，本身以臺積電客製化4nm製程生產，並且能借由單一GPU設計對應20 PetaFLOPS算力表現，結合此GPU設計的Superchip涵蓋2080億組電晶體，分別可在訓練效率相比先前推出的「Hopper」提升4倍，推論運算效率則可提高30倍，而能源使用效率更提升25倍。

▲「Blackwell」顯示架構是針對兆級規模參數量的人工智慧需求打造，本身以臺積電客製化4nm製程生產，並且能借由單一GPU設計對應20 PetaFLOPS算力表現，結合此GPU設計的Superchip涵蓋2080億組電晶體，分別可在訓練效率相比先前推出的「Hopper」提升4倍，推論運算效率則可提高30倍，而能源使用效率更提升25倍

架構方面，「Blackwell」整合第二代Tramsformer人工智慧引擎、可對應FP4/FP6低位元浮點運算的Tensor Core設計，並且對應第五代NVLink連接技術，最多可同時與576組GPU連動，支援每秒達800GB的資料解壓速率，以及更安全資料加密保護機制，更可確保運作穩定性。

另外，「Blackwell」也以兩組光罩對應Die裸晶核心單元構成的特殊設計，內部則以每秒10TB資料傳輸速率方式的NV-HBI介面進行溝通，並且能以單一GPU形式運作。這樣的作法預期是爲了在現有製程技術容納更多電晶體數量，進而使運算效能提升。

▲以兩組光罩對應Die裸晶核心單元構成的特殊設計，內部則以每秒10TB資料傳輸速率方式的NV-HBI介面進行溝通，並且能以單一GPU形式運作

「Blackwell」在FP8運算模式可對應10 PetaFLOPS算力表現，而在FP4運算模式則可對應20 PetaFLOPS算力表現，本身則整合192GB容量、支援每秒8TB資料傳輸量的HBM3e高密度記憶體，並且能透過NVLink以每秒1.8TB速率交換資料內容。

爲了進一步提升「Blackwell」在多模運作人工智慧應用效率，NVIDIA也透過HDR Infiniband傳輸介面提供每秒可達100 GByte的資料傳輸效率，藉此能讓大規模運算叢集中的每15組GPU運算資料進行同步，並且搭配第五代NVLink設計讓多達576組GPU構成運算節點的運算內容維持正確。

▲透過HDR Infiniband傳輸介面提供每秒可達100 GByte的資料傳輸效率，藉此能讓大規模運算叢集中的每15組GPU運算資料進行同步

▲搭配第五代NVLink設計讓多達576組GPU構成運算節點的運算內容維持正確

包含Cisco、Dell、HPE、聯想和Supermicro預計提供基於「Blackwell」產品打造的各類伺服器，而包含永擎電子、華碩、Eviden、鴻海、技嘉、英業達，以及和碩、雲達、緯創資通、緯穎科技和雲達國際科技也會推出基於「Blackwell」產品打造伺服器。

至於Ansys、Cadence和Synopsys等工程模擬軟體業者，將使用基於「Blackwell」產品加速用於設計及模擬電氣、機械、製造系統與零件的軟體，並且透過利用自動生成式人工智慧與加速運算資源，以更快、更低成本及更高能源效率方式將產品推向市場。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

針對兆級規模參數量的AI需求打造 NVIDIA揭曉「Blackwell」新一代顯示架構

相關資訊