針對兆級規模參數量的AI需求打造 NVIDIA揭曉「Blackwell」新一代顯示架構
▲NVIDIA揭曉代號「Blackwell」的新一代顯示架構
因應近年自動生成式人工智慧技術應用發展,以及多模運作的人工智慧興盛,NVIDIA在此次GTC 2024正式揭曉代號「Blackwell」的新一代顯示架構,接續代號「Hopper」成爲新一代推動加速運算的顯示架構。
「Blackwell」顯示架構,是以美國統計學家、加州大學柏克萊分校統計學名譽教授,同時也是美國國家科學院的首位黑人院士身分的David Blackwell姓名爲稱,其同時也是描述如何將任意粗略估算值轉化爲以均方誤差準則,或是任何一種類似準則優最佳化的估算值的拉奧-布萊克韋爾定理(Rao–Blackwell theorem)共同提出者。
▲NVIDIA執行長黃仁勳右手拿的就是「Blackwell」顯示架構GPU,左手則是先前推出的「Hopper」顯示架構GPU,明顯在面積尺寸大了一些
依照NVIDIA說明,「Blackwell」顯示架構是針對兆級規模參數量的人工智慧需求打造,本身以臺積電客製化4nm製程生產,並且能借由單一GPU設計對應20 PetaFLOPS算力表現,結合此GPU設計的Superchip涵蓋2080億組電晶體,分別可在訓練效率相比先前推出的「Hopper」提升4倍,推論運算效率則可提高30倍,而能源使用效率更提升25倍。
▲「Blackwell」顯示架構是針對兆級規模參數量的人工智慧需求打造,本身以臺積電客製化4nm製程生產,並且能借由單一GPU設計對應20 PetaFLOPS算力表現,結合此GPU設計的Superchip涵蓋2080億組電晶體,分別可在訓練效率相比先前推出的「Hopper」提升4倍,推論運算效率則可提高30倍,而能源使用效率更提升25倍
架構方面,「Blackwell」整合第二代Tramsformer人工智慧引擎、可對應FP4/FP6低位元浮點運算的Tensor Core設計,並且對應第五代NVLink連接技術,最多可同時與576組GPU連動,支援每秒達800GB的資料解壓速率,以及更安全資料加密保護機制,更可確保運作穩定性。
另外,「Blackwell」也以兩組光罩對應Die裸晶核心單元構成的特殊設計,內部則以每秒10TB資料傳輸速率方式的NV-HBI介面進行溝通,並且能以單一GPU形式運作。這樣的作法預期是爲了在現有製程技術容納更多電晶體數量,進而使運算效能提升。
▲以兩組光罩對應Die裸晶核心單元構成的特殊設計,內部則以每秒10TB資料傳輸速率方式的NV-HBI介面進行溝通,並且能以單一GPU形式運作
「Blackwell」在FP8運算模式可對應10 PetaFLOPS算力表現,而在FP4運算模式則可對應20 PetaFLOPS算力表現,本身則整合192GB容量、支援每秒8TB資料傳輸量的HBM3e高密度記憶體,並且能透過NVLink以每秒1.8TB速率交換資料內容。
爲了進一步提升「Blackwell」在多模運作人工智慧應用效率,NVIDIA也透過HDR Infiniband傳輸介面提供每秒可達100 GByte的資料傳輸效率,藉此能讓大規模運算叢集中的每15組GPU運算資料進行同步,並且搭配第五代NVLink設計讓多達576組GPU構成運算節點的運算內容維持正確。
▲透過HDR Infiniband傳輸介面提供每秒可達100 GByte的資料傳輸效率,藉此能讓大規模運算叢集中的每15組GPU運算資料進行同步
▲搭配第五代NVLink設計讓多達576組GPU構成運算節點的運算內容維持正確
包含Cisco、Dell、HPE、聯想和Supermicro預計提供基於「Blackwell」產品打造的各類伺服器,而包含永擎電子、華碩、Eviden、鴻海、技嘉、英業達,以及和碩、雲達、緯創資通、緯穎科技和雲達國際科技也會推出基於「Blackwell」產品打造伺服器。
至於Ansys、Cadence和Synopsys等工程模擬軟體業者,將使用基於「Blackwell」產品加速用於設計及模擬電氣、機械、製造系統與零件的軟體,並且透過利用自動生成式人工智慧與加速運算資源,以更快、更低成本及更高能源效率方式將產品推向市場。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》