臺積電董事長預測:未來15年每瓦GPU性能提升1000倍,GPU晶體管數破萬億!

新智元報道

編輯:編輯部

【新智元導讀】過去25年,半導體工藝製程不斷逼近極限,纔有了ChatGPT的誕生。如今世界最強英偉達GPU已有超2080億個晶體管。臺積電大佬預測,未來十年,1萬億晶體管GPU將問世。

GTC 2024大會上,老黃祭出世界最強GPU——Blackwell B200 ,整整封裝了超2080億個晶體管。

比起上一代H100(800億),B200晶體管數是其2倍多,而且訓AI性能直接飆升5倍,運行速度提升30倍。

若是,將千億級別晶體管數擴展到1萬億,對AI界意味着什麼?

今天,IEEE的頭版刊登了臺積電董事長和首席科學家撰寫的文章——「我們如何實現1萬億個晶體管GPU」?

這篇千字長文,主打就是爲了讓AI界人們意識到,半導體技術的突破給AI技術帶來的貢獻。

從1997年戰勝國際象棋人類冠軍的「深藍」,到2023年爆火的ChatGPT,25年來AI已經從實驗室中的研究項目,被塞入每個人的手機。

這一切都要歸功於,3個層面的重大突破:ML算法創新、海量數據,以及半導體工藝的進步。

臺積電預測,在未來10年,GPU集成的晶體管數將達到1萬億!

與此同時,未來15年,每瓦GPU性能將提高1000倍。

半導體工藝不斷演變,才誕生了ChatGPT

從軟件和算法到架構、電路設計乃至器件技術,每一層系統都極大地提升了AI的性能。

但是基礎的晶體管器件技術的不斷提升,才讓這一切成爲可能:

IBM訓練「深藍」使用的芯片工藝是0.6微米和0.35微米。

Ilya團隊訓練贏得ImageNet大賽的深度神經網絡採用的40納米工藝。

2016年,DeepMind訓出的AlphaGo戰勝了李世石,使用了28納米工藝。

而訓練ChatGPT的芯片基於的是5納米工藝,而最新版的ChatGPT推理服務器的芯片工藝已經達到了4納米。

可以看出,從1997年到現在,半導體工藝節點取得的進步,推動了如今AI飛躍式的發展。

如果AI革命想要繼續保持當前的發展速度,那麼它更需要半導體行業的創新和支持。

如果仔細研究AI對於算力的要求會發現,最近5年,AI訓練所需的計算和內存訪問量增長了好幾個數量級。

以GPT-3爲例,它的訓練需要的計算量相當於每秒進行超過5千萬億億次的運算,持續整整一天(相當於5000千兆浮點運算天數),同時需要3TB(3萬億字節)的內存容量。

隨着新一代生成式AI應用的出現,對計算能力和內存訪問的需求仍在迅速增加。

這就帶來了一個迫在眉睫的問題:半導體技術如何才能跟上這種發展的速度?

從集成芯片到集成芯片組

自從集成電路誕生以來,半導體行業一直在想辦法把芯片造得更小,這樣才能在一個指甲蓋大小的芯片中集成更多的晶體管。

如今,晶體管的集成工藝和封裝的技術已經邁向更高層次——行業已經從2D空間的縮放,向3D系統集成邁進。

芯片行業正在將多個芯片整合到一個集成度更高、高度互連的系統中,這標誌着半導體集成技術的巨大飛躍。

AI的時代,芯片製造的一個瓶頸在於,光刻芯片製造工具只能製造面積不超過大約800平方毫米的芯片,這就是所謂的光刻極限。

但現在,臺積電可以通過將多個芯片連接在一塊內嵌互連線路的硅片上來突破這一極限,實現在單一芯片上無法達到的大規模集成。

舉個栗子,臺積電的CoWoS技術能夠將多達6個光刻極限範圍內的芯片,以及十二個高帶寬內存(HBM)芯片封裝在一起。

高帶寬內存(HBM)是AI領域越來越依賴的一項關鍵半導體技術,它通過將芯片垂直堆疊的方式來集成系統,這一技術在臺積電被稱爲系統集成芯片(SoIC)。

HBM由多層DRAM芯片垂直堆疊而成,他們都位於一個控制邏輯IC之上。它利用硅穿孔(TSV)這種垂直連接方式讓信號穿過每層芯片,並通過焊球來連接各個內存芯片。

目前,最先進的GPU都非常依賴HBM技術。

未來,3D SoIC技術將提供一種新的解決方案,與現有的HBM技術相比,它能在堆疊芯片之間實現更密集的垂直連接。

通過最新的混合鍵合技術,可以將12層芯片堆疊起來,從而開發出全新的HBM結構,這種銅對銅(copper-to-copper)的連接方式比傳統的焊球連接更爲緊密。

論文地址:https://ieeexplore.ieee.org/document/9265044

這種內存系統在一個更大的基礎邏輯芯片上以低溫鍵合,整體厚度僅爲600微米。

隨着由衆多芯片組成的高性能計算系統運行大型AI模型,高速有線通信可能成爲計算速度的下一個瓶頸。

目前,數據中心已經開始使用光互連技術連接服務器架。

文章地址:https://spectrum.ieee.org/optical-interconnects

不久的將來,臺積電將需要基於硅光子技術的光接口,把GPU和CPU封裝到一起。

論文地址:https://ieeexplore.ieee.org/document/10195595

這樣才能實現GPU之間的光通信,提高帶寬的能源和麪積效率,從而讓數百臺服務器能夠像一個擁有統一內存的巨型GPU那樣的方式高效運行。

所以,由於AI應用的推動,硅光子技術將成爲半導體行業中最爲關鍵的技術之一。

邁向一萬億晶體管GPU

當前用於AI訓練的GPU芯片,約有1000億的晶體管,已經達到了光刻機處理的極限。

若想繼續增加晶體管數量,就需要採用多芯片,並通過2.5D、3D技術進行集成,來完成計算任務。

目前,已有的CoWoS或SoIC等先進封裝技術,可以在GPU中集成更多晶體管。

臺積電預計,在未來十年內,採用多芯片封裝技術的單個GPU,將擁有超1萬億晶體管。

與此同時,還需要將這些芯片通過3D堆疊技術連接起來。

但幸運的是,半導體行業已經能夠大幅度縮小垂直連接的間距,從而增加了連接密度。

而且,未來在提高連接密度方面還有巨大的潛力。臺積電認爲,連接密度增長一個數量級,甚至更多是完全有可能的。

3D芯片中的垂直連接密度的增長速度與GPU中的晶體管數量大致相同

GPU的能效性能趨勢

那麼,這些領先的硬件技術,是如何提升系統整體性能的呢?

通過觀察服務器GPU的發展,可以明顯看到一個趨勢:所謂的能效性能(EEP)——一個反映系統能效和運行速度的綜合指標——正穩步提升。

過去15年中,半導體行業已經實現了,每兩年將EEP提高約3倍的壯舉。

而在臺積電看來,這種增長趨勢將會延續,將會得益於衆多方面的創新,包括新型材料的應用、設備與集成技術的進步、EUV技術的突破、電路設計的優化、系統架構的革新,以及對所有這些技術要素進行的綜合優化等因素的共同推動。

此外,系統技術協同優化(STCO)這一概念將變得日益重要。

在STCO中,GPU內不同的功能模塊將被分配到專屬的小芯片(chiplets)上,每個模塊都採用最適合其性能和成本效益的技術進行打造。

這種針對每個部件的最優化選擇,將對提高整體性能和降低成本發揮關鍵作用。

得益於半導體技術的進步,EEP指標有望每兩年提升3倍

3D集成電路的革命性時刻

1978年,加州理工學院的Carver Mead教授和Xerox PARC的Lynn Conway,共同開發了一種革命性的計算機輔助設計方法。

他們制定了一系列設計規則,簡化了芯片設計的過程,讓工程師即使不深諳過程技術,也能輕鬆設計出複雜的大規模集成電路。

論文地址:https://ai.eecs.umich.edu/people/conway/VLSI/VLSIText/PP-V2/V2.pdf

而在3D芯片設計領域,也面臨着類似的需求。

- 設計師不僅要精通芯片和系統架構設計,還需要掌握硬件與軟件優化的知識。

- 而製造商則需要深入瞭解芯片技術、3D集成電路技術和先進封裝技術。

就像1978年那樣,我們需要一種共通語言,讓電子設計工具能夠理解這些技術。

如今,一種全新的硬件描述語言——3Dblox,已經得到了當下多數技術和電子設計自動化公司的支持。

它賦予了設計師自由設計3D集成電路系統的能力,且無需擔心底層技術的限制。

走出隧道,迎接未來

在人工智能的大潮中,半導體技術成爲了推動AI和應用發展的關鍵力量。

新一代GPU已經打破了傳統的尺寸和形狀限制。半導體技術的發展,也不再侷限於僅在二維平面上縮小晶體管。

一個AI系統可以集成儘可能多的節能晶體管,擁有針對特定計算任務優化的高效系統架構,以及軟硬件之間的優化關係。

過去50年,半導體技術的進步就像是在一條明確的隧道中前進,每個人都清楚下一步應該怎麼做:不斷縮小晶體管的尺寸。

現在,我們已經走到了這條隧道的盡頭。

未來的半導體技術開發將面臨更多挑戰,但同時,隧道外也有着更加廣闊的可能性。

而我們將不再被過去的限制所束縛。

參考資料:https://spectrum.ieee.org/trillion-transistor-gpu