一顆芯片帶來的焦慮
如果您希望可以時常見面,歡迎標星收藏哦~
英偉達今年的“壞消息”實在是有點多。
早在今年早些時候,就有媒體爆料今年剛發佈的Blackwell GPU出了一點小小的問題,其指出這款GPU存在設計缺陷,影響了量產進度,據稱該問題與臺積電的CoWoS先進封裝有關,最終通過更改GPU的光罩解決了問題。
儘管英偉達官方並未正面迴應這一問題,但英偉達首席執行官黃仁勳後續在10月份駁斥了臺積電應承擔責任的謠言,強調臺積電幫助解決了問題並“以驚人的速度”恢復了生產。
而在他駁斥的一個月後,新的問題誕生了,這次輪到了機架。據The Information報道,英偉達的Blackwell GPU安裝在高容量服務器機架中時,遇到了過熱問題,這一問題導致了GPU設計的修改和延遲,還引發了谷歌、Meta和微軟等主要客戶對Blackwell能否及時部署的擔憂。
Blackwell的量產進度一拖再拖,具體交付遲遲未確定,即使是英偉達最忠實的粉絲,也禁不住會問一句:英偉達,怎麼了?
芯片,太熱了?
據熟悉情況的內部人士向外媒透露,英偉達的Blackwell GPU用於AI和高性能計算(HPC),在搭載72顆處理器的服務器中容易過熱,這類服務器預計每個機架的耗電量高達120千瓦。過熱問題迫使英偉達多次重新評估服務器機架的設計,因爲過熱不僅限制了GPU性能,還可能損壞組件。客戶擔心,這些問題可能會阻礙新處理器在其數據中心的部署時間表。
報道稱,英偉達已指示供應商對機架進行多項設計修改以解決過熱問題,公司與供應商及合作伙伴密切合作,進行工程改進以提升服務器的散熱能力,儘管這些調整在大型技術發佈中屬於常見做法,但仍然增加了延遲,進一步推遲了預期的發貨時間。
針對延遲和過熱問題,英偉達發言人表示,公司正在與雲服務提供商合作,並將設計變更描述爲正常的開發流程的一部分,其表示,與雲服務商和供應商的合作旨在確保最終產品滿足性能和可靠性的期望,同時繼續努力解決這些技術挑戰。
此前,因Blackwell處理器的設計缺陷影響良率,英偉達不得不推遲生產計劃。據拆解分析,Blackwell B100和B200 GPU使用臺積電的CoWoS-L封裝技術,將其兩顆芯片通過RDL中介層及本地硅互連(LSI)橋連接起來,該設計支持高達10 TB/s的數據傳輸速度。
然而,由於GPU芯片、LSI橋、中介層和主板基板之間的熱膨脹特性不匹配,導致了器件翹曲及系統故障。爲了解決這個問題,英偉達對GPU芯片的頂部金屬層和焊點結構進行了修改,以提高生產可靠性。儘管英偉達未披露具體修改細節,但表示修復過程中需要新掩膜。
最終版本的Blackwell GPU直到10月底才進入量產階段,這意味着英偉達將於明年1月底開始發貨。
過熱似乎是英偉達兩次出現問題的主要原因,封裝內的過熱,機架的過熱,很難保證未來Blackwell其他地方不會出現過熱的問題。
事實上,此前英偉達準備要用的HBM就傳出了過熱問題,據今年5月來自路透社的報道,三星最新的HBM3和HBM3E由於過熱和功耗問題,它們未能通過英偉達的測試,直到好幾個月後,三星才解決了這一問題並正式供貨給英偉達。
有意思的是,半導體分析公司Semianalysis的首席分析師表示,雖然隨着Blackwell的加速推出以及後續所有芯片,散熱將是一個主要關注點,但與散熱相關的Blackwell設計問題已得到解決。
帕特爾說:“我認爲過熱問題已存在數月,並且大多已得到解決。”他說,過熱芯片的傳言可以追溯到夏天,“當我們追蹤這些傳言時,發現它們被誇大了,”帕特爾8月在X上發佈道。
今年8月,Semianalysis報告說,散熱系統出現了問題,導致幾家供應商進行了重新設計,負責報告的分析師稱這些改動“較小”。
Semianalysis指出,大型數據中心需要液冷來作爲散熱手段,其分析師在10月寫道:“任何不願意或無法提供更高密度液冷的數據中心都將錯過爲其客戶帶來巨大性能總擁有成本(TCO)改進的機會,並將在生成式人工智能的競賽中落後。”
也有其他學者提出了不同的觀點,喬治亞理工學院教授Bara Cola認爲,熱量本身並不是Blackwell面臨的最大挑戰。
“真正的挑戰是機械應力,而不是熱量。我相信英偉達會找到爲客戶運行這些芯片的辦法。像這樣的高性能芯片總是會運行得很熱,關鍵在於如何平衡溫度——聰明的工程師會解決這個問題,”Cola通過電子郵件告訴《PCMag》。“但當界面無法承受熱膨脹應力帶來的影響時,就會發生早期失效。這是一個困難的材料科學問題。”
但不管是Semianalysis,還是Bara Cola,他們都會承認這樣一個觀點,那就是熱量已經成爲了英偉達崛起之路上的最大絆腳石。
芯片,如何散熱?
首先要指出的是,過熱所導致的問題非常致命,過熱的芯片在冷卻之前會停止工作,而保持芯片冷卻的能力會影響每個芯片在給定時間段內能完成多少計算工作,停機時間和散熱成本會影響芯片使用壽命期間的總擁有成本,簡而言之,它決定了每一個數據中心是賺錢還是虧錢。
目前半導體行業中大部分擔憂都集中在GB200 NVL72上,它代表了數據中心的新前沿。名稱中的“72”指的是服務器中的72個Blackwell圖形處理單元,此外還有36個傳統中央處理單元。由於這麼多芯片被緊密地組合在一起以作爲一個超級芯片發揮作用,因此單個機架會變得非常熱,需要引入新的散熱手段。
Semianalysis所提到的液冷並非新鮮事物,但迄今爲止,在數據中心規模上應用液冷的情況相對較少,據報道,Meta已重新設計了其數據中心,以適應未來幾代AI芯片更高的功率密度和散熱需求。
隨着超大規模企業和少數其他英偉達客戶在2024年末至2025年上半年開始收到他們的芯片,液冷可能會成爲更多企業的選擇。未來,新的數據中心將配備液冷設施,許多現有設施也正在進行改造。這是一項相當艱鉅的任務,除了所有組件都必須完美配合以避免任何泄漏外,液體還必須在精確的溫度下循環。
除了工程和運營挑戰外,大規模液冷還帶來了一系列環境問題。亞馬遜內部文件顯示,亞馬遜在一些地區正在“給當地政府的現有基礎設施帶來壓力”,以獲取水資源,並“依賴長期基礎設施升級或建立自己的解決方案”來緩解這一問題。
儘管轉向液冷需要付出艱苦的努力並給環境帶來壓力,但這樣做的激勵因素也很強烈,隨着越來越多的Blackwell被交付,數據中心必然會採取這一更優異的散熱手段。
不過英偉達顯然遠比數據中心更早看到熱量這一問題,隨着服務器芯片的TDP不斷增加,B200芯片的TDP已經達到了1000W,傳統的空氣冷卻解決方案已無法滿足需求,GB200 NVL36和NVL72完整機架系統的TDP分別達到了70kW和近140kW,因此必須用到液冷的解決方案。
去年,英偉達對於數據中心散熱提出了一個想法,即同時用上液體冷卻和浸沒式冷卻這兩種方式。這一概念結合了直接液體冷卻(DLC)硅片和爲其他組件提供浸沒式冷卻,是美國能源部(DOE)在其COOLERCHIPS計劃下授予的500萬美元資助的研究主題。該計劃旨在將數據中心冷卻所消耗的電力降低到IT本身所消耗電力的5%以下。
“很快,當今的空氣冷卻系統將無法滿足需求。當前的液體冷卻技術將無法應對研究人員預期未來數據中心中的硅片每平方釐米需要散發的超過40瓦的熱量,”英偉達的文章解釋道。
英偉達的服務器冷卻概念與之前在Submer或LiquidStack等公司看到的罐式浸沒冷卻設置大相徑庭。它保留了大多數空氣冷卻和直接液體冷卻機箱中使用的標準機架式外形,其採用相變製冷劑——類似於冰箱和空調中使用的物質。隨着主板溫度升高,液體會沸騰、冷凝,然後滴落回原處。然而,英偉達的概念也要求對CPU和GPU進行傳統的直接液體冷卻。
從理論上講,這應該能讓英偉達實現雙溫區:一個用於高熱設計功耗(TDP)組件(如CPU和GPU),另一個用於較冷的組件(如內存或網卡)。
英偉達對液體冷卻並不陌生。這家加速器巨頭已經爲其SXM GPU模塊提供了幾年的液體冷卻外形,然而直到2022年5月的臺北電腦展,它纔開始爲其流行的A100 PCIe卡提供直接液體冷卻外形,並計劃從2023年開始推出液體冷卻的H100。
英偉達計劃在2026年交付一個結合液體和浸沒式冷卻的測試系統,並承諾會盡快提供實現該目標的進展更新。據介紹,在第一年,工程師們將專注於組件測試,然後在2025年進行部分機架測試。爲此,英偉達已邀請液體冷卻專家BOYD Corp協助設計冷板;兩相冷卻冠軍Durbin Group負責研製泵;Honeywell提供製冷劑;數據中心基礎設施提供商Vertiv負責散熱。
更有意思的是,英偉達並不是唯一一家致力於數據中心冷卻技術的公司,英特爾也在去年分享了其在開發能夠從單個芯片中散發千瓦熱量的多種系統方面取得的進展。
其中許多設計都聚焦於類似的概念,比如將整個系統浸入裝滿絕緣液體的容器中,還探索使用先進製造技術將3D蒸汽室嵌入“珊瑚形散熱器”中,而向芯片熱點噴射冷卻水的微型噴嘴是另一種想法。
不過,儘管該領域的研究仍在繼續,但英特爾的財務困境導致了一些障礙,包括取消了在俄勒岡州耗資7億美元的液體和浸沒式冷卻“超級實驗室”。
半導體精品公衆號推薦
專注半導體領域更多原創內容
關注全球半導體產業動向與趨勢
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。
今天是《半導體行業觀察》爲您分享的第3964期內容,歡迎關注。
『半導體第一垂直媒體』
實時 專業 原創 深度
公衆號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦