AI的盡頭是能源?

防走失,電梯直達

來源:知識分子

作者:戚譯引 馮灝

無論是否支持人工智能(AI)的發展,我們都難以忽視一個重要的問題,那就是AI的能耗。有人擔心AI發展過快,對能源市場和環境、氣候造成衝擊;而有人擔心能源產業進步太慢,最終成爲制約AI發展的瓶頸。

根據預測,隨着AI的發展和普及,AI在能耗中的佔比還將逐年提升。AI研發企業也在能源供應方面進行了大筆投資,以期滿足未來需求。10月14日,谷歌公司宣佈將購買核能初創公司Kairos Power建造的小型模塊化反應堆生產的電力[1]。此前在9月20日,微軟公司宣佈與星座能源公司(Constellation Energy)達成協議,將重啓三裡島核電站1號反應堆,併購買其未來20年內產出的電能[2]。OpenAI首席執行官山姆·奧特曼(Sam Altman)更是早早出手,在今年年初就大舉投資核聚變。

但與此同時,新的趨勢正在涌現。多位業界人士告訴《知識分子》,可以通過多種方式降低AI的能耗,讓能源利用更加高效,包括軟硬件技術的提升,以及宏觀層面的建設佈局優化。更重要的是,AI進步的方向不一定是更大、更強,一些小而美的模型正在悄然登場。

01

AI能耗評估難題

關於AI的耗電量,一篇廣爲流傳的報道稱,ChatGPT 每日耗電量或超 50 萬千瓦時,相當於1.7萬個美國家庭的能耗[3]。還有研究估算,在最糟糕的場景下,未來谷歌AI的能耗將與像愛爾蘭這樣的國家相當[4]。然而另一方面,也有觀點認爲媒體和大衆選擇性關注估算結論較爲誇張的研究,並將對AI能耗的擔憂視爲社會對新技術慣有的反應[5]。

儘管當前關於AI能耗的討論大多基於估算數據,但我們仍然可以就此進行一些定性討論。例如在算法層面,多位業界人士表示,就單次計算耗電量來說,AI在訓練階段比推理階段能耗更高。也就是說,大模型訓練過程中的超高能耗不會成爲AI應用中的常態。

清華大學電子工程系主任、清華大學信息科學技術學院副院長汪玉團隊測試了不同算力芯片的單卡推理功耗,他告訴《知識分子》:“推理階段的功耗基本在300W-500W,國產卡在150W-300W;相比之下,訓練階段的功耗在400W-700W。未來推理功耗還有比較大的下降空間,同等算力有望降到100W以下。”以開源大語言模型LLama3-405B爲例,該模型有4050多億參數,“使用近16000塊英偉達H100 80GB版本GPU進行訓練,耗時長達54天完成,加上配套設備總功耗接近20兆瓦,總能耗超過20000兆千瓦時”。

真實訓練的能量消耗要高於理論計算的結論。汪玉表示,大模型訓練時間長,GPU等硬件難以避免出現錯誤。在訓練過程中需要不斷進行檢查點的保存,出錯後中斷訓練並進行檢查點的恢復,這些操作均會造成難以預測的額外能耗開銷。“這個應該還是很可觀的”,汪玉說。

他提到,在大規模集羣訓練中容錯相關的能耗開銷還是非常大,比如Llama 3-405B在爲期54天的訓練期間,共發生了466次任務中斷(平均每3個小時發生一次中斷),約78%的中斷由硬件問題引起,容錯和錯誤恢復的時間佔比約10%,實際算力利用率只有38%左右。

不過,從應用場景上看,用戶推理請求的調用頻率要高得多。也就是說,即使單次調用AI的耗電量很低,其總能耗也可能相當可觀。南京大學高性能計算中心主任、高級工程師盛樂標告訴《知識分子》,AI系統運行階段最主要的成本就是電費,但是,“AI的實際應用價值與推理操作的廣泛使用直接相關,只有在推理方面用得更多,AI的落地價值才更大。”

隨着技術的完善,日常使用AI推理的單次能耗有望下降。上海數珩信息科技創始人、董事長張繼生介紹,爲提高AI系統在特定場景中的性能、降低整體能耗,研發出了很多軟硬件技術,包括模型壓縮、剪枝、量化、異構計算芯片等。

清華電子院能源電子中心主任兼清鵬智能創始人李中陽重點關注算電協同相關技術的研發與應用,如何匹配算力的用電特性與新能源的供電特性是這一技術的核心,而這恰恰又需要AI前沿技術特別是大模型技術的加持。李中陽表示:“在宏觀上,即使AI的能耗/計算量在持續降低,其實也是挺費電的,因爲計算量始終在那兒。”

總體上,關於AI算法能耗的討論主要基於模型體量、顯卡功率、計算時長等參數進行估算,這使得討論尤爲困難。研究AI倫理、政策的研究者們呼籲改變這種不透明的現狀。

卡內基梅隆大學人工智能和數字政策中心高級研究員、AIethicist.org 創始人梅爾·希科克(Merve Hickok)對《知識分子》指出,無法量化評估AI的能耗,就無法進行改進:“目前,各大科技公司都對自己的能源消耗有很好的瞭解,然而這些數據並沒有公開。在不少情況下,公司想法阻止這些信息的公開。”她提出,只有實現信息透明,我們才能追究各方的環境責任,並推動學術研究朝着更加節能的方向發展。

02

數據中心能耗超乎想象

討論AI能耗問題的困難不僅在於信息不透明,還因爲它的邊界難以界定。具體而言,AI造成的能耗遠遠不僅來自於算法和芯片,還包括與之配套的基礎設施,其中最重要的就是數據中心的能耗。

儘管數據中心不僅用於AI的運行,還運營加密貨幣等業務,但是伴隨着AI的爆發,AI在數據中心業務中的位置越來越重要,數據中心的數量和規模也在快速增長。而無論是能耗的數量級,還是背後多樣的影響因素,數據中心的能耗問題都要複雜許多。

數據中心的耗電量遠遠超過一般人的想象。國際能源署(IEA)發佈的一份報告顯示,2022年全球數據中心、比特幣和AI消耗的電能佔全球用電量的2%,達到460 TWh[6]。基於當前增長趨勢,IEA估計到2026年,全球數據中心總能耗將達1000 TWh,增幅超過一倍。

據統計,目前全球擁有超過8000座數據中心,其中約33%位於美國,16%位於歐洲,接近10%位於中國[6]。中國社會科學院工業經濟研究所助理研究員張瑾告訴《知識分子》:“全國數據中心的耗電量加起來,與其他30個省份(除去港澳臺和西藏)一起排序,大概排在10多名左右,超過近一半的省份全年的電力消耗量。”

並且,數據中心的數量和體量還在增長。張瑾說:“在我的研究區間之內,數據中心的發展是爆炸式的,不管是行業預測,還是股票市場的投資,大家對它普遍抱有極大的熱情。”

IEA報告指出,在數據中心內部,冷卻系統和服務器的能耗最高,各佔數據中心能耗的40%。剩餘20%的電能則用於能源供應系統、存儲設備和通訊設備[6]。其中,隨着數據中心規模擴大,芯片設備功率提高,冷卻系統的能耗日益引起關注。然而,降低數據中心電能消耗的設計同時會造成耗水量的上升,在另一個維度上對生態造成影響。

國際標準化組織可持續金融科技工作組專家、中國環境科學學會碳達峰碳中和專委會委員陳鈺什告訴《知識分子》,隨着數據中心規模越來越大,使用傳統冷卻系統的耗電成本較高,因此,“大型數據中心逐步‘棄電用水’,通過冷水機或冷卻塔來交換熱量。這雖然可以大幅降低耗電量,但卻又因蒸發等原因造成驚人的耗水量。”

微軟發佈的公開報告顯示,微軟在2022財年的耗水量爲640萬立方米,同比增加34%,這一趨勢與AI的發展密切相關[7]。加州大學河濱分校電氣與計算機工程副教授任紹磊(Shaolei Ren)團隊研究顯示, GPT-3每響應10~50個請求,就要“喝掉”一瓶550 mL的水[8]。

而陳鈺什指出:“由於擔心設備遇水發生腐蝕等破壞,數據中心多使用淡水,僅有一小部分爲非飲用水或可再生水。2022年,谷歌全球各地的數據中心共耗水52.2億加侖(約1,976立方米),其中四分之三以上均爲淡水。這種用水結構進一步增加了AI行業對全球水生態系統的影響。”

對於新成立的數據中心,在設計上進行改進能夠緩解這個問題。盛樂標指出,對於大規模數據中心,液冷技術比風冷技術更加划算,而且將冷卻水密封在循環中可以減少淡水的消耗。

03

能源行業如何迎接挑戰

從宏觀角度上看,AI的環境影響不僅與耗電量有關,也與電能的來源密不可分。發展更加清潔低碳的能源,並且在基建層面進行規劃,也有助於讓AI更加環境友好。多位業界人士提到,數據中心應當靠近發電廠,以實現算電耦合,減少電能傳輸和存儲過程中的損耗,這樣的產業佈局也有利於吸納綠電。

“近幾年,隨東數西算戰略推進,數據中心佈局呈現出由中心向周邊、由東部向西部的發展流動趨勢”,汪玉告訴《知識分子》。他指出,目前新疆有豐富的綠電資源,如光伏、風電。李中陽也認爲:“對中國而言,最大的優勢是擁有堅強的電網和充足的能源供應能力,挑戰是怎麼樣儘可能使用更多的新能源(發展人工智能)。”

然而,在東西部發展不均衡的背景下,在西部建設數據中心也面臨着人才缺乏、維護困難的問題。“東數西算最大的問題,是東部的數據或計算需求到不了西部,”盛樂標指出。AI計算往往需要大量的數據,如果計算需求離數據中心太遠,數據的傳輸成本就會非常高。因此,儘管貴州、內蒙等西部地區建設了不少數據中心,但它們的使用效率還遠遠比不上東部的超算中心。

AI的龐大需求也對綠電的穩定性提出了挑戰。盛樂標指出,風電、水電和光伏容易受到季節影響,而核電作爲穩定且環保的能源選項,是未來數據中心選址的一個趨勢,所以未來的趨勢可能是在覈電站旁邊建設數據中心。就在2024年3月,美國亞馬遜公司花6.5億美元購買了一座建在覈電站旁邊的數據中心,該核電站可提供960兆瓦的電力。長遠來看,可控核聚變技術的突破或許是支撐AI大規模發展的關鍵。

04

節能減排,

AI是助力還是阻礙?

在氣候議題越發緊迫的當下,AI的發展與節能減排目標之間的矛盾顯得越發尖銳。有學者擔憂,從短期看來,AI增長造成的硬件需求增加必然會增加能耗和碳排放。

“數字產業化和產業數字化,現階段在整個經濟系統的碳排放中佔比,實際上非常高。尤其是,人們天然認爲新技術產業是符合綠色、低碳要求的,但其實它們的能耗一點也不低,生命週期排放也是相當高的。”張瑾告訴《知識分子》。

她指出,總體上,學界目前認識到,數字化轉型與碳排放之間呈現出倒U型關係。在數字化發展初期,大量的基礎設施建設、落後的配套設施及人才,使得數字化節能減排的效應會被建設初期產生碳排放增加效應抵消;隨着基礎設施逐步完善,數字化的技術效率效應顯現,可以大幅提升能源效率和減排效果。“但最近我們的研究發現,(數字化轉型與碳排放之間)或許是N型關係,即隨着數字化發展深度和廣度持續推進,數據要素和算力成爲驅動經濟增長的關鍵要素時,其對電力的需求會呈現飛躍式的增加,屆時會進步一增加能耗和排放。”

也有觀點認爲,AI能夠成爲人類應對氣候變化的得力助手,並且這方面的一些應用已經落地。“人工智能可以提供創新的方式來監測、分析和減少我們對環境的影響。”陳鈺什告訴《知識分子》。

他舉例說,西門子中國上海智能製造中心的AI數字化能源管理系統實現了覆蓋整個製造流程的預測性維護,在提高能源效率的同時避免了非計劃停機帶來的額外消耗,單位產品能耗降低24%;人工智能驅動的華爲雲盤古大模型、谷歌Flood Hub服務提供了更先進的氣象預報,能夠幫助人們應對災難天氣。除此之外,AI還可以用於電網調度、廢棄物管理等領域。

然而,量化評估AI在不同技術發展階段對環境各個方面的影響十分複雜。鄭州大學管理學院講師李國昊指出:“現在使用經濟計量方法得出的結論是人工智能發展能夠減少排放,但這個結論其實是存在疑問的,因爲很難把AI影響碳排放的複雜機理說清楚,也很難將影響路徑中其他干擾因素剔除掉。因此,還要建立更精細的系統模型,來測算它的真實影響。”

除此之外,還可能存在反彈效應——成本降低會帶來技術的普及,使總能耗提升。例如,當家用汽車的發動機燃油效率提高後,駕車出行的成本降低了,人們就更傾向於駕車出行,造成總能耗增加。李國昊認爲,人工智能也可能遵循同樣的發展路徑:隨着人工智能效率提高、成本降低,其部署量和總能耗也會提高。

不過,在人工智能高歌猛進的當下,討論其環境影響有時又顯得不合時宜。李國昊表示:“關注 AI的能耗本身,就像在經濟發展初期去關注環境問題,本身就是不討好的事情。”

上海金司南金融研究院產品創新中心主任尹茂華評論,從可持續發展的角度來看,AI能耗問題“不是短期的熱度,它是生產力和生產關係根本性變革的新工業革命”。她認爲,中美的人工智能技術之間還有幾代的差距,伴隨大模型的商業應用落地,能源的佔用和擠壓正在發生,但芯片技術迭代也在同步降低能耗。人工智能引領的變革,將如何影響能源結構,需要持續關注。

05

AI的未來也許是“小而美”

商業、科技行業“贏家通吃”的邏輯放大了對落後的擔憂。但多位業界人士指出,一味發展模型、建設數據中心並不可取。

盛樂標指出,從頭訓練大模型成本高昂,對中小企業來說並不現實,“單一追求大型模型和數據中心的建設並不夠明智,AI要落地產生更大的價值,未來肯定是面向各行各業的行業大模型……只有熱度降下去以後,我們真正把精力放在算法的優化上,或者是跟行業結合的相關模型研究上。通過與具體行業應用的深度融合,才能實現AI價值的最大化。”

相比之下,有針對性地訓練較小的模型可以用較低的成本滿足落地需求。一些企業已經開始了這樣的嘗試。“我們的能源消耗一定是比正常他們在做大模型的低很多。”張繼生介紹,“OpenAI這些公司做的大模型都是過千億參數的模型。我們跟客戶走得比較近,瞭解客戶的需求,並根據這些需求做了不同領域、不同行業的小模型,有些模型可能只有20億或50億參數。”和萬億參數模型相比,這樣的小模型訓練成本、訓練時長都大大壓縮,同時還能很好地適應特定領域的使用場景。

與功能強大的通用大模型相比,面向特定領域的模型比較不容易引發大衆的關注。實際上,多個AI引擎已經在用戶頁面提供了特定的話題、用途選項,以便更精確地滿足用戶需求,這其中就體現了模型的迭代。

9月12日,OpenAI發佈了較小的o1-preview和o1-mini模型,它們針對STEM領域進行了優化,“在物理、化學、生物領域的重要挑戰性任務上的表現與博士生相當”[9]。媒體報道指出,新的模型進行了更多的推理過程,增加了響應的延遲,有時要一兩分鐘才能輸出答案;這種做法可能增加了能耗,但同時大幅提升瞭解答的質量,將來也許能夠幫助人類解決一些重要的問題。

或許,除了人工智能之外,我們還可以從其他許多方面入手,降低數字技術的碳排放。圖靈獎得主大衛・帕特森(David Patterson)從加州大學伯克利分校退休後加入谷歌公司,他牽頭的一項研究分析了在智能手機和雲端進行機器學習的能耗和碳排放,於今年1月發表[10]。他在回覆《知識分子》的郵件中表示:“根據我的研究,我認爲和使用AI產生的碳排放相比,計算機制造的隱含碳對氣候變化構成了更大的挑戰。”

該研究估計,人工智能和機器學習的用電量僅佔智能手機用電量的1%,並指出手機充電器消耗的能源達到手機的3倍以上,無線充電器的能耗尤其高昂。研究還指出:“2021 年,使用壽命過短的智能手機的隱含碳足跡幾乎是數據中心服務器的 3 倍……不久前人們拋棄了 75 億部智能手機。”

總而言之,人工智能的能耗問題牽涉微觀和宏觀的多個層面,氣候問題更是如此。有時候,這樣的複雜性會成爲人們迴避討論或不作爲的理由。但是另一方面,這也表明無論行業還是個人,我們有許多種途徑可以推動改變。

李璐對此文亦有貢獻

參考文獻:(上下滑動可瀏覽)

[1] Michael Terrell. New nuclear clean energy agreement with Kairos Power. Google Blog. https://blog.google/outreach-initiatives/sustainability/google-kairos-power-nuclear-energy-agreement/. 2024-10-14/2024-10-22

[2] Jennifer Hiller. Three Mile Island’s Nuclear Plant to Reopen, Help Power Microsoft’s AI Centers. The Wall Street Journal. https://www.wsj.com/business/energy-oil/three-mile-islands-nuclear-plant-to-reopen-help-power-microsofts-ai-centers-aebfb3c8. 2024-09-20/2024-09-23.

[3] Elizabeth Kolbert. The Obscene Energy Demands of A.I.. The New Yorker. https://www.newyorker.com/news/daily-comment/the-obscene-energy-demands-of-ai. 2024-03-09/2024-09-25

[4] de Vries A. The growing energy footprint of artificial intelligence[J]. Joule, 2023, 7(10): 2191-2194.

[5] Daniel Castro. Rethinking Concerns About AI’s Energy Use. Center for Data Innovation. https://datainnovation.org/2024/01/rethinking-concerns-about-ais-energy-use/. 2024-01-29/2024-10-22

[6] IEA (2024), Electricity 2024, IEA, Paris https://www.iea.org/reports/electricity-2024.

[7] 2022 Environmental Sustainability Report. Microsoft. https://news.microsoft.com/wp-content/uploads/prod/sites/42/2023/05/2022-Environmental-Sustainability-Report.pdf. 2023-05/2024-09-25.

[8] Li P, Yang J, Islam M A, et al. Making ai less" thirsty": Uncovering and addressing the secret water footprint of ai models[J]. arXiv preprint arXiv:2304.03271, 2023.

[9] Introducing OpenAI o1-preview. OpenAI. https://openai.com/index/introducing-openai-o1-preview/. 2024-09-12/2024-09-25.

[10] Patterson D, Gilbert J M, Gruteser M, et al. Energy and Emissions of Machine Learning on Smartphones vs. the Cloud[J]. Communications of the ACM, 2024, 67(2): 86-97. https://dl.acm.org/doi/pdf/10.1145/3624719.