AMD CTO訪談全文:AI推理芯片需求猛增,GPU供應短缺必將緩解

AMD在這場AI芯片熱潮中一路狂奔,華爾街仍用空前的熱情爲“英偉達最強勁的挑戰者”買單。3月1日,AMD繼前一日大漲9%後再漲超5%,股價創收盤歷史新高。本週累漲14.8%,今年迄今漲幅達到30.6%。

AMD CTO及執行副總裁Mark Papermaster近期參加了播客節目《史無前例:人工智能、機器學習、技術與初創企業》,回答了AMD的戰略、最新的GPU進展、推理芯片部署的位置、芯片軟件棧,以及他們如何看待供應鏈,投資者應該對於2024年的AMD有哪些期待等問題。

主要內容包括:

以下爲全文問答整理:

問:你能先告訴我們一些你的背景嗎?你研究了各種有趣的東西,從iPhone和iPad到最新一代的AMD超級計算芯片。

答:當然,我在AMD有一段時間了。真正有趣的是,我進入這個行業的時機非常好,作爲德克薩斯大學電氣和計算機工程專業的畢業生,我對芯片設計非常感興趣,而我又生在芯片設計正在徹底世界的時代,今天每個人都在使用這種並研究技術。CMOS剛剛投入生產和使用。所以我參加了IBM的第一個CMOS項目,並創建了一些第一個設計。

我必須親自動手,從芯片設計的每一個方面,在IBM工作了幾年,我擔任了不同的角色,推動微處理器的發展。首先,在IBM公司,有電力公司的PC。這意味着與蘋果和摩托羅拉合作,以及我們在大型主機和大型風險服務器中使用的大型計算芯片。

真正得到了技術的各個方面,包括他們的一些服務器開發工作。但後來轉向了蘋果。史蒂夫·喬布斯(Steve Jobs)僱我運營iPhone和iPod。所以我在那裡呆了幾年。這是一個行業在下午發生重大轉變的時刻。對我來說,這是一個很好的機會,因爲我在2011年秋季結束了在AMD的工作,既是首席技術官,又負責技術和工程。就在摩爾定律開始放緩的時候,因此需要巨大的創新。

問:是的,我想談談這一點,以及我們在計算創新方面可以期待什麼。如果我們不只是在做夢,芯片上更多的晶體管無法做到這一點。我想,我們的每一位聽衆都聽說過AMD,但你能簡要介紹一下你服務的主要市場嗎?

答:AMD是一家有50多年曆史的故事公司。它一開始作爲第二供應商公司,帶來了真正關鍵組件和x86微處理器。但你快進到我們今天所處的位置,這是一個非常廣泛的投資組合。10年前,當我們的首席執行官Lisa Su以及我進入公司時,使命是讓AMD重新獲得非常非常強大的競爭力。

超級計算一直是AMD的重點。大約十年前,我們就開始恢復我們的CPU路線圖。我們重新設計了我們的工程流程,其中之一就是採用更加模塊化的設計方法,即我們開發可重複使用的部件,然後根據應用需求將其組合在一起。

我們投資開發了一系列新的高性能CPU,同時還努力將GPU提升到更高性能。這兩種類型的處理單元都很重要,因爲超級計算就是異構計算。它需要CPU和GPU協調工作,共同完成最繁重的任務。

世界上最強大的超級計算機就採用了AMD第三代霄龍7A53 64核心處理器和Instinct MI250X GPU加速器。

就在2022年2月,AMD收購半導體制造商Xilinx,對電子行業的合併產生重大影響,從而進一步擴大了投資組合,這次收購擴大了AMD的投資組合,使其在超級計算機、雲計算、遊戲設備和嵌入式設備等領域都有所涉足。AMD還收購了平桑託公司,進一步擴展了產品組合。

問:AMD在過去的十年裡公司取得了令人矚目的成就,尤其是在人工智能領域。自從你加入公司以來,一直在強調人工智能的重要性。過去十年中,人工智能的應用發生了巨大的變化,不僅包括傳統的卷積神經網絡(CNN)和循環神經網絡(RNN),還包括變壓器模型、擴散模型等新型架構的應用。

你能告訴我們更多關於最初在人工智能領域引起你注意的事情嗎?那麼隨着時間的推移,AMD是如何開始越來越關注這一點的呢?你想出了什麼樣的解決方案?

答: 我們都知道人工智能的發展早就開始了,競爭開始於應用程序領域的開放。而AMD的GPU在這場競賽中發揮了關鍵作用,特別是在圖像識別和自然語言處理方面的準確性提升方面。AMD意識到了人工智能領域的巨大機遇,並制定了深思熟慮的戰略,以成爲該領域的領導者。

因此,看看AMD在2012年到2017年之間的情況,其大部分收入主要基於個人電腦(PC)和遊戲領域。

所以,關鍵是確保投資組合在構建系統模塊化方面具有競爭力。這些基石必須是在領域的領導力,必引人們在AMD平臺上使用高性能應用程序。因此,首先,我們實際上必須重建CPU路線圖。那就是我們發佈了Zen微處理器,在個人電腦上有一個Rising系列,以及在x86服務器系列中的Epic。所以這開始了公司的收入增長,並開始擴展我們的投資組合。

大約在同一時間,當我們看到異構計算的發展方向時,在我加入公司之前就已經提出了異構計算的理念。在Lisa加入公司之前,AMD進行了一次重大收購——收購了GPU製造商ATI,從而將GPU技術納入了公司的產品組合,這是我被AMD的CPU和GPU技術吸引而加入了公司的原因。

事實上,它是唯一一家將CPU和GPU融合到一起的公司。對我來說,行業需要串行、標量、這些傳統CPU工作負載的競爭,以及從GPU獲得的大量並行處理能力, 因此AMDk考慮通過異構計算模式將它們結合在一起,以滿足不同類型的計算需求。

我們早在2011年就開始爲個人電腦應用程序製造聯合CPU和GPU芯片,這比任何其他公司都要早。我們稱之爲APU(加速處理器單元)。然後,對於大數據應用程序,我們首先從HPC(高性能計算技術)開始,這種技術在國家實驗室中使用,也在石油勘探公司中使用。因此,我們首先專注於大型政府招標項目,最終導致了我們在世界上最大的超級計算機中擁有AMD CPU和MDGP US。

這項工作幾年前就開始了,它同樣是硬件和軟件的努力。我們一直在建立這種硬件和軟件能力,直到去年的2023年12月6日,我們宣佈了我們的旗艦產品MI300,分別爲純 GPU 的 MI300X 與 APU 架構的 MI300A,均採用 HBM3 內存,容量 192GB / 128GB。也是爲高性能人工智能應用程序優化的一個變體,能夠同時面向訓練和推理。

所以這是一個漫長的旅程,我們很高興我們的銷量開始起飛。

問:現在太棒了,我猜當你推出MI300時,你得到了Meta、微軟購買它的承諾。剛剛提到你對一系列應用程序感到非常興奮。你能告訴我們更多關於你最感興趣的或者今天最看好的應用程序以及雲端應用部署的方面嗎?

答:當然,當考慮到人工智能的主要應用領域時,你仍然會看到巨大的資本支出,爲了提升大語言模型的準確性,包括訓練和推理領域。這些模型像ChatGPT、Bard和其他語言模型一樣,您可以向它們詢問任何問題,它們試圖吸收海量的數據,來對模型進行訓練,這的確是人工智能和通用人工智能的終極目標。

這就是我們的重點所在。MI300是爲了開始實現這一目標的,它是一個可以與行業領導者競爭的典範產品。事實上,MI300已經做到了,它在訓練方面具有競爭力,且在推理方面領先,具有巨大的性能優勢。我們爲訓練或推理處理所需的數學處理創建了非常高效的引擎。但我們也提供了更多的內存,以實現更高效的計算。

與競爭對手相比,MI300提供了更高的性能、更低的功耗和更少的機架空間,實現了更高效的計算。

問:競爭的一個重要方面,正如你剛纔指出的那樣,包括性能,例如整體性能,還有效率,以及軟件平臺等等。你如何考慮在優化數學庫上的投資?你希望開發人員如何理解你們的方法?與競爭對手相比,你們的指導方式是什麼?

答:這個問題非常好,在這個芯片領域競爭是多方面的。你會看到很多初創公司進軍這個領域,但大部分的推理工作目前都是在通用目的的CPU上完成的,對於大型語言模型應用,幾乎都是在GPU上完成的。

由於GPU在軟件和開發人員生態系統中佔據主導地位,因此AMD開始關注GPU的發展,在硬件和軟件方面取得了成就。我們在CPU上是有競爭力的,我們的份額正在快速增長,因爲我們擁有一代又一代非常強大的CPU。

但對於GPU,直到現在我們才真正開發出世界一流的硬件和軟件。我們所做的是確保GPU的部署過程儘可能簡單,強調利用所有GPU的語義,使得編碼變得更加容易,尤其是對於使用低級語義的編碼人員而言。我們支持所有重要的軟件庫和框架,包括PyTorch、ONNX和TensorFlow等,與開發人員密切合作,以確保他們的GPU能夠與各種不同的軟件環境無縫集成,併爲開發人員提供靈活和高效的工具。

現在,由於我們擁有具有競爭力和領導力的產品,你會看到當你們使用AMD進行部署時非常容易。比方說,AMD與Hugging Face等合作伙伴緊密合作,確保他們的大語言模型在AMD平臺上進行測試,並保證在與英偉達等其他平臺上的測試結果表現相當。

同樣,AMD在PyTorch等主流深度學習框架上也進行了測試,併成爲了少數幾個獲得認證的產品之一,意味着AMD與他們的產品完全兼容。AMD也會定期進行迴歸測試,確保產品在各種情況下的穩定性和可靠性。AMD積極與客戶合作,包括與一些早期採用其產品的公司合作,以獲取反饋並優化產品。這有助於AMD確保他們的產品能夠順利部署,並在現有的業務環境中無縫運。

另外,AMD與一些早期合作伙伴進行合作,幫助他們將自己的大型語言模型(LLMS)部署到AMD的雲端和機架配置中。這種合作意味着AMD已經開始與客戶合作,並提供服務,以確保他們的產品能夠在客戶環境中順利運行。

在AMD的十二月活動中,其他合作伙伴也站在了舞臺上,這表明AMD與其他重要的合作伙伴合作,其中包括一些超大規模的合作伙伴。這種合作擴大了AMD的合作範圍,並有助於將其產品推廣到更廣泛的市場。AMD還與許多OEM應用程序進行銷售,並直接與客戶合作。通過與客戶直接合作,AMD可以更好地瞭解客戶需求,並根據反饋加速產品的改進和優化過程。

這是一個非常受限制的環,缺乏競爭對每個人都不利。順便說一句,如果沒有競爭,行業最終會停滯不前,您可以看看在我們帶來競爭前的CPU行業。它真的變得停滯不前了。你只是得到了漸進的改進。行業知道這一點,我們與衆多夥伴建立了巨大的合作關係,我們對此非常感激。

作爲回報,我們將繼續提供一代又一代有競爭力的產品。

問:談一談rocm軟件棧的開源原因、動機或者價值觀。

答: 這是個好問題,ROCm是AMD的開源GPU計算軟件堆棧,旨在提供一個可移植、高性能的GPU計算平臺。對於公司來說,開源是一個非常重要的問題,因爲他們非常注重合作和開放的文化。開源技術將技術開放給了整個社區,這有助於推動技術的發展和創新。AMD的歷史上一直致力於開源,CPU編譯器LLVM就是一個開源項目。除了CPU編譯器和GPU之外,我們還開放了ROCm軟件堆棧,是他們的基礎架構,對於贏得超級計算方面起着重要作用。選擇支持開源的原因是因爲相信這種開放的理念,同時強調這也是公司的理念之一。

所以,在2002年將 Xi Links 和 AMD 結合在一起,我所做的不僅僅是加深了對開源的承諾,關鍵是,我們不想通過專有的封閉式軟件堆棧來鎖定某人。我們想要的是以最佳解決方案取得勝利,我們致力於開源,並且致力於爲我們的客戶提供選擇。

我們期望憑藉最佳解決方案獲勝,但我們不會將客戶困在某一特定選擇中。我們將憑藉一代又一代的優勢贏得勝利。

問:我認爲目前發展迅速的一個領域是人工智能計算的雲服務。顯然,有來自微軟的Azure、亞馬遜的AWS和谷歌的GCP這樣的超級雲服務提供商。但也有其他新興的參與者,比如BaseTen和ModalReplicate等。可以說,它們在提供不同的工具、API端點等方面提供了差異化的服務,而這些超級雲服務提供商目前尚未具備。另外,它們部分原因是擁有GPU資源,而目前GPU資源短缺,這也推動了它們的利用率。在未來3到4年內,您如何看待這個市場的發展?也許GPU會變得更加易於獲得,不再出現短缺或限制的情況?

答:這確實正在發生。我認爲供應受限的情況將會消失,這是其中的一部分。我們正在加緊生產和發貨,進展得相當順利。但更重要的是,回答您的問題,我認爲應該這樣考慮:市場正在以令人驚歎的速度迅速擴張。我之前說過,今天大多數的應用程序都是從這些大規模的語言模型開始的,這些模型主要基於雲,且不僅僅是基於雲,而是基於超大規模的雲,因爲這需要一個龐大的集羣,不僅用於訓練,而且實際上還用於許多類型的生成型語言模型的推理。

但現在發生的情況是,我們看到一個接一個的應用程序呈非線性增長。我們看到的是一種氾濫現象,人們開始理解他們如何定製他們的模型,如何微調它,如何擁有更小的模型,不需要回答任何問題或支持任何應用程序。但它可能只是適用於您業務領域的某個專業領域。因此,這種多樣性使得計算規模以及如何配置集羣的需求變得非常豐富多樣。市場正在迅速擴展,您需要爲計算集羣配置特定於應用程序的配置。它甚至進一步發展,不僅僅侷限於這些龐大的高規模超大規模,而是向着我將其稱爲數據中心的階層轉變。

這一切都源於,當您考慮那些真正定製的應用程序時,它們可以在邊緣設備上運行,直接在您的工廠車間實現非常低的延遲,將語言模型放在數據創建的源頭,直接面向最終用戶設備。

我們已經將我們的AI推理加速器集成到我們的個人電腦中,並在整個2023年持續發貨。實際上,今年SES已經宣佈了我們下一代AI加速個人電腦。而且,隨着我們的Xilinx產品組合覆蓋到嵌入式設備,我們從行業中獲得了很多對定製推理應用的需求,這些需求覆蓋了廣泛的嵌入式應用場景。因此,隨着這一趨勢的發展,我們將看到更多定製化的計算安裝,以滿足不斷增長的需求。

問:很有道理,未來很大一部分或一小部分的推理(AI計算任務)將會被推向邊緣計算。很明顯,我們將在設備上,無論是筆記本電腦還是手機上,運行一些小型模型。這裡提到的“邊緣計算”指的是在數據產生地點附近進行數據處理,而不是將數據發送到數據中心或雲進行處理。這樣可以減少延遲,提高處理速度。

至少在短期內,對於大型模型或大型數據中心可能存在一些持續的潛在限制因素,關於GPU供應側面臨的主要限制因素是什麼?包括封裝問題、臺積電的產能,以及其他可能的限制因素?有些人說在處理當前的限制之後,下一個問題是數據中心是否有足夠的電力來運行這些設備。並且有點好奇應該如何考慮這些限制因素,以及供需狀況何時能夠更加平衡?

答:坦率的說,供需平衡實際上是任何芯片製造商都必須管理的問題,你需要確保你的供應。回顧疫情期間,我們的設備需求大增,這使得我們的供應鏈緊張,因爲當時PC電腦的需求大幅上升,人們在家工作,我們的X86服務器的需求也大幅上升。因此,在疫情期間,我們處於"緊急模式"。我們做得很好,雖然有基板短缺,但我們增加了更多的基板製造能力。

我們與我們的主要晶圓代工供應商臺積電合作,與他們建立了深入的合作伙伴關係,我們已經合作了幾十年。如果我們能提前預判並理解市場信號,我們通常能夠滿足供應,如果有短缺,通常也能夠得到良好的控制。關於人工智能,很明顯我們看到了需求的大幅增加。

晶圓廠正在作出響應,你必須不僅僅認爲這是晶圓廠的問題,你絕對正確。關於封裝,我們和我們的GPU競爭對手都使用了先進的封裝技術。我會給你看的。雖然攝像頭可能無法清楚地顯示,但這是我們的MI300。你看到的是一整套芯片組。所以是較小的芯片,具有CPU功能、IO和內存控制器。它可以是我們專注於高性能計算的版本的CPU。

我們直接將我們的CPU芯片集成在同一個系統中。還有周圍所有的高帶寬內存,以供給這些引擎。這些芯片是側向連接的,在MI300上,我們也將這些設備垂直連接。所以這是一個複雜的供應鏈,但我們在這方面非常非常擅長。我們是一家出色的公司,已經有18年了。我們的AMD供應鏈團隊做得非常好,我認爲總體來說,行業將會超越這類供應限制。

現在你提到了電力。我認爲,這最終將是一個關鍵的限制因素。你看到所有主要的運營商都在尋找電力來源,對於我們這樣的引擎開發者,這些引擎消耗的電力,我們非常關注能效,並且我們會在我們設計的每一代產品中推動能效的提高。這絕對是我們的最高優先級之一。

問:隨着摩爾定律的終結,即集成電路上可容納的晶體管數量每兩年翻倍的速度放緩,如何通過創新來繼續提高計算能力成爲了一個重要話題。你曾經表示,這種挑戰激發了你加入AMD的興趣,特別是想了解AMD將如何在不同的創新方向上進行投資。此外,對三維堆疊技術表示好奇,希望以通俗易懂的方式獲得解釋,這是一種通過垂直堆疊芯片來增加集成度和性能的技術。

答:關於3D堆棧技術,簡單來說,它是一種先進的封裝技術,可以將多個芯片層疊在一起,從而提高了集成度和性能,同時還可以節省空間。當摩爾定律放緩時,芯片技術自身從一個代際過渡到下一個代際的能力降低了,這意味着我們不能再依靠新的半導體技術節點來縮小設備尺寸、提高性能、降低功耗並維持相同的成本。

因此,現在需要更多的創新,要求全面的設計思維,比如依賴於新的器件轉換、新的晶圓節點技術。

而異構計算,意味着爲合適的應用帶來正確的計算引擎,例如我們在個人電腦和嵌入式設備中擁有的超低功耗AI加速器。這關乎爲特定應用量身定製引擎,利用芯片組合成一個整體,選擇最佳技術節點,並考慮軟件堆棧的設計。這種優化需要從晶體管設計做起,一直到計算設備集成的全過程,並且還要兼顧軟件堆棧和應用程序的視角。與所有在AMD工作的工程師一樣,我爲有機會進行這些工作而感到興奮,因爲我們擁有構建這些的基石,而且AMD的文化中內建了合作精神,不需要開發整個系統或應用程序堆棧,而是通過深入合作來確保解決方案的優化。

問:如何在當前全球政治經濟格局中,確保芯片製造的安全和供應鏈的穩定性?

答:我們必須考慮這些問題。我們非常支持與國際間互相合作,確實存在這樣的問題:現在如何依賴芯片設計來運行那些至關重要的系統,確保供應連續性成爲國家安全的問題。

因此,我們將這一點納入我們的戰略,並與我們的合作伙伴一起構建它。我們支持晶圓廠的擴張。你看到臺積電在亞利桑那建造晶圓廠,我們與他們合作。你看到三星在德克薩斯建造晶圓廠,但不僅僅是在美國,我們實際上也在全球範圍內擴張,比如在歐洲和亞洲其他地區的設施。

這種情況超出了代工廠的範疇,包裝也是同樣的問題,當你把芯片放在載體上時,你需要互聯,你需要那個生態系統也具有地理多樣性。

我們認爲,讓每個人都知道將會有地理多樣性是非常重要的事情。我們正深度參與其中。實際上,我對我們所取得的進展感到非常滿意。這不是一夜之間就能發生的事情。這是芯片設計與軟件之間的區別。有人不能用軟件,你可以迅速地提出一個新想法,並將產品非常迅速地推向市場,設計出最小可行產品,推出去,它可以迅速流行。但是,擴大供應鏈確實需要數年的準備工作,整個半導體行業從歷史上看也是這樣建立起來的。這是一個全球性的產業鏈,將會創造地理上的專業知識集羣。

這就是我們今天所處地位,但是當我們今天面臨更加動盪的宏觀環境,分散製造能力就顯得尤爲重要。這項工作已經在進行中。

問:怎麼看AI硬件的發展?AMD現在爲許多有趣的設備和應用提供動力沒,今天在構建的東西怎麼樣?有Vision Pro,有Rabbit(這是一種以AI爲首的設備),這種以健康爲中心的HumanE,還有Figure。看起來像是突然間有很多新的硬件設備爆炸性的增長。我很好奇想知道你的觀點,你認爲是什麼趨勢預示了這些產品的成功?什麼趨勢可能預示着失敗,我們應該如何看待這些新的事物和設備的集合?

答:這個問題非常好。我會從技術的角度開始,作爲芯片設計師,這些不同類型的硬件同時產生的原因你應該感到自豪,因爲你得到的計算能力越來越強,體積縮小了,而且功耗非常低。

你可以看到越來越多的設備,它們擁有令人難以置信的計算和視聽能力。你看Meta Quest和Vision Pro這樣的設備,這不是一夜之間發生的。你看早期的版本,它們太重了,太大了,計算能力不夠。

因爲如果你頭戴設備的屏幕上看到光子和實際處理之間的延遲太高,你真的會在佩戴它並試圖觀看電影或玩遊戲時感到身體不適。

首先,我爲我們作爲一個行業所取得的技術進步感到自豪。我們當然非常自豪於AMD在這方面的推動,但你提出的更廣泛的問題是,你如何知道什麼會成功?技術是一個鄰居。

但如果有一件事我在蘋果學到的是,真正成功的設備是滿足需求的。它們真的給了你一個你喜歡的能力。這不僅僅是增量的。我可以做一些比我之前做的事情稍微好一點的事情。它必須是你喜歡的東西,創造一個新類別。它是由技術啓用的,但產品本身必須真正激發你的興趣,並給你新的能力。我會提到一件事。我提到了PC中的AI使能。我認爲這幾乎會使PC成爲一個新類別。因爲當你想到你將能夠運行的應用類型,超高性能,但又低功耗的推理你可以運行。想象一下,現在如果我根本不會說英語,我正在觀看這個播客。假設它是現場直播的,我點擊我的實時翻譯。我可以將它翻譯成我的口語,沒有可察覺的延遲。這只是無數新應用中的一個將被啓用的。

是的,我認爲這是一個非常有趣的時期,因爲多年來,像AMD這樣的公司從中受益,對吧?

你也在數據中心,但有如此多的計算負載移動到服務器,對吧?雲的時代,所有這些複雜的消費者社交應用程序的時代。我認爲在新時代,試圖創造體驗和戰鬥,像所有這些新的應用公司都在作爲一個主要考慮因素而戰鬥延遲,因爲你有網絡,模型慢。你在嘗試改變模型,你有事情想要在設備上再做一次。我只是覺得這已經有一段時間沒有像一個真正的設計考慮了。先生,我同意你的看法。我認爲這是下一組挑戰之一,那就是真正解決不僅僅是在雲端、邊緣這些用戶設備上啓用高性能和AI應用的想法。

問:2024年AMD有什麼部署?

答:對於我們來說,這是重要的一年,因爲我們花了很多年時間發展我們的硬件和軟件以支持人工智能,我們剛剛完成了對我們整個產品組合的AI使能。所以雲端、邊緣、我們的個人電腦、我們的嵌入式設備、我們的遊戲設備,我們正在使我們的遊戲設備通過AI進行升級,2024年對我們來說真的是一個巨大的部署年。

所以現在基礎已經打好,能力也已經具備。我跟你們提到了我們所有的合作伙伴。2024年對我們來說是一個巨大的部署年份。我認爲我們在人工智能領域經常被忽視,每個人都知道我們的競爭對手,但我們不僅想在人工智能領域被認識,而且基於結果、基於能力和我們提供的價值,我們希望在2024年被認爲是真正使人工智能在雲端、在大規模LLM訓練和推理中用於再生性AI的廣泛應用中得到啓用並普及的公司,同樣也是在整個計算領域中。

我認爲這也是應用程序的擴展組合開始活躍的一年。我看看微軟在談論什麼,在他們正在做的能力啓用方面,從雲到客戶端。這是非常令人興奮的。許多和我談過的獨立軟件供應商(ISVs)都在做同樣的事情。而且坦率地說,薩拉,他們正在解決你問的那個問題,我如何編寫我的應用程序,以便我給你最好的體驗,同時利用雲端和你手中或在你的筆記本電腦上運行應用程序的設備。

所以這將是一個變革性的一年,我們在AMD感到非常興奮,似乎處在了這一切的中心。