解決算力遭卡脖子問題 陸企改採「多晶片混合」訓練AI模型
陸企AI開發部門正實施「多晶片混合」策略來提高在AI計算方面的能力,同時也進一步避免供應鏈安全問題。(圖/Shutterstock達志影像)
爲解決人工智慧(AI)晶片算力問題,陸企AI開發部門正實施「多晶片混合」策略來提高在AI計算方面的能力,同時也進一步避免供應鏈安全問題。
據《芯智訊》報導,多晶片混合計算的方法有諸多優勢,包括利用多個不同型號的GPU並行訓練,來共同提高大語言模型(LLM)訓練速度,由於可以同時處理更多數據,能更好地利用內存,大陸廠商可以降低對於更昂貴的輝達(NVIDIA)晶片的依賴,進而降低成本。
報導說,自2022年10月以來,受美國持續升級的限制政策的影響,中國獲取國外高性能AI晶片受到了極大的限制。雖然目前仍存在着一些灰色渠道可以獲得高性能晶片,但是供給量還是比較有限。同樣地,雖然中國大陸也有一些AI晶片,但是性能和產能也同樣比較有限。
報導指出,有傳聞聲稱大陸AI公司已經開始開發「多晶片混合」技術,將不同晶片組成一個訓練集羣,包括百度和阿里巴巴都在研究這項解決方案。例如,百度在其 2024 年財報電話會議上宣佈,它可以組合來自不同供應商的 GPU 並將其用於AI訓練。
另一家中國大型科技公司阿里巴巴自2021年以來一直致力於「一雲多晶片」解決方案,但也面臨諸多挑戰。例如需要像NVIDIA NVLink這樣的高速構架,確保不同的加速器能高效通信。不過,阿里雲已經開始轉向使用基於以太網的高性能網絡。