龍蜥社區技術委員會主席楊勇:AI 時代,服務器操作系統洗牌在即
8 月 30 日,2024 龍蜥操作系統大會(OpenAnolis Conference,以下簡稱“龍蜥大會”)在北京召開,作爲國內開源操作系統根社區,龍蜥社區 Anolis OS 及衍生版裝機量已突破 800 萬套,並在會上推出 Anolis OS 23 官方正式版,全面兼容國內外主流 CPU、GPU 架構。基於“雲+AI”創新,龍蜥社區發佈“Anolis OS 23 生態衍生計劃”“CentOS 替代計劃”“AI 應用推廣計劃”等三大計劃,推動開源操作系統實現商業化的良性循環發展。阿里雲基礎軟件部資深技術總監、龍蜥社區技術委員會主席楊勇在大會期間接受 CSDN 採訪時表示,大模型引領的AI 算力基礎設施創新需求,正在倒逼服務器操作系統從雲原生系統向 AI 系統全面進化,市場或將重新洗牌,開源操作系統有望在未來智算體系中佔據統治地位。作爲現代計算產業產業鏈重要的一環,服務器操作系統歷經半個世紀的發展,從 UNIX 到商業 Windows Server 系列、開源 Linux 各類知名的發行版,在此前的互聯網時代已經成熟。但隨着 AI 時代的到來,阿里雲結合通義、龍蜥社區的實踐與發展,認識到了服務器操作系統在複雜 AI 基礎設施體系中存在可靠性、穩定性、算力利用率、智能運維等新需求。楊勇希望通過龍蜥大會將這些趨勢判斷傳遞出去,壯大社區生態,攜手佈局智算未來。AI 算力猛增倒逼操作系統全鏈路優化龍蜥社區成立於 2020 年,其發起龍蜥操作系統 Anolis OS 項目的首先要做的是平替當年宣佈將停服的 CentOS。到今年 6 月 30 日,此前佔據國內主流地位的 CentOS 7 的生命週期已正式畫上句號,楊勇表示,結合現代雲計算技術的發展,龍蜥社區已積累了完備的替換遷移技術,針對業務系統遷移的核心挑戰,形成了平替、升級和安全接管三類方案,能夠在保證業務連續性、穩定性的前提下護航企業順利遷移。他透露,在阿里雲平臺上,龍蜥和阿里雲版本操作系統的部署數量,已於 2023 年超過了 CentOS。新興業務通常基於 Java 與 Go 語言構建,較爲容易基於社區服務實現自助遷移,而傳統 C/C++ 業務遷移需要應用開發者配合,可能由於應用源代碼遺失等原因需要更專業的服務,楊勇表示,龍蜥社區平臺可以將這些需求導向到社區理事單位、合作伙伴提供的商業服務,這很好地保障了社區生態的健康發展和企業的成熟應用。作爲一個技術與產品並重的社區,龍蜥社區目前更爲關注的是雲原生、AI 技術趨勢對服務器操作系統的衝擊。AI 大模型的落地,需要構建 AI 智算集羣,滿足大模型開發、部署、訓練和推理場景的需要,算力需求遠超此前的 AI 技術。在楊勇看來,大模型算力集羣規模猛增意味着新的穩定性挑戰,這是 AI 基礎設施面臨的首要問題,需要管理軟硬件資源的操作系統可和上層負責運維 AI 的平臺協同解決。同時,AI 基礎設施還在操作系統之上架構了一個集羣調度層和 AI 框架,形成一個複雜多層的軟件棧,算力資源利用率的主要瓶頸便從芯片轉移到了數據流動鏈路,即模型訓練、推理時,數據如何在硬件和軟件多層之間高效傳遞,這涉及異構硬件、操作系統和上層應用的協同,是一個全鏈路的優化工作。此外,雲原生分佈式系統的可觀測性、故障預警、問題診斷、故障自愈、智能運維以及結合 AI 技術的落地,如 OS Colpilot、AIOps,也是很大的挑戰。壯大社區生態,佈局前沿技術要完成上述技術突破,推進 AI 基礎設施革命,楊勇認爲,需要整個產業“瘋狂地迭代”。事實上,在龍蜥社區,來自阿里雲以外的貢獻,目前在內核側佔到了 53%, 在覈外軟件包側佔到了 34%。作爲龍蜥社區技術委員會主席,楊勇希望通過龍蜥大會這樣的平臺,以有效的組織將 AI、雲等技術判斷清晰傳遞給合作伙伴、用戶和開發者,強化牽引作用,吸引更多志同道合的人蔘與龍蜥社區,加入到瘋狂的迭代進程。對於阿里雲與龍蜥社區生態中的雙重關係,楊勇總結爲核心貢獻者和受益者。“隨着龍蜥社區生態的發展,各個參與者,也包括阿里雲,從中獲得越來越多的收益。”楊勇說。例如,浪潮信息在龍蜥社區硬件兼容性的貢獻,使得阿里雲系統能夠更加順利地部署到客戶擁有的浪潮服務器上。瘋狂的迭代從何處着手?阿里雲給出的答案,是能夠提升 AI 算力性能和可靠性的前沿硬件技術,例如高速的互聯總線、數據中心的網絡帶寬能力大幅提升,帶來的系統層面的問題。此外,就是 AI 基礎設施新場景下帶來的不同的優化思路。從歷史的觀點來看,通用 CPU 的能力按照摩爾定律持續提升、虛擬化、容器化的應用生態發展等都已證明,操作系統的發展驅動力與創新節奏,與硬件或應用軟件這兩個因素息息相關。另外的一個具體案例是 DPU,在一些廠商的方案裡,高帶寬 RDMA 高速網絡就是由 DPU 管理的。而實現 CPU 和 GPU 高速互聯支撐訓練推理一體、成爲技術護城河的高速互聯技術(NVLink),也是這樣一種硬件技術。“AI 算力發展還處在早期,由先進的硬件技術驅動的服務操作系統創新尚未真正來臨,”楊勇大膽預測說,未來這個領域將充滿無數可能,包括在算力管理、運維管理中如何兼容乃至抽象屏蔽 AI 時代的各種新硬件。