全球首個億級參數量地震波大模型“諦聽”發佈
記者30日獲悉,“諦聽”地震波大模型日前在國家超級計算成都中心發佈,將於2024年底公測。據介紹,這是全球首個億級參數量的專業地震數據處理大模型。
2023年9月,由成都產業集團、成都天投集團聯合運營的國家超級計算成都中心,與中國地震局地球物理研究所共建“地震大模型創新應用聯合實驗室”。隨後,中心與清華大學、中國科學院地質與地球物理研究所的研究團隊一同合作,啓動“諦聽”地震波大模型的訓練。同時,大模型依託的“諦聽”地震學數據集也落戶該實驗室。此數據集是國內首個,同時也是目前全球最大規模、最多樣本類型、標註最爲全面的地震學專業AI訓練數據集之一。
成都數據集團黨委副書記、超算運營公司董事長郭黎表示,“諦聽”系列地震波大模型已有階段性成果,目前已成爲全球第一個億級參數量的地震波大模型並具備投入使用的條件。同時,十億參數量級的版本預計2024年8月完成預訓練,將進一步爲新時代防震減災事業現代化提供科技支撐。
“諦聽”如何爲防震減災事業現代化提供科技支撐?
“‘諦聽’大模型依託中國地震觀測網的海量數據,通過人工智能技術,已顯著提升地震信號識別的準確率和速度。”中國地震局地球物理研究所副所長陳石認爲,長期來看,地震學是一門觀測科學,重大的突破往往來自對觀測數據的深刻理解。目前,傳統方法和中小模型均無法充分利用千、萬TB(百萬兆字節)級別的地震觀測數據,而這些數據蘊含許多重要的地震學問題,只有大模型才能深入挖掘這些“寶藏”。短期來看,“諦聽”地震波大模型將應用於地震信號識別、地震活動監測、大地震快速響應等領域。
“‘諦聽’地震波大模型的發佈對於突破中小地震波模型性能瓶頸、提高地震大數據智能處理能力和信息挖掘水平具有重要意義。”國家超級計算成都中心常務副主任王建波表示,中心的算力支持是“諦聽”地震波大模型得以開發的基礎,相比過去的地震波小模型,“諦聽”大模型的訓練數據量和參數量都增加了兩個量級以上,因此對算力的需求也呈現大幅增長。爲此,中心採用國內先進技術爲大模型開發提供支撐,同時在研發過程中爲科研團隊的代碼運行效率優化提供了關鍵技術支持,使得“諦聽”的研發過程更加順暢高效。未來,該模型的應用場景還有望延伸到礦震監測、頁岩氣開採、城市地下空間結構探測、海底地震監測等多個領域。
來源:科技日報