北大AI奧數評測,o1-mini比o1-preview分數還高
OpenAI的o1系列一發布,傳統數學評測基準都顯得不夠用了。
MATH-500,滿血版o1模型直接拿下94.8分。
更難的奧數邀請賽AIME 2024,o1也獲得83.3%的準確率。
隨着現有的數學評測集逐漸被攻克,大家不禁開始好奇:大模型能否勝任更具挑戰性的數學競賽,甚至是奧林匹克數學競賽?
爲此,北京大學與阿里巴巴的研究團隊聯合打造了一個專門用於數學競賽的奧林匹克評測基準——Omni-MATH。
Omni-MATH專門用於評估大型語言模型在奧林匹克水平的數學推理能力。評測集共收錄了 4428 道競賽級別的問題。這些問題經過精心分類,涵蓋了 33 個(及更多)子領域,並且分爲 10 個不同的難度級別,使得我們能夠對模型在各種數學學科和複雜程度上的表現進行細緻分析。
最新排行榜,競爭非常激烈:
除去o1滿血版暫時還沒有放出API,作爲小模型的o1-mini的表現最好,平均分比o1-preview還要高8%左右。
開源模型最好的是Qwen2-MATH-72b,甚至超過了GPT-4o的表現。
總的來說,o1-mini這種只關注少部分能力、放棄存儲廣泛世界知識路線的優勢,再次得到驗證。
Omni-MATH:難度大、領域廣
Omni-MATH作爲一個數學奧林匹克評測基準,它的特點有三個維度:
人工驗證答案的可靠性:4428道評測問題來自不同的數學競賽和論壇數據,人工參與驗證答案准確性;並且考慮到奧賽難度問題答案的多樣性提供了基於GPT4o和評測模型的評價方式,方便一鍵啓動評測。
清晰合理的難度分類:評測集整體比較有挑戰性,並且難度跨越非常大。從奧林匹克預備級別(T4)競賽CEMC到最頂級的奧林匹克數學競賽(T0)如IMO、IMC、普特南等等。這些比賽不僅需要選手具備紮實的數學基礎,還需要超高的邏輯推理能力和創造力。數據顯示,只有極少數智商接近頂尖的人才能在這些比賽中取得優異成績。
題目類型非常廣:共有多於33個子領域的數學問題。根據數學領域的特性,團隊打造了樹狀的領域分類,每個題目涉及一到多個領域,也就是多條樹的路徑,使得我們能夠對模型在各種數學學科和困難程度上的表現進行細緻的分析。”
評測集Omni-MATH的構造
數據構造
研究團隊首先對國內國外基本的奧林匹克數學競賽進行了細緻的調研。從中瞭解到,一個學生從競賽預備到頂級競賽,中間要經過層層選拔的。
比如對於英國體系,要經過JMC → IMC → SMC → BMO 1 → BMO 2 → IMO整個一層鏈路的選拔(這個IMC(Intermediate Mathematical Challenge)和上述IMC(international mathematical competition for university students)並不是一個比賽);
然而在美國體系中,要經過AMC 8 → AMC 10 → AMC 12 → AIME→ USA(J)MO → IMO整個一層體系的選拔。
這啓發了團隊能否給模型評測同樣也設置一個這種難度層級的體現。因此研究團隊調研了世界範圍內不同難度層級的比賽,使得Omni-MATH在奧林匹克級別的數學測試中,難度上仍然多元化。
另外在奧林匹克級別的數學測試中,實際上涉及的數學領域是非常多的。研究團隊考慮到在模型訓練時,不同領域之間的數據是否有會有化學反應,比如領域A的數據能否讓模型泛化到領域B的提升,這種方向的數據工程是非常有意義的。
爲了給這個方向的研究打下基礎,研究人員參考了相關競賽教輔書,在這個評測集中給數據的領域進行了非常細緻的劃分,從數學大類上比如數論、代數、幾何等等開始,一直到領域下面具體的小領域或者知識點。
評測集數據的來源主要有兩個,一個是各種比賽的題目和題解,另外一個是著名數學網站Art of Problem Solving。對於想要的比賽,優先從題解中尋找答案。
如果想要的比賽並未公開題解,團隊從AoPS網站的論壇上爬取回復。考慮到回覆都是真實用戶書寫,有一定概率是有問題的,需要進行嚴格的篩選。
研究團隊選取了AoPS網站上候選的並且答案規整的數目大於3的題目,並且選取了3個答案全部一致的題目作爲最終標準。團隊在篩選問題時採用人工篩選,進一步保證了準確性。
數據處理
數據本身的處理:
在爬取到PDF格式的題解後,開發者們使用了Mathpix將其轉換成Latex格式作爲題解。在爬取到論壇答案之後,首先用GPT-4o重新format成規整的回覆,之後手動檢查是否和原本問題的答案一致。
對於這兩類來源的數據,團隊人員最後都是用了人工檢查是否和數據源的信息是一致的。
難度分類:
參考了AoPS網站中關於題目難度分類的情況。
具體而言,不同級別的比賽題目難度有着本質的不同,比如CEMC和IMO之間的題目相差非常大,然而,每個比賽的不同題目也有着不同,比如一次IMO比賽中既有簡單題也有難題。因此評測集的難度分類嚴格按照AoPS網站上給出的不同比賽的每一道題的難度係數(從1到10之間,大多是整數,少數有.5、.25這種難度)。
對於網站上未覆蓋的內容,團隊人員將網頁上的內容整理成了few-shot prompt,並使用了GPT4o給題目難度進行了標註。整體難度的分佈和不同比賽題目的分佈如下:
領域分類:
和傳統的數學測試基準的分類不同,在奧數這個難度上的題目涉及的領域更多,知識面更廣。
爲了更好地組織統一起奧數這些題目以及後續的對於數學領域之間數據的關係的探究,團隊構建了一個更爲全面的樹狀分類體系。研究團隊參考了相關競賽教輔書,將奧數相關的領域分爲了幾何、代數、數論、應用數學等等領域,之後從這些領域出發,繼續細分成各個領域的小領域,細微的知識點。
這種樹狀分類體系更有助於幫助理解不同題目之間的關係,以及模型在不同領域上的表現。團隊將這一樹狀分類體系作爲模板,並結合競賽輔導書中的實例,構建了few-shot的提示(具體的樹狀結構和提示內容可參考文章末尾的代碼倉庫)。
隨後,團隊利用GPT-4o給每道題目分類到一到多個類別當中。
開源的答案驗證器
Omni-Judge是微調Llama3-Instruct得到的驗證器,用於驗證待測的答案和給定的答案是否一致。由於數學奧賽級別的題目回答的種類非常豐富,用規則評測實際上非常困難。在獲得模型的預測之後,需要判斷模型的輸出是否和標準答案是一致的。在使用GPT-4o評測之外,我們還提供了一種更簡便的評測方法,利用了GPT4o評測模型時產生的COT數據微調Llama3-Instruct得到了一個開源的驗證器,評測一致率和GPT-4o高達95%。
Project Page:https://omni-math.github.io/Github:https://github.com/KbsdJames/Omni-MATH/Dataset:https://huggingface.co/datasets/KbsdJames/Omni-MATH/Omni-Judge:https://huggingface.co/KbsdJames/Omni-Judge/