☰

o1 pro挑戰美國本科生最難數學競賽，30分鐘交卷卻被「大佬」現場打臉！

新智元報道

編輯：編輯部 HYZ

【新智元導讀】美國本科生最難數學競賽，o1 pro竟然只用半小時就全部做出來了？要知道，參賽學生的正常答題時長是6小時。不過網友們仔細看它的解題過程後發現，錯誤率似乎高達100%，12道題沒有一道完全正確？

一年一次的北美最難本科數學競賽，剛在MIT沃克紀念堂（Walker Memorial）落幕。

這場普特南數學競賽（Putnam Exam），每年匯聚了來自北美數百所高校的3500多名學生前來參賽。

既有個體，也有團體，他們需要在總時長爲6小時的時間內完成作答。

在這場比賽還未開始之前，來自IBM研究員曾暗示，在公開題目發佈後，會有人對大模型（AlphaProof、o1、Gemini）進行題目測試。

恰好，OpenAI最近發佈了滿血版o1，以及最強o1 pro，不知它們在這場考試表現如何？

相較於o1-preview，o1數學性能提升27%，o1 pro提升36%

o1 Pro半小時做出全部賽題

令人吃驚的是，有網友把此次普特南考試的考題給了OpenAI o1 pro。

6個小時的賽題，它居然半小時就做出來了！

用時最長的一道題花了6分52秒，最短的只用了1分12秒（上下滑動查看）

詳細看了答案的網友們表示鬆了一口氣：o1 pro還遠未達到普特南考試的水平。

比如對於A1這道題，雖然它只用了1分鐘58秒就做了出來，總體思路也是正確的，但仍有很多錯誤。

A2也沒有完全解決。

如果在普特南答卷上寫「……等等強烈表明我是對的」，顯然你不會得分。

A3的答案，是錯誤的。

網友直接給出了正確的解題思路：可以利用鴿巢原理（抽屜原理）來證明在給定約束條件下，只存在唯一一個有效雙射函數，並由此可以推導出不存在滿足題目要求的a、b、c、d值。

對於B1，答案在n和k的形式上是正確的，但整個證明方法完全站不住腳。

總之，o1 pro似乎沒有一道題是正確的。

這個結果屬實有點驚人，因爲其中一些問題難度沒有那麼高，比一些AIME競賽題容易。

當然，如果從做出題目的數量來說，o1 pro的表現還是可圈可點。

目前來說，o1 pro做出的題目都是錯誤且不完整的。如果我們不以數學家的角度評判，可以認爲它們很聰明。

更多評測

CodeSignal創始人Tigran Sloyan開啓了兩輪大測試，讓o1 pro分別去解決普特南數學競賽A1題，以及IMO試題。

顯然，在普特南數學競賽測試中，o1 pro成功做對了第一題。

得分+10，就已經超越了30%的參賽者。

如下，是o1 pro的全部解題過程。

而在IMO測試中，o1 pro完美解決了2006年測試集中最難的Q3題，僅僅用了6分48秒。

相較之下，在2006年全球大約500名19歲以下頂尖數學天才中，只有28人能在4個半小時內完全解出這道題。而美國對的6名成員，卻無一人做到。

這是o1 pro的分析過程，雖然很簡潔，好像省略了很多證明步驟。

Sloyan特別要求讓其展示第4、5步的具體證明過程，o1 pro隨後擴展出的思維過程同樣令人印象深刻。

而且，他還測試其他模型（包括o1），嘗試做這道題目，卻都失敗了。

沒想到，這個結果驚動了xAI科學家Hieu Pham。

他表示，o1 pro的答案完全是胡說八道。如果在IMO競賽中提交這樣的解答，最多也只能給1分（滿分7分）。如果遇到寬鬆的評判員，最多給2分，不會再多了。

他接着稱，訓練數據問題是一部分，這個答案 \frac{9}{16 \sqrt{2}}很可疑。IMO的題目和解答就像是數學CoT的黃金訓練數據集，所以這些模型一會被反覆訓練無數遍。

另一位研究員Jason Li測試後驚歎道，o1似乎已經解決掉了一半的問題（60分/滿分120），這在普特南競賽的歷史排名中大約能衝進前2%的參賽者之列。

o1挑戰23年賽題

今年9月，o1發佈不久後，AI評估平臺HoneyHive曾讓新模型去挑戰了23年普特南數學競賽的題目。

當時，OpenAI公開的測試結果顯示，o1的數學性能大幅超越了GPT-4o，飆升43.3%實現了質的飛昇。

在這場比賽中，o1-preview拿下了79分（滿分120）位列第9，o1-mini取得了73，排名第19。

2023年普特南數學競賽問題集，如下所示：

HoneyHive的評估方法是，每個模型重複運行2次，並讓GPT-4o作爲標準的判斷者，以評估模型的答案，最終再由人類專家進行驗證。

下面是讓GPT-4o承擔「評估者」角色的提示示例。

研究人員發現，第二次運行時，o1-preview得分從51提高到79，o1-mini從54提高到73，GPT-4o也從43提高到57。

在第二輪中，所有的模型都在努力給出證明，具體來說：

o1-preview完全解決了問題A1、A3、B4，部分解決了問題B2，但證明不足。

o1-mini的結果，與o1-preview類似。GPT-4o僅是完全解決了A1問題。

有趣的是，這些模型的結果雖然是正確的，但解決方案缺乏詳細的分步解釋，特別是對於證明類的問題。

比如，o1-preview和o1-mini在問題B2上都因證據不足、不夠嚴謹失掉了一些分數，儘管最終結果是正確的。

他們認爲，這可能是因爲AI模型在表達或訪問其內部「思維鏈」時，存在一定的侷限性。

不過，IBM研究員表示，能夠拿下一定的高分，當然也存在了數據泄露的可能性。

比賽介紹

普特南數學競賽（全稱William Lowell Putnam Mathematical Competition）專爲美國和加拿大的本科生設立，每年於12月舉辦一屆，今年是第85屆年賽。

每年競賽一共分爲兩場考試，分別是上午A試，下午B試，各三小時。

這場比賽可以追溯到1938年，最初只是各個高校數學系之間的友好較量。如今，它已經發展成爲世界上最具權威的大學數學競賽。

每年12月，數百所大學數學尖子生在爲期6小時數學中展現自己的數學才華。

儘管考生需要獨立完成試卷，但比賽同時設立了團隊的環節。

普特南數學競賽不僅僅是一場知識的較量，更是一個榮譽的殿堂。排名最高的團隊的數學系可以獲得現金獎勵，學生成員還將被授予「普特南研究員」的稱號。

與此同時，比賽還設立了「The Elizabeth Lowell Putnam Prize」獎項，專爲表現卓越的女性數學家頒獎。

去年第84屆比賽中，個體獲獎者5名全部來自MIT，團體獲獎者前五名也分別來自世界高校：MIT、哈佛、杜克、斯坦福、多倫多大學。

參考資料：

https://x.com/DanHendrycks/status/1865858756040704335

o1 pro挑戰美國本科生最難數學競賽，30分鐘交卷卻被「大佬」現場打臉！

相關資訊