OpenAI放大招!發佈最強水平大模型,解決博士生級別科學問題

傳言中有高級推理能力、此前被稱爲"草莓項目"的OpenAI新項目於北京時間9月13日凌晨推出了。

OpenAI在官網介紹,一個新的推理(reasoning)模型系列將開始提供,這個系列模型將用於解決困難問題,這些模型將在做出反應前花更多時間思考,可以通過複雜的過程進行推理,解決比以往更難的科學、編碼和數據問題。OpenAI此次在ChatGPT和API接口渠道上先推出該系列的預覽版本OpenAI o1-preview。

"對複雜的推理任務而言,這是一個重大進步,代表人工智能能力的一個嶄新水平。因此我們將‘計數器’重置爲1,新系列命名爲OpenAI o1。"OpenAI表示。OpenAI CEO Sam Altman(薩姆·奧爾特曼)也在社交平臺上表示,該新模型是一個新範式的開始,即AI能夠進行通用複雜推理。

OpenAI o1包括三個型號,除o1-preview 之外還將有o1和o1-mini。其中o1-mini是一種更快、更便宜的推理模型且適用於需要推理但不需廣泛世界知識的應用,o1-mini還比o1-preview便宜80%。

技術方面,OpenAI介紹,新系列模型經過訓練,學會完善自身思維過程並嘗試不同策略,能認識到自己的錯誤。新系列模型更新後的性能類似於博士生在物理、化學、生物學中完成具挑戰性的基準任務。新系列模型還在數據和編碼方面表現出色,在國際數學奧林匹克競賽(IMO)的資格考試中得分83%,對比之下GPT-4o僅正確解決了13%的問題。新系列模型還在競爭性編程問題Codeforces比賽中排名前89%。

在技術研究相關文章中,OpenAI介紹,公司用大規模強化學習算法"教會"模型在數據高效訓練時用思維鏈進行高效思考。隨着強化學習增加和思考時間增加,o1的性能不斷提高。類似於人類在回答困難問題之前思考很長時間,o1也嘗試在解決問題時使用思維鏈,該模型通過強化學習學會磨練思維鏈並改進策略,學會在當前方法不起作用時嘗試不同方法,這提高了模型推理能力。

"作爲早期模型,它還難以使ChatGPT變得更加有用,例如通過瀏覽網頁獲取信息或上傳文件和圖像。對於很多常見案例,GPT-4o短期內能力還是更好。"OpenAI表示。不過該系列新模型增強的推理功能可能對解決科學、編碼、數學和類似領域的複雜問題更有效,例如,醫療保健研究人員可用它來註釋細胞測序數據,物理學家用它生成量子光學所需的複雜數學公式,開發人員可用它構建和執行多步驟工作流程。量子物理學者Mario Krenn就展示了GPT-4o不能回答但o1-preview正確完成計算的複雜量子物理問題。

OpenAI研究人員Noam Brown在社交平臺上提到OpenAI o1系列的更多細節,他表示,o1系列經過強化學習訓練,在通過自己的思維鏈做出反應前會思考,思考時間越長,推理任務表現越好。"這爲大模型縮放(scaling)開闢了新維度,我們不再受預訓練的瓶頸限制,現在也可以擴展推理計算了。" Noam Brown表示,但o1模型並不總是比GPT-4o好,有時人們不值得長時間等待o1響應,在個人寫作和編輯文本時人們可能會偏好GPT-4o,在計算機編程、數據分析和數學計算領域則可能會偏好OpenAI o1。

Noam Brown透露,OpenAI o1在回答前會思考幾秒,但OpenAI的目標是讓未來的版本思考幾個小時、幾天甚至幾周,雖然推理成本會更高,但人們有可能也會獲得更多,例如在研發新抗癌藥等方面,人工智能可以不僅僅是聊天機器人。

不過,不是所有用戶都能立馬用上新系列模型。據OpenAI介紹,ChatGPT Plus用戶和Team用戶最早可以在幾個小時內體驗到新模型。o1-preview限制爲每週30條消息,o1-mini限制爲每週50條消息。而從下週開始,ChatGPT的企業用戶和教育(Edu)用戶也可以訪問這兩種模型。該系列模型的API訪問權限首先給Tier 5級用戶。此外,OpenAI還計劃將向所有ChatGPT免費用戶提供o1-mini訪問權限。後續,OpenAI還計劃增加瀏覽、文件和圖片上傳等功能,且在OpenAI o1系列之外繼續開發和發佈GPT系列中的其他模型。

在安全方面,OpenAI則透露,新模型的思維鏈推理爲確保對齊和安全提供了新的機會,隱藏的思維鏈爲監控模型提供了獨特的機會,使人能"讀取模型思想"並理解其思維過程。此外,公司最近與美國和英國的人工智能安全研究所達成協議,開始將相關協議付諸實施,包括允許各機構儘早使用該模型的研究版本,這有助於建立一個在公開發布之前和之後對未來模型進行研究、評估和測試的流程。