OpenAI 推出 SWE-bench Verified 基準,更準確評估代碼生成表現

IT之家 8 月 15 日消息,OpenAI 公司於 8 月 13 日發佈新聞稿,宣佈推出 SWE-bench Verified 代碼生成評估基準,解決了此前的侷限性問題,能夠更準確地評估人工智能模型在軟件工程任務中的表現。

SWE-bench

IT之家注:SWE-Bench 是一個用於評估 LLM 解決 GitHub 上真實軟件問題能力的基準測試數據集。

它收集了來自 12 個流行的 Python 倉庫的 2294 個 Issue-Pull Request 對。在測試時,LLM 會拿到一個代碼庫和 issue 描述,然後生成一個補丁來解決 issue 描述的問題。

該基準使用兩種類型的測試:

FAIL_TO_PASS 測試用於檢查問題是否已得到解決

PASS_TO_PASS 測試用於確保代碼更改不會破壞現有功能。

OpenAI 指出了 SWE-bench 的三個主要問題:

單元測試過於嚴格:用於評估解決方案正確性的單元測試往往過於具體,有時甚至與問題無關,這可能導致拒絕正確的解決方案。

問題描述不明確:許多樣本的問題描述不夠具體,導致問題是什麼以及應如何解決含糊不清。

開發環境難以設置:有時很難可靠地爲代理設置 SWE-bench 開發環境,從而無意中導致單元測試失敗。

SWE-bench Verified 的主要改進之一是使用容器化 Docker 環境開發了新的評估工具包。

這一改進旨在使評估過程更加一致和可靠,降低與開發環境設置相關的問題發生的可能性。

例如,GPT-4o 解決了 33.2% 的樣本,而表現最佳的開源代理框架 Agentless 的得分翻了一番,達到 16%。

性能的提高表明,SWE-bench Verified 更好地捕捉到了人工智能模型在軟件工程任務中的真正能力。