技術的發展日新月異 AI模型評估基準要升級

人工智慧(AI)技術的發展日新月異,現有評測與比較大型語言模型的方式已不敷使用。(路透)

人工智慧(AI)技術的發展日新月異,現有評測與比較大型語言模型的方式已不敷使用,科技業者正趕忙重新設計用來測試與評估AI模型的方式,希望創建新基準。

英國金融時報(FT)報導,AI業者的AI模型會交由公司團隊或外部研究人員進行評估,爲標準化測試的一環,也就是評估模型能力以及不同系統或新舊版本之間效能差異的基準。然而,AI近期的發展速度,意味着最新模型在現有測試中,已能逼近或超過90%的準確率,凸顯研發新基準的必要性。

Hellaswag和MMLU等既有公開測試,是用選擇題評估AI模型對各個主題的常識和能力。如今研究人員認爲AI模型需要更復雜的問題。

因此,Meta、OpenAI和微軟等科技業者,紛紛創建自家的內部基準與測試。微軟在自家內部的基準測試,納入先前在訓練中未出現過的問題,以評估其AI模型是否像人類一樣進行推理。OpenAI則主要透過數學、STEM科目和撰寫程式碼任務的評估,來衡量模型的推理能力。

外部組織也努力打造新的基準,例如,新創公司Scale AI和Hendrycks在9月宣佈一個名爲「人類最後考試」的計劃,彙集不同學科的專家來設計複雜問題,需抽象推理才能完成。

一項公開測試SWE-Bench Verified在今年8月更新,以提升評估AI模型的能力。這個測試是使用來自GitHub的現實世界中的軟體問題,會提供AI代理人程式碼儲存庫,和一個工程問題,詢問他們如何解決。這項任務需要推理才能完成。以此進行測試,OpenAI的最新模型GPT-4o預覽版解決41.4%的問題,而Anthropic的Claude 3.5 Sonnet解決了49%的問題。

執行更高階的測試有另一個重要的要素是,確保基準測試的問題沒出現在公共領域,以防AI模型透過訓練資料產生答案而不是靠推理來解決問題。對釋放AI代理人的潛力來說,推理和規劃的能力至關重要。