AI大模型排行榜成新熱點:如何排名?名次科學嗎?

2月21日消息,最近幾個月,網上公開發布的人工智能模型排名人氣飆升。這些排名顯示,機器人在某些任務上的表現已經超過了人類。但專家們表示,實際意義並不大。

人工智能模型實質上就是一組用代碼包裝的數學方程,能實現特定目標。每個排行榜都會根據人工智能模型完成特定任務的能力去追蹤那些最先進的模型。人們也得以從排名中實時瞭解各大科技公司之間正在進行的人工智能競賽。

諸如谷歌Gemini以及巴黎初創公司Mistral AI開發的Mistral-Medium等模型已經在人工智能社區激起了巨大興趣,競相爭奪排名靠前的位置。

然而,OpenAI的GPT-4模型繼續在各大排行榜中佔據主導地位。

“人們關心的是技術水平,”斯坦福大學計算機科學博士生、聊天機器人競技場(Chatbot Arena)排行榜的聯合創始人YingSheng說。“我認爲人們其實更希望看到排行榜發生變化。這意味着競爭仍然存在,還有更多需要改進的地方。”

圖:聊天機器人競技場(Chatbot Arena)排行榜

人工智能模型的排名通常都基於各種測試,確定模型的通用能力以及哪個模型可能最適合語音識別等特定用途。這些測試有時也被稱爲基準測試,主要根據人工智能生成音頻的效果或聊天機器人的反應等指標來衡量模型表現。

隨着人工智能的不斷進步,測試的演變也很重要。

斯坦福大學以人爲中心人工智能研究所(Institute of Human-CenteredArtificial Intelligence)的研究主任瓦妮莎·帕利(Vanessa Parli)說,“這些標準並不完美,但就目前而言,這是我們評估人工智能系統的唯一方法。”

帕利所在的研究所編制了斯坦福大學的人工智能指數(AI Index)。這份年度報告追蹤人工智能模型在各種指標下的技術表現。帕利說,2023年的報告考察了50個指標,但只採納了其中的20個。今年報告會再次剔除一些較老的指標,突出更新更全面的指標。

排行榜還能讓人瞭解目前正在開發的有多少人工智能模型。截至今年2月初,開源機器學習平臺Hugging Face建立的開放大語言模型排行榜已經對4200多個模型進行了評估和排名,這些模型都是由人工智能社區成員提交的。

這些模型根據七個關鍵指標對模型進行跟蹤測試,評估閱讀理解和解決數學問題等各種能力。其中有測試這些模型在解答小學數學和科學問題方面的表現,測試它們的常識性推理能力,還有衡量它們重複錯誤信息的傾向。一些測試會提供多項選擇答案,而另一些則要求模型根據提示自行生成答案。

訪問排行榜就可以看到每個人工智能模型的特定基準表現分以及總體平均得分。目前還沒有哪種模型能在任何基準測試中獲得100分的滿分。最近,舊金山初創公司Abacus開發的人工智能模型Smaug-72B成爲第一個平均得分超過80分的機器人。

許多大語言模型在這些測試中的表現已經超過了人類基準水平,這就是研究人員所說的“飽和”。Hugging Face聯合創始人兼首席科學官托馬斯·沃爾夫(Thomas Wolf)說,當模型能力提高到超出特定基準測試的程度時,通常就會發生這種情況,就像一個學生從初中升入高中一樣;或者當模型記住如何回答某些測試問題時,這種概念也被稱爲“過度擬合”。

當這種情況發生時,雖然模型在以前執行的任務中表現良好,但在面對新情況或舊任務發生變化時卻表現不佳。

“飽和並不意味着我們的模型總體上變得’比人類更好’,”沃爾夫在一封電子郵件中寫道。“這只是意味着,模型在特定的基準測試中已經達到了當前測試無法正確評估其能力的程度,因此我們需要設計新的標準。”

一些基準測試已經存在有多年時間。對於大語言模型的開發人員來說,利用這些測試集訓練他們開發的模型,保證在發佈時獲得高分是件很容易的事。作爲由校際開放研究組織大模型系統組織(Large Model Systems Organization)創建的排行榜,Chatbot Arena就是通過人工輸入來評估人工智能模型,從而解決這一問題。

帕利說,研究人員也希望在測試大語言模型的方式上更具有創造性。也就是更全面地進行評判,而不是單次只看一個特定指標。

她表示:“主要是因爲我們發現更多傳統的基準測試已經飽和,引入人工評估能讓我們瞭解計算機等基於代碼的評估測試所無法獲得的某些方面。”

Chatbot Arena允許訪客向兩個匿名的人工智能模型提出任何問題,然後投票決定哪個聊天機器人能給出更好的答案。

到目前爲止,Chatbot Arena排行榜根據30多萬張人工投票結果對大約60個模型進行了排名。據創建者稱,自從Chatbot Arena排名發佈不到一年以來,網站訪問量大幅增加,如今ChatbotArena每天都能獲得上萬張投票,而且平臺收到添加新模型的請求太多,以至於無法容納所有這些模型。

Chatbot Arena聯合創始人Wei-Lin Chiang是加州大學伯克利分校計算機科學專業的博士生。他說,團隊進行的研究表明,衆包投票產生的結果幾乎和聘請人類專家測試聊天機器人的質量一樣高。他承認難免有異常值,但團隊正在開發算法去檢測匿名訪客的惡意行爲。

儘管基準測試很有用,但研究人員也承認它們並非包羅萬象。HuggingFace聯合創始人沃爾夫認爲,即使一個模型在推理基準測試上得分很高,但在分析法律文件等特定用例時仍可能表現不佳。

他補充說,這就是爲什麼一些業餘愛好者喜歡通過觀察人工智能模型在不同環境中的表現來進行“情緒檢查”(vibe checks),從而評估這些模型如何成功與用戶互動、保持良好記憶和個性一致。

儘管基準測試存在缺陷,但研究人員表示,相關測試和排行榜仍然能夠鼓勵人工智能開發人員持續創新。他們必須不斷提高標準,才能跟得上最新的評估。(辰辰)