畫圖猜詞與《我的世界》能測出AI創造力?
大多數人工智能基準測試給我們提供的有用信息並不多。
因此,一些人工智能愛好者正在將遊戲作爲測試人工智能解決問題能力的一種方式。
身爲自由職業者的人工智能開發者保羅·卡爾克拉夫特(Paul Calcraft)開發了一款應用程序,在其中兩個人工智能模型可以相互玩類似畫圖猜詞的遊戲。一個模型塗鴉,而另一個模型試圖猜測塗鴉代表什麼。
“我覺得從模型能力這個角度來看,這聽起來超級有趣,還可能很有意義,”卡爾克拉夫特在接受 TechCrunch 採訪時表示。“所以我在一個陰天的星期六待在室內把它完成了。”
卡爾克拉夫特的靈感來自英國程序員西蒙·威利森(Simon Willison)的一個類似項目,該項目要求模型繪製一幅騎自行車的鵜鶘的矢量圖。和卡爾克拉夫特一樣,威利森選擇了一個他認爲會迫使模型“思考”超出其訓練數據內容的挑戰。
“這個想法是要設定一個無法作弊的基準,”卡爾克拉夫特說。“一個不能通過記住訓練期間以前見過的特定答案或簡單模式來擊敗的基準。”
16 歲的阿多尼斯·辛格(Adonis Singh)也認爲《我的世界》屬於這種“難以遊戲化”的類別。
他創建了一個名爲 Mcbench 的工具,這個工具能讓模型控制《我的世界》中的角色,並測試其設計結構的能力,類似於微軟的Project Malmo項目。
“我覺得《我的世界》考驗了模型的應變能力,並賦予了它們更多的自主性,”他告訴 TechCrunch。“它不像(其他)基準那樣受到嚴格的限制,也沒有那麼飽和。”
使用遊戲來對人工智能進行基準測試並不是什麼新鮮事。這個想法可以追溯到幾十年前:數學家克勞德·香農在 1949 年認爲,像國際象棋這樣的遊戲對於“智能”軟件來說是一個有價值的挑戰。最近,Alphabet 的 DeepMind 開發了一個模型,可以玩《Pong》和《Breakout》;OpenAI 訓練人工智能參加Dota 2比賽;Meta 設計了一個算法,可以與專業的德州撲克玩家抗衡。
但現在不同的是,愛好者們正在將大型語言模型(LLMs)——能夠分析文本、圖像等的模型——與遊戲連接起來,以探究它們在邏輯方面的表現有多好。
有很多的 LLMs,從Gemini和Claude到GPT-4o,可以說它們都有着不同的“氛圍”。它們在一次交互到下一次交互中“感覺”不同——這種現象可能難以量化。
“大家都知道大型語言模型對提問的特定方式很敏感,而且通常不可靠且難以預測,”卡爾克拉夫特說。
艾伯塔大學的人工智能研究員兼教授馬修·古茲迪爾表示,與基於文本的基準測試相比,遊戲提供了一種直觀的視覺方式來比較模型的表現情況和行爲方式。
“我們可以認爲每個基準測試都給我們提供了針對特定類型問題(如推理或交流)的現實的不同簡化,”他說。“遊戲只是可以用人工智能進行決策的其他方式,所以人們像使用任何其他方法一樣使用它們。”
熟悉生成式人工智能歷史的人會注意到畫圖猜詞與生成對抗網絡(GANs)有多相似,在這個過程中,創建者模型向判別器模型發送圖像,然後由判別器模型對其進行評估。
卡爾克拉夫特認爲,畫圖猜詞可以捕捉大型語言模型理解形狀、顏色和介詞(例如,“in”與“on”的含義)等概念的能力。他不會說這個遊戲是推理的可靠測試,但他認爲獲勝需要策略和理解線索的能力——這兩點模型都不容易做到。
“我也真的很喜歡畫圖猜詞遊戲近乎對抗性的本質,類似於生成對抗網絡(GANs),在這個遊戲中,存在兩種不同的角色:一個負責畫圖,另一個負責猜測,”他說。“畫圖最好的人並非是最具藝術感的,而是能夠最爲清晰地向其他語言模型(包括速度更快但能力差很多的模型!)的受衆傳達想法的那個人”
“卡爾克拉夫特警告道:‘畫圖猜詞是一個並非馬上實用或者現實的玩具式問題。’“話雖這麼說,我着實認爲空間理解和多模態屬於人工智能進步的關鍵要素,所以語言模型的畫圖猜詞或許是這一進程中的一小步、早期的一步。”
辛格覺得《我的世界》也是一個有用的基準,而且能夠衡量語言模型中的推理能力。“從我到目前爲止測試的模型來看,結果與我在與推理相關的事情上對模型的信任程度完全一致,”他說。
其他人則不太確定。
專門從事人工智能研究的瑪麗女王大學研究員邁克·庫克覺得,《我的世界》作爲人工智能測試平臺並非特別特殊。
“我認爲《我的世界》的部分魅力來自遊戲領域之外的人,他們可能認爲,因爲它看起來像‘現實世界’,所以它與現實世界的推理或行動聯繫更爲緊密,”庫克告訴 TechCrunch。“從解決問題的角度來看,它與像《堡壘之夜》、《星露穀物語》或《魔獸世界》這樣的視頻遊戲差異不大。它只是在外觀上有着不同的裝點,使其看起來更像是日常的一系列任務,比如建造東西或探索。”
就庫克的觀點而言,即使是最好的遊戲人工智能系統通常也不能很好地適應新環境,並且不能輕易解決以前從未見過的問題。例如,一個在《我的世界》中表現出色的模型不太可能在《毀滅戰士》中展現出任何真正的技藝。
“我認爲從人工智能的角度來看,《我的世界》所具備的良好品質爲極其微弱的獎勵信號和一個程序性的世界,這意味着不可預測的挑戰,”庫克繼續說道。“但它並不比其他任何視頻遊戲更能體現現實世界的情況。”
即便如此,觀看大型語言模型建造城堡肯定存在一些迷人的地方。