Grok圖像理解功能上線,單挑ChatGPT結果驚人!無地標照片秒定位,18世紀手稿一眼識別
新智元報道
編輯:靜音
【新智元導讀】能識別並轉錄18世紀手稿、還能推測無地標照片拍攝地……馬斯克本人也出來官宣:Grok現在能夠理解圖像了!
就在剛剛,xAI爲Grok增加了圖像理解功能!
馬斯克本人也出來官宣了,並稱「Grok現在能夠理解圖像了,甚至還可以解釋笑話」。
在馬斯克舉的例子中,Grok根據給出的這張meme圖,從場景設置、笑話的前提、轉折、幽默之處、額外的幽默層面、視覺笑點6個方面來解釋了它。
不少網友調侃道:Grok比美國政客還要聰明有趣!甚至連它都知道什麼是笑話。
但其實,這個笑話解釋得太過複雜,讓人云裡霧裡!
有網友在評論區補充了更恰當的解釋:「真糟糕,我以爲笑話是,物理學家們聽到牛頓『發明了重力』忍不住要起來糾正,所以才停止裝死...」
不少網友討論道:
「是的,Grok的解釋太過『高智商』以至於它重新變得愚蠢。」
「Grok解讀太多毀了這個笑話!」
還有網友直言:「整個評論區都很奇怪,因爲幾乎沒有人意識到Grok完全沒理解這個笑話。那些知名的網紅們都表現得像機器人一樣。」
沒想到馬斯克本人出來官宣還鬧了個烏龍!
不過,除了理解笑話還不太行,Grok倒是在其他的圖像理解任務中展現出了不錯的水平。
AI Breakfast發帖稱:「Grok 2具有令人難以置信的OCR功能。它能夠完美地轉錄這份幾乎難以辨認的18世紀手稿文件。」
賓夕法尼亞大學沃頓商學院的副教授Ethan Mollick也發帖稱讚了Grok的圖像理解能力。
他將一張在日本大阪拍攝的照片傳給Grok和GPT-4o,並讓它們推測這張照片的拍攝地。據他所說,所有位置信息都從圖像中刪除,且沒有可見的路標和廣告牌。
GPT-4o回答道:「這張圖片展示了一座大型工業起重機,位於水邊,可能靠近一個港口或船廠。周圍的建築和起重機的結構表明,它可能位於一個具有大量海洋活動的城市的工業區。根據可見的細節,這個地點可能是在美國、日本或其他以重工業而聞名的沿海城市。」
在被要求進一步縮小範圍的時候,GPT-4o能直接猜到是日本。
Grok也同樣先分析了一遍照片的內容,最後捕捉到了照片中的「亞洲感」,給到「很可能是像日本、韓國或新加坡這樣的亞洲船廠」的結論。
還有網友也分別給Grok和GPT-4o發了一張在葡萄牙首都里斯本拍攝的照片,讓它們推測這張照片的拍攝地。
Grok回答道:
GPT-4o回答道:
顯然,ChatGPT完勝!但Grok的回答也不賴,已經十分接近正確答案。
不過目前,Grok還不能處理某些文件格式(例如PDF)。一名用戶在馬斯克的帖子下評論道:
「埃隆,Grok怎麼回事?它無法處理照片或PDF,老實說,它在功能上感覺遠遠落後於ChatGPT。你曾對它進行了很多宣傳,但作爲用戶,我可以告訴你:Grok需要重大改進。如果目標是設定一個新標準,它還遠遠不夠。是時候讓它趕上來了,你不覺得嗎?」
馬斯克回覆說:「不久後就可以了。我們在幾個月內完成的事情是其他人花費數年時間才能做到的。」
參考資料:
https://x.com/grok/status/1850808322074509434
https://x.com/AiBreakfast/status/1850961980892615161
https://x.com/emollick/status/1851025478833819947
https://x.com/MesutGenAI/status/1851048640472563798