Grok圖像理解功能上線,單挑ChatGPT結果驚人!無地標照片秒定位,18世紀手稿一眼識別

新智元報道

編輯:靜音

【新智元導讀】能識別並轉錄18世紀手稿、還能推測無地標照片拍攝地……馬斯克本人也出來官宣:Grok現在能夠理解圖像了!

就在剛剛,xAI爲Grok增加了圖像理解功能!

馬斯克本人也出來官宣了,並稱「Grok現在能夠理解圖像了,甚至還可以解釋笑話」。

在馬斯克舉的例子中,Grok根據給出的這張meme圖,從場景設置、笑話的前提、轉折、幽默之處、額外的幽默層面、視覺笑點6個方面來解釋了它。

不少網友調侃道:Grok比美國政客還要聰明有趣!甚至連它都知道什麼是笑話。

但其實,這個笑話解釋得太過複雜,讓人云裡霧裡!

有網友在評論區補充了更恰當的解釋:「真糟糕,我以爲笑話是,物理學家們聽到牛頓『發明了重力』忍不住要起來糾正,所以才停止裝死...」

不少網友討論道:

「是的,Grok的解釋太過『高智商』以至於它重新變得愚蠢。」

「Grok解讀太多毀了這個笑話!」

還有網友直言:「整個評論區都很奇怪,因爲幾乎沒有人意識到Grok完全沒理解這個笑話。那些知名的網紅們都表現得像機器人一樣。」

沒想到馬斯克本人出來官宣還鬧了個烏龍!

不過,除了理解笑話還不太行,Grok倒是在其他的圖像理解任務中展現出了不錯的水平。

AI Breakfast發帖稱:「Grok 2具有令人難以置信的OCR功能。它能夠完美地轉錄這份幾乎難以辨認的18世紀手稿文件。」

賓夕法尼亞大學沃頓商學院的副教授Ethan Mollick也發帖稱讚了Grok的圖像理解能力。

他將一張在日本大阪拍攝的照片傳給Grok和GPT-4o,並讓它們推測這張照片的拍攝地。據他所說,所有位置信息都從圖像中刪除,且沒有可見的路標和廣告牌。

GPT-4o回答道:「這張圖片展示了一座大型工業起重機,位於水邊,可能靠近一個港口或船廠。周圍的建築和起重機的結構表明,它可能位於一個具有大量海洋活動的城市的工業區。根據可見的細節,這個地點可能是在美國、日本或其他以重工業而聞名的沿海城市。」

在被要求進一步縮小範圍的時候,GPT-4o能直接猜到是日本。

Grok也同樣先分析了一遍照片的內容,最後捕捉到了照片中的「亞洲感」,給到「很可能是像日本、韓國或新加坡這樣的亞洲船廠」的結論。

還有網友也分別給Grok和GPT-4o發了一張在葡萄牙首都里斯本拍攝的照片,讓它們推測這張照片的拍攝地。

Grok回答道:

GPT-4o回答道:

顯然,ChatGPT完勝!但Grok的回答也不賴,已經十分接近正確答案。

不過目前,Grok還不能處理某些文件格式(例如PDF)。一名用戶在馬斯克的帖子下評論道:

「埃隆,Grok怎麼回事?它無法處理照片或PDF,老實說,它在功能上感覺遠遠落後於ChatGPT。你曾對它進行了很多宣傳,但作爲用戶,我可以告訴你:Grok需要重大改進。如果目標是設定一個新標準,它還遠遠不夠。是時候讓它趕上來了,你不覺得嗎?」

馬斯克回覆說:「不久後就可以了。我們在幾個月內完成的事情是其他人花費數年時間才能做到的。」

參考資料:

https://x.com/grok/status/1850808322074509434

https://x.com/AiBreakfast/status/1850961980892615161

https://x.com/emollick/status/1851025478833819947

https://x.com/MesutGenAI/status/1851048640472563798