☰

Grok圖像理解功能上線，單挑ChatGPT結果驚人！無地標照片秒定位，18世紀手稿一眼識別

新智元報道

編輯：靜音

【新智元導讀】能識別並轉錄18世紀手稿、還能推測無地標照片拍攝地……馬斯克本人也出來官宣：Grok現在能夠理解圖像了！

就在剛剛，xAI爲Grok增加了圖像理解功能！

馬斯克本人也出來官宣了，並稱「Grok現在能夠理解圖像了，甚至還可以解釋笑話」。

在馬斯克舉的例子中，Grok根據給出的這張meme圖，從場景設置、笑話的前提、轉折、幽默之處、額外的幽默層面、視覺笑點6個方面來解釋了它。

不少網友調侃道：Grok比美國政客還要聰明有趣！甚至連它都知道什麼是笑話。

但其實，這個笑話解釋得太過複雜，讓人云裡霧裡！

有網友在評論區補充了更恰當的解釋：「真糟糕，我以爲笑話是，物理學家們聽到牛頓『發明了重力』忍不住要起來糾正，所以才停止裝死...」

不少網友討論道：

「是的，Grok的解釋太過『高智商』以至於它重新變得愚蠢。」

「Grok解讀太多毀了這個笑話！」

還有網友直言：「整個評論區都很奇怪，因爲幾乎沒有人意識到Grok完全沒理解這個笑話。那些知名的網紅們都表現得像機器人一樣。」

沒想到馬斯克本人出來官宣還鬧了個烏龍！

不過，除了理解笑話還不太行，Grok倒是在其他的圖像理解任務中展現出了不錯的水平。

AI Breakfast發帖稱：「Grok 2具有令人難以置信的OCR功能。它能夠完美地轉錄這份幾乎難以辨認的18世紀手稿文件。」

賓夕法尼亞大學沃頓商學院的副教授Ethan Mollick也發帖稱讚了Grok的圖像理解能力。

他將一張在日本大阪拍攝的照片傳給Grok和GPT-4o，並讓它們推測這張照片的拍攝地。據他所說，所有位置信息都從圖像中刪除，且沒有可見的路標和廣告牌。

GPT-4o回答道：「這張圖片展示了一座大型工業起重機，位於水邊，可能靠近一個港口或船廠。周圍的建築和起重機的結構表明，它可能位於一個具有大量海洋活動的城市的工業區。根據可見的細節，這個地點可能是在美國、日本或其他以重工業而聞名的沿海城市。」

在被要求進一步縮小範圍的時候，GPT-4o能直接猜到是日本。

Grok也同樣先分析了一遍照片的內容，最後捕捉到了照片中的「亞洲感」，給到「很可能是像日本、韓國或新加坡這樣的亞洲船廠」的結論。

還有網友也分別給Grok和GPT-4o發了一張在葡萄牙首都里斯本拍攝的照片，讓它們推測這張照片的拍攝地。

Grok回答道：

GPT-4o回答道：

顯然，ChatGPT完勝！但Grok的回答也不賴，已經十分接近正確答案。

不過目前，Grok還不能處理某些文件格式（例如PDF）。一名用戶在馬斯克的帖子下評論道：

「埃隆，Grok怎麼回事？它無法處理照片或PDF，老實說，它在功能上感覺遠遠落後於ChatGPT。你曾對它進行了很多宣傳，但作爲用戶，我可以告訴你：Grok需要重大改進。如果目標是設定一個新標準，它還遠遠不夠。是時候讓它趕上來了，你不覺得嗎？」

馬斯克回覆說：「不久後就可以了。我們在幾個月內完成的事情是其他人花費數年時間才能做到的。」

參考資料：

https://x.com/grok/status/1850808322074509434

https://x.com/AiBreakfast/status/1850961980892615161

https://x.com/emollick/status/1851025478833819947

https://x.com/MesutGenAI/status/1851048640472563798

相關資訊