智譜「超大杯」模型全家桶亮相KDD,部分任務超越GPT-4o
機器之心報道
編輯:張倩、杜偉
中國的大模型,正在世界舞臺上站穩腳跟。
近日,數據挖掘頂會 KDD 2024 在西班牙巴塞羅那正式召開,來自中國的研究團隊和科技企業紛紛亮相。其中,在 8 月 29 日舉辦的大語言模型日(Large Language Model Day)上,智譜 AI 顧曉韜博士介紹了智譜 AI 支持中英雙語的對話機器人 ChatGLM,成爲中國科技力量的鮮明代表 。
與此同時,他還介紹了智譜基礎模型的重大升級,即新一代基座大模型 GLM-4-Plus。這是智譜全自研 GLM 大模型的最新版本,在語言理解、指令遵循、長文本處理等方面性能得到全面提升,保持了國際領先水平。
此外,他們還發布了文生圖模型 CogView-3-Plus 和圖像 / 視頻理解模型 GLM-4V-Plus。前者具備與當前最優的 MJ-V6 和 FLUX 等模型接近的性能,後者具備卓越的圖像理解能力和基於時間感知的視頻理解能力,上線開放平臺後將成爲國內首個通用視頻理解模型 API。
在視頻生成方面,比 CogVideoX 2B 更大的 5B 版本也正式開源,其性能進一步增強,是當前開源視頻生成模型中的最佳選擇。
這些模型共同構成了智譜自主原創的全棧大模型譜系,推動智譜全面對標國際先進水平,鞏固中國在全球大模型領域的領先地位。
第一手實測
通用知識、視覺理解、圖像生成體驗升級
我們首先對剛剛發佈的 GLM-4-Plus 的通用知識掌握程度、邏輯推理等相關能力來了一波測驗。
先看官方給出的指標。從結果來看,在與 OpenAI 最強旗艦模型 GPT-4o 的全面較量中,GLM-4-Plus 已經可以在大多數任務上做到逼近甚至在某些任務上實現了超越。
對於邏輯推理任務,先讓它嘗試解答最近一段時間讓大模型犯糊塗的「數字比較」問題。從結果看,GLM-4-Plus 很懂小數位比較的邏輯思路。
給 GLM-4-Plus 上上難度,看它能不能搞定經典的「瓶子裝水」問題。顯然它可以一步步釐清破解思路,並給出準確答案。
GLM-4-Plus 對 AI 圈名人 Ilya Sutskever 的最新近況也瞭如指掌,說明背後的搜索功能做得也不錯。
接下來,我們測試了 GLM-4V-Plus 的圖像理解能力。
給出一張有關英偉達的漫畫,GLM-4V-Plus 能 get 到這是用淘金熱比喻當下的 AI 熱,指出英偉達是鏟子賣家,其他 AI 公司是鏟子買家,和漫畫寓意相符。
接下來,我們又給了它一張包含多個人物的梗圖。結果發現,GLM-4V-Plus 不僅能夠描述出人物的穿搭、表情以及照片裡模糊的背景,還能看出幾個人之間的關係以及表情的成因,效果出乎意料。
GLM-4V-Plus 在「實戰」中不僅可以理解網頁內容,將它們轉換爲 html 代碼,而且能夠對複雜的視頻內容進行透徹的理解與分析,並做到與人類之間類似的溝通。
我們也讓 GLM-4V-Plus 生成了機器之心官網截圖的 html 代碼。它基本對設計稿進行了分區規劃,排版方式用了比較現代的 flex,支持一定的響應式,具有一定的基於當前代碼繼續補充細節的可行性。
從代碼功能來看,它能夠正確識別模塊的內容大概是什麼(比如是 Logo、是 Banner 還是新聞),並且語義化給出 class 命名(如新聞板塊命名爲.news)。
眼見爲實,GLM-4V-Plus 強不強,下面這個視頻示例也會給我們答案。我們餵給模型一段 11 秒時長的籃球比賽現場視頻:
視頻鏈接:https://mp.weixin.qq.com/s/4INZ0SxwRV79zPwj6p0G7w
然後分別從視頻總結、推理、時間問答等幾個角度考驗 GLM-4V-Plus。
可以看到,GLM-4V-Plus 顯然準確地 get 到了視頻傳達的內容,並進行了全面的總結。不僅如此,它還能根據「看到」的某些顯著特徵(如球員的服裝)來展開進一步合理的推理判斷;並針對具體時間節點的內容進行概括總結,在某種程度上可以說具備了時間感知能力。
我們測試了當前大火的《黑神話・悟空》片段,GLM-4V-Plus 也能按照時間順序描述清楚,而且描述語言文學性高,與視頻片段高度適配。
最後,從 CogView-3-Plus 生成的一系列圖像示例中,我們體驗到了文生圖能力的顯著提升。
比如在下面這張圖中,我們看到 CogView-3-Plus 可以非常準確地生成單詞,這在很多文生圖應用中都是高頻翻車區。
在下面這張圖中,CogView-3-Plus 不僅準確還原了馬斯克的面部特徵,還創意性地給馬加上了類似電路的紋理,非常富有想象力。
CogView-3-Plus 對於古詩詞的理解有些出乎意料,不僅畫出了所有的元素,還還原了詩詞中的意境。
人物的生成則非常逼真,而且細節豐富、氛圍感強。
可以說,智譜「超大杯」模型系列的實際體驗效果,「兌現了」性能指標上的全面提升。
One More Thing
智譜版「Her」正式上線
除了以上基礎模型的進展,智譜旗下 C 端產品 —— 生成式 AI 助手智譜清言也迎來了重磅升級。
我們知道,在 GPT-4o 出現後,大家都在猜測,下一個 Killer APP 的交互方式會是什麼樣子。很多人看好語音,但毋庸置疑,語音 + 視頻會更加方便,所以頂級大模型廠商都在想方設法給自己的大模型安上「眼睛」,讓大模型不僅會寫、會聽、會說,還會看。
在國內,智譜是首個把這項綜合功能做成 C 端產品並開放給部分用戶的公司。這部分用戶只要下載最新版本的智譜清言,然後打開視頻通話窗口,就可以和它視頻通話。
這個視頻通話跨越了文本、音頻和視頻模態,並具備實時推理的能力。隨着該功能的加入,清言 APP 成爲首個可以通過文本、音頻、視頻和圖像來進行多模態互動的 AI 助手。
從官方 demo 來看,這個功能可以用在陪伴、教學、辦公、生活等多種場景。
爲了驗證效果,機器之心在第一時間進行了嘗試。
首先,我們嘗試了一道小學數學題。在看到題目後,清言似乎自動代入了一個小學老師的角色,語速放慢且富有耐心。而且,它不是直接給出結果,而是用蘇格拉底啓發式教學法,引導提問者一步一步算出答案。這不就是家長想要的「作業輔導」搭子嗎?
視頻鏈接:https://mp.weixin.qq.com/s/4INZ0SxwRV79zPwj6p0G7w
接下來,我們嘗試了一下工作場景 —— 讓清言幫忙解讀一篇英文報道。可以看出,它不僅能把新聞概括出來,還能自行擴展新聞背後的信息,可以考慮拿來當工作搭子了。
視頻鏈接:https://mp.weixin.qq.com/s/4INZ0SxwRV79zPwj6p0G7w
目前,該功能也開放了外部申請。現在到智譜清言 APP 或登錄 PC 端,就能站內申請內測。智譜表示會持續迭代並逐步放開規模,儘快讓全員都可以使用。
此外,智譜還透露,這其實只是一個 beta 版本,清言的視頻通話功能近期還會迎來大的版本迭代。看來,智譜有意將 C 端大模型捲到會寫、會聽、會說還會看的 Next Level,在行業內掀起新一輪競賽。
密集的迭代背後
智譜有着充足的技術彈藥
在衆多大模型公司中,智譜是非常有辨識度的一家。這一方面是因爲,智譜的模型早早就做到了接近 GPT-4 的水平;另一方面則是因爲,沒有哪家國產大模型公司像智譜的技術動作這樣密集。
比如 2024 開年以來,智譜這家公司就一直「沒消停過」。
比如,在模型方面,智譜在 1 月份就迭代出了新一代基座大模型 GLM-4。該模型整體性能成爲當時最接近 GPT-4 的國產大模型。如今,GLM-4 再度進化,時間間隔也不過半年多。
在戰火紛飛的小模型戰場,智譜也沒閒着,推出了 GLM-4-9B、GLM-4V-9B 等小模型。其中,GLM-4V-9B 還是多模態的,通過加入 Vision Transformer,該模型僅以 9B 的參數量就實現了比肩 GPT-4V 的能力。但和後者不同的是,這個模型是開源的。
而在產品方面,智譜也是在 1 月份就推出了對標 GPT-4 All Tools 和 GPTs 的 GLM-4-All Tools 和 GLMs。其中,GLM-4-All Tools 實現了根據用戶意圖自動理解、規劃複雜指令,自由調用文生圖、代碼解釋器、網頁瀏覽、Function Call 等多項工具來完成複雜任務,這意味着 GLM 系列模型的全家桶能力實現工業化。GLMs 則實現了個性化智能體定製,幫助沒有編程基礎的用戶實現大模型的便捷開發。
在清言這款 C 端產品上,智譜也是更新不斷,其中動靜最大的要數最近發佈的視頻生成功能「清影」。只要你有好的創意(幾個字到幾百個字),再加上一點點耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度視頻。而且,和 OpenAI 遲遲沒有上線的 Sora 不同,清影同源的視頻生成模型 ——CogVideoX 也是開源的,而且一路從 2B 開源到 5B(未來可能更大),這在國內外開發者羣體中都引發了不小的轟動。
今天 HuggingFace 熱榜,CogVideoX-5b 排名第三,超過 Llama 了。
據悉,智譜開源模型累計下載量已突破 2000 萬次。
可以看到,從基礎大模型到小模型,從語言到多模態,從技術到產品,智譜在各個方向全面發展,且全方位對標 OpenAI。這在國內大模型廠商中並不常見。這是一種技術儲備充足的表現。
在競爭激烈的全球大模型市場中,智譜正通過頻繁的技術迭代和開源舉措,不斷推動行業和生圖的發展,贏得了越來越多的關注與認可。