☰

智譜「超大杯」模型全家桶亮相KDD，部分任務超越GPT-4o

機器之心報道

編輯：張倩、杜偉

中國的大模型，正在世界舞臺上站穩腳跟。

近日，數據挖掘頂會 KDD 2024 在西班牙巴塞羅那正式召開，來自中國的研究團隊和科技企業紛紛亮相。其中，在 8 月 29 日舉辦的大語言模型日（Large Language Model Day）上，智譜 AI 顧曉韜博士介紹了智譜 AI 支持中英雙語的對話機器人 ChatGLM，成爲中國科技力量的鮮明代表。

與此同時，他還介紹了智譜基礎模型的重大升級，即新一代基座大模型 GLM-4-Plus。這是智譜全自研 GLM 大模型的最新版本，在語言理解、指令遵循、長文本處理等方面性能得到全面提升，保持了國際領先水平。

此外，他們還發布了文生圖模型 CogView-3-Plus 和圖像 / 視頻理解模型 GLM-4V-Plus。前者具備與當前最優的 MJ-V6 和 FLUX 等模型接近的性能，後者具備卓越的圖像理解能力和基於時間感知的視頻理解能力，上線開放平臺後將成爲國內首個通用視頻理解模型 API。

在視頻生成方面，比 CogVideoX 2B 更大的 5B 版本也正式開源，其性能進一步增強，是當前開源視頻生成模型中的最佳選擇。

這些模型共同構成了智譜自主原創的全棧大模型譜系，推動智譜全面對標國際先進水平，鞏固中國在全球大模型領域的領先地位。

第一手實測

通用知識、視覺理解、圖像生成體驗升級

我們首先對剛剛發佈的 GLM-4-Plus 的通用知識掌握程度、邏輯推理等相關能力來了一波測驗。

先看官方給出的指標。從結果來看，在與 OpenAI 最強旗艦模型 GPT-4o 的全面較量中，GLM-4-Plus 已經可以在大多數任務上做到逼近甚至在某些任務上實現了超越。

對於邏輯推理任務，先讓它嘗試解答最近一段時間讓大模型犯糊塗的「數字比較」問題。從結果看，GLM-4-Plus 很懂小數位比較的邏輯思路。

給 GLM-4-Plus 上上難度，看它能不能搞定經典的「瓶子裝水」問題。顯然它可以一步步釐清破解思路，並給出準確答案。

GLM-4-Plus 對 AI 圈名人 Ilya Sutskever 的最新近況也瞭如指掌，說明背後的搜索功能做得也不錯。

接下來，我們測試了 GLM-4V-Plus 的圖像理解能力。

給出一張有關英偉達的漫畫，GLM-4V-Plus 能 get 到這是用淘金熱比喻當下的 AI 熱，指出英偉達是鏟子賣家，其他 AI 公司是鏟子買家，和漫畫寓意相符。

接下來，我們又給了它一張包含多個人物的梗圖。結果發現，GLM-4V-Plus 不僅能夠描述出人物的穿搭、表情以及照片裡模糊的背景，還能看出幾個人之間的關係以及表情的成因，效果出乎意料。

GLM-4V-Plus 在「實戰」中不僅可以理解網頁內容，將它們轉換爲 html 代碼，而且能夠對複雜的視頻內容進行透徹的理解與分析，並做到與人類之間類似的溝通。

我們也讓 GLM-4V-Plus 生成了機器之心官網截圖的 html 代碼。它基本對設計稿進行了分區規劃，排版方式用了比較現代的 flex，支持一定的響應式，具有一定的基於當前代碼繼續補充細節的可行性。

從代碼功能來看，它能夠正確識別模塊的內容大概是什麼（比如是 Logo、是 Banner 還是新聞），並且語義化給出 class 命名（如新聞板塊命名爲.news）。

眼見爲實，GLM-4V-Plus 強不強，下面這個視頻示例也會給我們答案。我們餵給模型一段 11 秒時長的籃球比賽現場視頻：

視頻鏈接：https://mp.weixin.qq.com/s/4INZ0SxwRV79zPwj6p0G7w

然後分別從視頻總結、推理、時間問答等幾個角度考驗 GLM-4V-Plus。

可以看到，GLM-4V-Plus 顯然準確地 get 到了視頻傳達的內容，並進行了全面的總結。不僅如此，它還能根據「看到」的某些顯著特徵（如球員的服裝）來展開進一步合理的推理判斷；並針對具體時間節點的內容進行概括總結，在某種程度上可以說具備了時間感知能力。

我們測試了當前大火的《黑神話・悟空》片段，GLM-4V-Plus 也能按照時間順序描述清楚，而且描述語言文學性高，與視頻片段高度適配。

最後，從 CogView-3-Plus 生成的一系列圖像示例中，我們體驗到了文生圖能力的顯著提升。

比如在下面這張圖中，我們看到 CogView-3-Plus 可以非常準確地生成單詞，這在很多文生圖應用中都是高頻翻車區。

在下面這張圖中，CogView-3-Plus 不僅準確還原了馬斯克的面部特徵，還創意性地給馬加上了類似電路的紋理，非常富有想象力。

CogView-3-Plus 對於古詩詞的理解有些出乎意料，不僅畫出了所有的元素，還還原了詩詞中的意境。

人物的生成則非常逼真，而且細節豐富、氛圍感強。

可以說，智譜「超大杯」模型系列的實際體驗效果，「兌現了」性能指標上的全面提升。

One More Thing

智譜版「Her」正式上線

除了以上基礎模型的進展，智譜旗下 C 端產品 —— 生成式 AI 助手智譜清言也迎來了重磅升級。

我們知道，在 GPT-4o 出現後，大家都在猜測，下一個 Killer APP 的交互方式會是什麼樣子。很多人看好語音，但毋庸置疑，語音 + 視頻會更加方便，所以頂級大模型廠商都在想方設法給自己的大模型安上「眼睛」，讓大模型不僅會寫、會聽、會說，還會看。

在國內，智譜是首個把這項綜合功能做成 C 端產品並開放給部分用戶的公司。這部分用戶只要下載最新版本的智譜清言，然後打開視頻通話窗口，就可以和它視頻通話。

這個視頻通話跨越了文本、音頻和視頻模態，並具備實時推理的能力。隨着該功能的加入，清言 APP 成爲首個可以通過文本、音頻、視頻和圖像來進行多模態互動的 AI 助手。

從官方 demo 來看，這個功能可以用在陪伴、教學、辦公、生活等多種場景。

爲了驗證效果，機器之心在第一時間進行了嘗試。

首先，我們嘗試了一道小學數學題。在看到題目後，清言似乎自動代入了一個小學老師的角色，語速放慢且富有耐心。而且，它不是直接給出結果，而是用蘇格拉底啓發式教學法，引導提問者一步一步算出答案。這不就是家長想要的「作業輔導」搭子嗎？

視頻鏈接：https://mp.weixin.qq.com/s/4INZ0SxwRV79zPwj6p0G7w

接下來，我們嘗試了一下工作場景 —— 讓清言幫忙解讀一篇英文報道。可以看出，它不僅能把新聞概括出來，還能自行擴展新聞背後的信息，可以考慮拿來當工作搭子了。

視頻鏈接：https://mp.weixin.qq.com/s/4INZ0SxwRV79zPwj6p0G7w

目前，該功能也開放了外部申請。現在到智譜清言 APP 或登錄 PC 端，就能站內申請內測。智譜表示會持續迭代並逐步放開規模，儘快讓全員都可以使用。

此外，智譜還透露，這其實只是一個 beta 版本，清言的視頻通話功能近期還會迎來大的版本迭代。看來，智譜有意將 C 端大模型捲到會寫、會聽、會說還會看的 Next Level，在行業內掀起新一輪競賽。

密集的迭代背後

智譜有着充足的技術彈藥

在衆多大模型公司中，智譜是非常有辨識度的一家。這一方面是因爲，智譜的模型早早就做到了接近 GPT-4 的水平；另一方面則是因爲，沒有哪家國產大模型公司像智譜的技術動作這樣密集。

比如 2024 開年以來，智譜這家公司就一直「沒消停過」。

比如，在模型方面，智譜在 1 月份就迭代出了新一代基座大模型 GLM-4。該模型整體性能成爲當時最接近 GPT-4 的國產大模型。如今，GLM-4 再度進化，時間間隔也不過半年多。

在戰火紛飛的小模型戰場，智譜也沒閒着，推出了 GLM-4-9B、GLM-4V-9B 等小模型。其中，GLM-4V-9B 還是多模態的，通過加入 Vision Transformer，該模型僅以 9B 的參數量就實現了比肩 GPT-4V 的能力。但和後者不同的是，這個模型是開源的。

而在產品方面，智譜也是在 1 月份就推出了對標 GPT-4 All Tools 和 GPTs 的 GLM-4-All Tools 和 GLMs。其中，GLM-4-All Tools 實現了根據用戶意圖自動理解、規劃複雜指令，自由調用文生圖、代碼解釋器、網頁瀏覽、Function Call 等多項工具來完成複雜任務，這意味着 GLM 系列模型的全家桶能力實現工業化。GLMs 則實現了個性化智能體定製，幫助沒有編程基礎的用戶實現大模型的便捷開發。

在清言這款 C 端產品上，智譜也是更新不斷，其中動靜最大的要數最近發佈的視頻生成功能「清影」。只要你有好的創意（幾個字到幾百個字），再加上一點點耐心（30 秒），「清影」就能生成 1440x960 清晰度的高精度視頻。而且，和 OpenAI 遲遲沒有上線的 Sora 不同，清影同源的視頻生成模型 ——CogVideoX 也是開源的，而且一路從 2B 開源到 5B（未來可能更大），這在國內外開發者羣體中都引發了不小的轟動。

今天 HuggingFace 熱榜，CogVideoX-5b 排名第三，超過 Llama 了。

據悉，智譜開源模型累計下載量已突破 2000 萬次。

可以看到，從基礎大模型到小模型，從語言到多模態，從技術到產品，智譜在各個方向全面發展，且全方位對標 OpenAI。這在國內大模型廠商中並不常見。這是一種技術儲備充足的表現。

在競爭激烈的全球大模型市場中，智譜正通過頻繁的技術迭代和開源舉措，不斷推動行業和生圖的發展，贏得了越來越多的關注與認可。

智譜「超大杯」模型全家桶亮相KDD，部分任務超越GPT-4o

相關資訊