智譜放大招:大模型從「Chat」走向「Act」

只有對話功能的 Chatbot,正在進化爲「有手、有腦、有眼睛」的自主 Agent。

作者 | 連冉編輯| 鄭玄

每次不知道吃什麼的時候,都會羨慕古代的富貴人家,不用自己想,比你自己還懂你的管家就安排的明明白白——今天隨着 AI 的發展,這樣的場景正在成爲現實。

業內普遍認爲,2025 年將是 Agent 爆發之年。Gartner 近期將 agentic AI 列爲 2025 年十大技術趨勢之一,並預測 2028 年至少有 15% 的日常工作決策將由 agentic AI 自主完成。

與 GenAI(生成式人工智能)不同,Agent 是目標驅動型的,能夠完全執行工作流程,適應、學習、迭代、與其他系統和人類協作,並端到端地完成任務。在智譜 CEO 張鵬看來,Agent 可以看作是大模型通用操作系統 LLM-OS 的雛形。

此前在 10 月,智譜就推出了自主智能體——AutoGLM。AutoGLM 不僅能夠模擬用戶的屏幕操作,如點擊手機應用,還能在瀏覽網頁時有效輔助用戶,涵蓋了日常生活中廣泛需用的多個領域,包括社交、網購、地圖導航和火車票訂購等。

今天,在其最新的「Agent OpenDay」活動中,智譜展示了 AutoGLM 多項進展,展示了大模型技術如何將「對話」從簡單的互動提升爲具有高度自主性的操作系統:可自主完成超過 50 步的複雜操作,並能跨應用程序協作執行任務;支持數十個網站的「無人駕駛」;此外,基於視覺多模態模型的 GLM-PC 也進入內測階段,致力於探索通用智能體技術,實現像人類一樣操控計算機。

在 Agent OpenDay 現場,智譜 CEO 張鵬 通過在現場下達語音指令,讓 AutoGLM 面對面建羣,給現場數百位嘉賓發送了總共 2 萬元的微信紅包,並且演示了手機遠程指揮電腦自動發送文件。

01

AutoGLM :挑戰變更復雜了,

也「變強」了

在活動上,智譜重點展示了其最新升級的 AutoGLM,它能夠自主執行復雜且多步驟的任務,跨應用處理需求,甚至在全程無人干預的情況下自動操作多平臺。

AutoGLM 能夠高效完成超長任務鏈,比如呀在購買火鍋食材的場景中,AutoGLM 無需人工干預即可執行 54 步任務,且速度超越人工操作;支持跨應用任務執行,用戶僅需發出簡短指令,系統便能自動調度並完成多個應用間的任務;簡化了操作流程,用戶可通過簡單語音命令啓動複雜操作,如一句「點咖啡」便能自動完成從選擇到購買咖啡的全部流程。

爲了提升個性化體驗,AutoGLM 還引入了「隨便模式」,通過分析用戶偏好和歷史行爲,主動爲用戶做出決策,進一步優化使用體驗。

同時,智譜宣佈 AutoGLM 啓動大規模內測,並將儘快上線成爲面向 C 端用戶的產品;「10 個億級 APP 免費 Auto 升級」的計劃也已啓動;支持核心場景和核心應用的 AutoGLM 標品 API,則會在兩週內上線到智譜 maas 開放平臺試用。

此外,智譜清言插件也上線了 AutoGLM 功能,支持搜索、微博、知乎、Github 等數十個網站的「無人駕駛」。

智譜清言插件上線 AutoGLM 功能|圖片來源:智譜

02

GLM-PC :

一次關於 PC「無人駕駛」的探索

除了手機和瀏覽器,智譜還帶來了基於 PC 的自主 Agent——GLM-PC。這是智譜在「無人駕駛」PC 領域的技術探索,基於其多模態模型 CogAgent 開發。

GLM-PC 目前已經開始第一階段的內測,提供多項核心功能,包括幫助用戶預定和參與會議,並自動發送會議總結;支持文檔處理,如下載、發送、理解和總結文檔;在指定平臺(如微信公衆號、知乎、小紅書等)進行關鍵詞搜索並完成總結;具備遠程和定時操作功能,支持遠程發指令並執行電腦任務,或在設定時間自動完成任務;此外,GLM-PC 還引入「隱形屏幕」模式,能夠在用戶工作時自主完成任務,釋放屏幕使用空間。

「無人駕駛」電腦|視頻來源: 智譜

GLM-PC 的設計理念是模擬人類的電腦使用方式——眼睛觀察屏幕、腦海中進行規劃,再通過手部操作執行指令。

憑藉這一設計,GLM-PC 能夠完成複雜的 PC 任務,甚至可以自主學習和執行所有爲人類設計的應用,表現出跨平臺的強大能力。這是一種系統級、跨平臺的能力,不依賴於 HTML、API,具備更高的能力上限。

不過,智能體在執行復雜業務流程時,通常需要調動大量數據和應用程序,但由於許多網站和 APP 的 API 缺乏統一標準,這就會讓企業在集成智能體時面臨一些挑戰。

對於這一點,智譜 AutoGLM 技術負責人劉瀟指出,AutoGLM 通過圖形化用戶交互界面來解決這一問題,而非依賴傳統的API調用。

與傳統 API 集成容易因應用更新而導致失效不同,AutoGLM 模擬人類的操作方式,只要應用界面保持用戶可理解並且易於使用,智能體就能夠在該界面上順利執行任務,從而規避了 API 標準化不足帶來的問題。

由於 PC 任務的複雜性,目前 GLM-PC 還需要用戶輸入精準指令,距離全面替代人工辦公還有一定差距。但隨着技術的不斷進步,GLM-PC 的能力將進一步增強,未來有望爲用戶提供更爲高效、直觀的 PC 操作體驗。

03

大模型應用新階段:從 Chat 走向 Act

關於最近熱議的 Scaling Law 是否放緩,張鵬認爲,Scaling Law 放緩只是一個表面現象,背後可能存在更深層次的原因。

他指出,儘管在語言處理領域可能接近人類認知的極限,但仍有可能通過大量數據和大規模處理突破這一瓶頸。在多模態應用和智能體等領域,Scaling 仍然有很大的探索空間。

在張鵬看來,計算量和有效信息可能是關鍵因素,預訓練階段的放緩並不意味着整體進展停滯。事實上,後訓練階段仍然存在 Scaling 效果,儘管這種效果不再像預訓練時那樣簡單地依賴數據量和參數量的增加,而是更加複雜和精細。

這種突破正是當前 AI 技術發展的核心之一——如何將大模型從單純的「理解」層面提升到「行動」的能力。大模型的價值不應只是作爲 chatbot 存在,它的真正價值在於其強大的「理解」與「預測」能力。

這種能力使得大模型能夠深度解析和理解人類的複雜語義、情感以及抽象概念,進而進行精準的推理和預測。如何將這些強大的能力從單純的文本交互中解放出來,應用到更廣泛、更實際的場景中,就要從現在的「Chat」走向「Act」。

Act,即行動,代表着大模型技術從理解和預測到實際行動的跨越。這不僅意味着模型能夠根據輸入的信息作出反應,更意味着它能在更復雜的動態環境中進行決策,解決問題,甚至創造新的價值。

在張鵬看來,「現階段,AutoGLM 相當於在人與應用之間添加一個執行的調度層,很大程度上改變人機的交互形式。更重要的是,我們看到了 LLM-OS 的可能,基於大模型智能能力(從 L1 到 L4 乃至更高),未來有機會實現原生的人機交互。將人機交互範式帶向新的階段。」

AutoGLM 和 GLM-PC 是智譜對 AI 智能操作系統的一次重要嘗試。它們的出現源於智譜在大語言模型、多模態模型、邏輯推理和工具使用等方面的技術積累。

從 2023 年 4 月的 AgentBench 開始,到 8 月的 CogAgent 模型,智譜針對 AutoGLM,和 GLM-PC 的模型 CogAgent 的研發工作進行了一年半的時間。

與 OpenAI 有所不同,智譜定義了大模型發展的五個階段:L1 語言能力、L2 邏輯能力(多模態能力)、L3 使用工具的能力、 L4 自我學習能力、 L5 探究科學規律。

智譜定義的大模型發展五個階段|圖片來源:智譜

理論上,隨着 Agent 能力持續提升,它們將能夠駕馭越來越多的應用程序,適配多樣化的操作系統,並執行日益複雜的自主操作。 這被認爲是大模型通用操作系統 LLM-OS 的初步形態。

爲此,智譜已在芯片、操作系統 OS 、模型側和應用 app 側,進行了一段時間的探索。

在終端層面,智譜已經和手機廠商、PC 廠商實現深度合作,在 AIPC、智能助手 Agent 等領域有諸多成果。智譜也與高通、英特爾等芯片廠商展開密切協作,聯合調教端側大模型,以發揮最新芯片的性能。

通過端側芯片性能優化和端雲一體架構,Agent 不僅在操作系統 OS 和應用 app 上實現用戶體驗變革,還能將其推廣到各類智能設備上,實現基於大模型的互聯互通。

這種擴展,具體到當下的各種設備,從手機到電腦,再到汽車、眼鏡、家居和各種 edge side 設備,理論上是沒有邊界限制的。

隨着 Agent 技術的發展,AI 與人類的互動模式將不再侷限於簡單的對話,未來的機器將不僅能聽懂人類的指令,還能夠主動思考、決策並執行任務。

2025 年或許會成爲 Agent 技術爆發的關鍵年份,Agent 將進一步改變我們與機器的關係,帶來更加智能化、個性化和高效的生活與工作方式。

*頭圖來源:智譜

本文爲極客公園原創文章,轉載請聯繫極客君微信 geekparkGO

極客一問

一句話操作電腦和手機,

你心動了嗎?

雷軍談初代小米手機:賣多少無所謂,好產品要打磨。

點贊關注極客公園視頻號,

‍ ‍