不靠更復雜的策略,僅憑和大模型訓練對齊,零樣本零經驗單LLM調用
網絡智能體旨在讓一切基於網絡功能的任務自動發生。比如你告訴智能體你的預算,它可以幫你預訂酒店。既擁有海量常識,又能做長期規劃的大語言模型(LLM),自然成爲了智能體常用的基礎模塊。
於是上下文學習示例、任務技巧、多智能體協同、強化學習算法…… 一切適用於通用智能體的想法都搶着在大模型落地。
然而有一個問題始終橫亙在LLM 和智能體之間:基於 LLM 的網絡智能體的行動 / 觀測空間與 LLM 訓練數據的空間相去甚遠。
智能體在充斥着具身行爲的行動空間(如鼠標懸停、鍵盤組合鍵)和遍佈前端功能強化、格式渲染的觀測空間下運作,大語言模型的理解和推理能力能充分發揮作用嗎?尤其是大語言模型的主要訓練任務是文本補全、問答和對齊人類偏好,這一點值得思考。
來自伊利諾伊大學香檳分校和亞馬遜的研究人員選擇和這些問題進一步對話。他們去除了上下文示例、技巧、多智能體系統,僅僅通過行動 / 觀測空間與 LLM 的訓練任務對齊。他們訓練的 AgentOccam 成爲了零樣本基於 LLM 的網絡智能體新 Sota。
這正呼應了奧卡姆剃刀原則:「若無必要,勿增實體」。然而換個思考的角度,AgentOccam 的研究團隊也想發問:構建通用智能體時,在鋪設複雜的系統框架前,是否已經優化了行動 / 觀測空間,讓這些功能模塊達到了最優狀態?
背景及動機
某天你刷着短視頻,看中了主播手中拿着的商品。於是,你興致勃勃地對智能助手說:「我是學生,讓這個老闆送我一張優惠券!」
隨後,智能體申請了你的私人賬號權限、後臺私信商家、繪聲繪色地寫下「我是學生」,發送消息,一套動作無需人爲干預,行雲流水......一切這樣的任務,再也不必動手,都有智能體代勞。
大語言模型是構建智能體的熱門選擇。過去,基於 LLM 的網絡智能體通常專注於讓智能體學會某種應用,比如構建上下文學習樣本、積累任務經驗與技巧、以及多智能體角色扮演等等。然而,在實際交互中,智能體的行動 / 觀測空間與 LLM 的技能點不太匹配,這之間的差距卻少有人研究。
於是,針對如何對齊基於 LLM 的網絡智能體的觀測和行動空間與其訓練期間學到的功能,來自伊利諾伊大學香檳分校和亞馬遜的研究人員們展開了研究。
網絡智能體需要準確地從格式各異、編碼腳本不一的網頁中提取信息,並在網頁上定義的動作(例如,鼠標滑輪滾動、點擊或懸停在按鈕上)中進行選擇。這些網絡觀測和行動空間在 LLM 的預訓練和後續訓練數據中都較爲罕見,這阻礙了 LLM 充分調動潛能,完成任務。
因此,基於不讓智能體策略變得更復雜,而是讓智能體與LLM 更加匹配的想法,由此構建的智能體得名 AgentOccam。
形式化與方法
該團隊通過部分可觀測的馬爾可夫決策過程(POMDP),將網絡交互過程形式化爲:
在 POMDP 中,觀測 o∈O 是智能體從網絡環境接收到的信息,例如 HTML,以及任何指令和提示。行動 a∈A 是網絡環境認可的動作指令。
如上圖所示,AgentOccam 包括三個組成部分:
整個框架通過一套適用於所有標記語言的通用規則來格式化網頁,無需依賴測試基準中的任務相關信息。
網絡智能體的行動空間規定了可以用來與網絡環境交互的有效命令。
研究團隊從智能體常見的失敗中得出總結:想要成功完成任務,需要編輯行動空間來解決兩個關鍵問題:第一,去除 LLM 難以理解且經常誤用的無關行動;第二,當執行任務需要規劃、嘗試多個潛在路徑時,要提高智能體的記憶和規劃能力。
爲此,該團隊提出了對應的解決方法。第一個問題可以通過簡單地移除或合併操作來解決(如上圖中的步驟 1 和 2)。對於第二個問題,過去的研究通常依賴人工制定規則或任務技巧,但這些方法難以泛化。在本研究中,LLM 將自主生成計劃和管理任務流程(如步驟 3 所示)。
AgentOccam 的觀測空間(提示詞)包含了任務概述的通用指令、期望的輸出和可用操作說明,以及關於當前任務目標、智能體過去的交互記錄和最新的觀察信息。
過往互動和當前觀測的部分佔據了最多的字符數。這主要歸因於兩個因素:單頁面的長度和歷史跨度的範圍,這是AgentOccam觀測空間的主要優化對象。
網頁標記語言主要用於前端加載和渲染,往往包含大量格式化字符,顯得冗餘且重複(如上圖步驟 1 所示)。因此,此時的目標是優化這些表示方式,使得單頁內容對 LLMs 更加簡潔易讀。
將觀測歷史作爲輸入,對於執行長程任務至關重要。因爲一些關鍵信息可能不會顯示在當前頁面上。然而,觀測歷史也會顯著增加上下文長度,並增加推理難度以及推斷成本。
爲了解決這個問題,設置僅選擇先前網頁上最重要和相關的信息,這一選擇依據兩個規則,分別基於關鍵節點和規劃樹,見於步驟 2 和 3。
結果
研究團隊在 WebArena 上評估了 AgentOccam 性能。WebArena含有 812 項任務,橫跨網購、社交網站、軟件開發、在線商貿管理、地圖等。
測試對象爲AgentOccam 框架下的GPT-4-Turbo。對比的基線包括:一、WebArena 隨配智能體,二、SteP,前 WebArena 上最優智能體,涵蓋 14 條人類專爲 WebArena 任務編寫的技巧,三、多智能體協同方法 WebPilot;四、總結智能體交互經驗的工作 AWM。
從上表不難看出,AgentOccam 性能優於以往及同期工作。其中,AgentOccam 分別以 9.8(+29.4%)和 5.9(+15.8%)的絕對分數領先往期和同期工作,並且通過其觀測與行動空間的對齊,使得相似的基本網絡智能體的成功率提高了 26.6 點(+161%)。
消融實驗
逐模塊對比行動與觀測空間的對齊對最終結果的貢獻。從下表可以看出,行動空間對齊能使智能體完成更多 click、type 等引導環境變化的動作,觀測空間對齊則減少大模型調用的字符數與智能體完成任務所需的步數。
LLM-as-a-Judge
研究團隊發現,智能體的決策行爲波動性很強。簡而言之,面對一個目標,智能體有一定概率做出正確的行爲決斷,但由於 token 預測的隨機性,它可能做出一些高成本、低迴報的決定。這也導致它在後續步驟中難以糾正之前的錯誤而失敗。
例如,要求智能體在某個最相關的話題下發布帖子,單次 LLM 調用的 AgentOccam 往往輕率地選擇話題,未考慮「最相關」的要求。
爲了解決此類問題,他們引導 AgentOccam 生成單步內所有可能的行動,這系列行動將交付另一個 Judge 智能體(同樣調用 GPT-4-turbo)決斷,做出最大化回報的選擇。
與複合策略結合使用
複合策略中,與任務相關的經驗可以提升智能體性能。同時,不因爲加入了更多背景知識擾亂決策,不會影響泛化性,能夠糾正錯誤行爲模式。
由於行爲 / 觀測空間對齊和複合策略方法正交,因此能結合利用。該團隊試驗將 AgentOccam 與 1)SteP 和 2)上述的 LLM-as-a-Judge 方法聯合使用。
對於和前 SOTA 方法 SteP 聯合,由於它引入人類編寫的 WebArena 任務攻略,在經驗密集型任務,如購物網頁任務中,人類撰寫的引導性經驗大幅提升任務成功率。
而在常識泛化密集型任務,如社交網頁發帖任務中,不相關知識出現會錯誤擾亂智能體決策。對於 LLM-as-a-Judge 方法,Judge 角色的引入不影響智能體的泛化性,同時糾正了智能體倉促決策的錯誤行爲模式,在 WebArena 上進一步提升 2.6 的絕對分數。