真實世界複雜任務,全新基準GTA助力大模型工具調用能力評測

本篇論文已被 NeurIPS 2024 Dataset & Benchmark Track 接收,作者來自上海交通大學 IWIN 計算智能團隊和上海人工智能實驗室。其中,第一作者王驥澤是上海交通大學自動化系一年級博士生,研究方向涉及大模型智能體、自然語言處理。

利用語言模型調用工具,是實現通用目標智能體(general-purpose agents)的重要途徑,對語言模型的工具調用能力提出了挑戰。然而,現有的工具評測和真實世界場景存在很大差距,侷限性主要體現在以下幾個方面:

爲了突破這些侷限,來自上海交通大學與上海人工智能實驗室的研究團隊提出了 GTA(a benchmark for General Tool Agents),一個用於評估通用工具智能體的全新基準,主要特性包括:

GTA 通過設計真實世界場景的用戶問題、真實部署的工具和多模態輸入,建立了一個全面、細粒度的評估框架,能夠有效評估大語言模型在複雜真實場景下的工具使用能力。

GTA 中的用戶問題與現有工具評測的用戶問題對比如下表所示。ToolBench 和 m&m's 中的問題明顯地包含了需要調用的工具(藍色字)以及步驟(紅色字)。APIBench 中的問題較爲簡單,僅包含單個步驟。相較而言,GTA 的問題既是步驟隱含的,也是工具隱含的,並且是基於現實世界場景的、對人類有幫助的任務。

GTA 的評估結果表明,GPT-4 在面對真實世界問題時僅完成不到 50% 的任務,而大多數模型完成率低於 25%。揭示了現有模型在處理真實世界問題時面臨的工具使用瓶頸,爲未來的通用工具智能體提供了改進方向。

設計準則

GTA 主要有三個核心特性,來評估大語言模型在真實世界場景下的工具使用能力:

數據集構建

數據集構建流程包含兩個步驟:

1. 問題構建。專家設計問題樣例和標註文檔,標註人員按照標註文檔中的指示,進行頭腦風暴,基於問題樣例設計更多的問題,最終得到問題集。

2. 答案構建。標註人員手動調用部署好的工具,確保每個問題都可以用提供的工具解決。然後,標註人員根據工具調用過程和工具返回結果,對每個問題的工具調用鏈進行標註。

爲了讓評測集更全面地覆蓋真實場景,研究團隊採用了多樣化的擴展策略,包括場景多樣化、工具組合多樣化等。最終得到的評測集包含多圖推理、圖表分析、編程、視覺交互、網頁瀏覽、數學、創意藝術等多種場景,確保了評估任務的全面性和多樣性。

問題示例

最終共得到 229 個真實場景下的任務,所有問題都隱含工具和步驟,並且包含多模態上下文輸入。這些任務基於現實世界場景,目標明確且易於理解,完成任務對人類有幫助,但對於 AI 助手來說較爲複雜。JSON 格式的數據示例可以在 Hugging Face 上找到。

模型評測

GTA 在兩種模式下評估語言模型:

評測結果表明,目前的大語言模型在複雜真實場景任務的工具調用上仍存在明顯的侷限性。GPT-4 在 GTA 上僅能完成 46.59% 的任務,而大多數模型僅能完成不到 25% 的任務。

研究團隊發現,目前語言模型在完成 GTA 任務的關鍵瓶頸是參數傳遞準確率。研究人員計算了各指標與最終結果準確率 AnsAcc 之間的皮爾森相關係數,發現 ArgAcc 的相關係數最高,說明參數傳遞是目前大多數模型的瓶頸。例如,Llama-3-70B-Chat 的 InstAcc,ToolAcc,SummAcc 都比 Qwen1.5-14B-Chat 高,但 ArgAcc 比 Qwen1.5-14B-Chat 低,導致最終結果準確率更低。

錯因分析

爲了進一步理解模型在參數傳遞上的失誤原因,研究團隊選擇兩個典型模型 GPT-4-1106-Preview 和 Llama-3-8B-Instruct,對它們進行了深入的錯誤原因分析,如下表所示。

分析顯示,GPT-4 與 Llama-3 的錯誤分佈存在顯著差異。GPT-4 模型傾向於生成 “無動作”(No Action)的響應,在 38.7% 的錯誤中,GPT-4 嘗試與用戶互動,錯誤地認爲問題表述不夠明確,要求提供額外信息。而在 50% 的錯誤中,模型僅生成內部思考過程,而未採取實際行動。

而 Llama-3 的大部分錯誤來自於格式錯誤,特別是調用工具或生成最終答案時。45.4% 的錯誤是由於參數未能遵循合法的 JSON 格式。此外,在 16.5% 的情況下,Llama-3 試圖同時調用多個工具,這並不被智能體系統支持。19.6% 的錯誤則源於生成冗餘信息,導致參數解析不正確。

總結

本文構建了面向複雜真實場景的通用工具智能體(General Tool Agents)評測基準: