o1帶火的CoT到底行不行?新論文引發了論戰

機器之心報道

編輯:Panda

OpenAI ο1 的誕生極大地提升了人們對 LLM 推理能力和思維鏈(CoT)的興趣。一時之間,似乎思維鏈很快就會成爲所有 LLM 的標配,但思維鏈並非萬能,就連 OpenAI 自己也提到 o1 在某些任務上的表現並不比 GPT-4o 強,尤其是以語言爲中心的任務。

近日,一篇來自德克薩斯大學奧斯汀分校、約翰·霍普金斯大學和普林斯頓大學的論文引發了熱議,其模仿莎士比亞《哈姆雷特》的臺詞提出了一個對 AI 研究者和實踐者來說至關重要的問題:To CoT or not to CoT?

論文標題:To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

論文地址:https://arxiv.org/pdf/2409.12183

GitHub 庫:https://github.com/Zayne-sprague/To-CoT-or-not-to-CoT (待更新)

簡單來說,這篇論文研究了思維鏈(CoT)技術幫助 LLM 解決各式問題的有效性。

首先,該團隊分析了近期的相關文獻,比較了 CoT 與直接回答方法(DA)的性能表現。

之後,他們使用 20 個數據集和 14 個當今主流的 LLM 在零樣本提示和少樣本提示設置下進行了實驗。

圖 1 簡單總結了這兩項研究的結果。

結果表明,CoT 能極大助益 LLM 解決涉及數學和符號推理的任務,至於其它任務,CoT 的效果並不顯著甚至可能有損模型性能。

另一個發現是 CoT 能幫助提升執行計算和符號操作的執行步驟,但卻比不上能使用外部工具的 LLM。這是什麼意思呢?該團隊發現,相比於使用直接回答方法,使用 CoT 時 LLM 能更好地生成可執行的形式化方案規劃;但如果使用語言模型來生成方案規劃,然後再使用外部符號解算器來求解該規劃,性能表現還會更好一些。

這樣的結果忽然讓 CoT 的處境變得有點尷尬:在 CoT 有用的問題上,我們能使用外部工具做得更好;在另一些問題上,CoT 的能力又有限。

因此,該團隊認爲:「第一,很多廣泛使用 CoT 解決的問題其實根本沒必要使用 CoT:現在已有更高效方法,能以遠遠更低的推理成本取得相近的性能。第二,基於提示詞的 CoT 不夠用了,我們看到人們迫切地需要更復雜精妙的方法,比如基於搜索、交互式智能體或針對 CoT 進行過更好微調的模型的方法。」

文獻研究

首先,該團隊調研了近期的相關文獻,比較了使用或不用 CoT 的提示詞的效果。

具體指標和流程這裡就不多介紹了。總之,他們從 110 篇論文(35 篇 ICLR 論文和 75 篇 NAACL 和 EACL 論文)中整理出了 1218 個實驗結果,涉及 264 個數據集。之後,他們將這些相關任務分成了 14 類,表 1 展示了其中幾類的定義。

文獻研究結果

圖 2 展示了 CoT 爲不同類型的任務帶來的性能增量,即使用 CoT 提示法取得的性能減去使用直接回答法取得的性能。

可以看到,在這些任務上,CoT 平均僅能帶來 3.75% 的提升。其中 CoT 帶來增益最大的三類任務分別是:符號推理、數學、邏輯推理。在這三個任務上,CoT 實現的平均性能爲 56.9,而不使用 CoT 的表現爲 45.5。而在其它任務上表現較好的個例(圖中用黃色高亮標記出了 10 個),也或多或少與這三個任務有關。

但在其它任務上,CoT 的表現就沒什麼亮點了,平均成績僅有 56.8,而就算不使用 CoT,直接回答法也能得到 56.1。該團隊認爲,這一點點提升甚至不能算作是提升,畢竟 CoT 的計算成本明顯更高。

實驗研究

除了研究近期文獻,該團隊也執行了實驗,其中涉及到 20 個數據集和 14 個模型,並測試了零樣本提示和少樣本提示兩種設置,見表 2。

實驗研究結果

下面我們通過對一系列問題的解答來了解實驗結果。

1.在哪些任務上,零樣本 CoT 優於直接提示?

圖 3 左展示了 CoT 在五個推理類別(見圖 1 右)上帶來的平均性能增益;圖 3 右則是 CoT 在每個數據集上帶來的平均性能增益。

可以看到,在非符號推理類別和數據集上,特別是那些主要包含常識(CSQA、PIQA、SiQA)、語言理解(WinoGrande)和閱讀理解(AGI LSAT、ARC-Easy、ARC-Challenge)的問題上,零樣本 CoT 和零樣本直接回答的性能幾乎沒有區別。儘管這些數據集涉及推理,但 CoT 並沒有帶來增益。

相比之下,數學和符號類別(以及符號和半符號數據集)獲得了更大的提升。CoT 在 MATH 和 GSM8k 上帶來的增益分別高達 41.6% 和 66.9%。在 ContextHub 和 MuSR Murder Mysteries 等半符號數據集上,CoT 表現出了中等程度的增益。這些數據集需要應用邏輯規則才能得出答案,例如從簡單的自然語言(ContextHub)或更復雜的常識性陳述(MuSR Murder Mysteries)中解析得到的一階邏輯。

在少樣本設置下得到的實驗結果類似。

2.回答格式是否會影響 CoT 的有用性?

除了數學之外,許多常用的數據集都是多項選擇題。該團隊指出,對於兩個非多項選擇題的數據集(MuSiQue 和 BiGGen Bench,並且它們需要不同層級的非符號推理才能給出回答),CoT 的表現與直接回答相近。

因此,可以說回答格式對 CoT 的有用性的影響不大。並且,該團隊還表示,預先針對正確響應進行規劃或推理甚至可能妨礙 LLM 自由響應的能力。

3.CoT 在知識、軟推理和常識推理方面帶來的提升是否顯著?

在 13 個涉及知識、軟推理和常識推理的數據集上,該團隊測試了 CoT 的表現,結果發現:答案是否定的,但 MMLU、StrategyQA 和 MuSR 是例外。在這三個數據集上,CoT 可以帶來比較顯著的增益。

詳細研究 MMLU 和 MMLU Pro

MMLU 和 MMLU Pro 是兩個範圍廣泛的數據集,因此很難簡單地描述它們的特徵。該團隊詳細研究了 CoT 在 MMLU 中每個類別上的性能表現,以瞭解 CoT 在不同領域的性能差異。

表 3 給出了 CoT 能爲 Llama 3.1 8B 和 70B 在 MMLU 和 MMLU Pro 上帶來最顯著提升的三個類別。

可以看到,其中一些與數學有關,這不出人意料,但也有的屬於「商業」等類別。不過更進一步研究發現,這些類別通常也涉及數學(比如資產計算等)。

因此,該團隊對 MMLU 進行了更細粒度的研究(實例級)。他們發現問題或生成的響應中是否包含 = 這個符號非常關鍵,可以說是「符號推理的一個強有力的標誌」。結果見圖 4。

可以看到,當有 = 時,CoT 在 MMLU 和 MMLU Pro 上的表現明顯會更好。該團隊認爲這是因爲 = 通常出現在數學問題中。所以歸根結底,CoT 依然是能在數學問題上爲 MMLU 和 MMLU Pro 帶來助益。

CoT 在形式推理方面的優勢和劣勢

下面來解釋 CoT 有助於符號推理任務的原因。很多符號和半符號推理任務都可以分成兩個階段:規劃與執行。該團隊也基於此思路進行了分析。

設置 1 和 2:少樣本直接回答和 CoT:使用之前的少樣本直接回答和 CoT 作爲基線。圖 5 給出了在 GSM8K 上每個設置的示例。

設置 3 和 4:規劃 + 直接求解器以及計劃 + CoT 求解器。

設置 5:規劃+工具求解器。

評估結果

圖 6 展示了選出的代表性模型的結果。

可以看到,對於許多數據集和模型而言,僅僅有規劃不足以帶來明顯的性能增益。與直接回答相比,CoT 或規劃+ CoT 求解器是實現強大性能所必需的。使用其中一種方法跟蹤執行情況可帶來最大的準確性優勢,尤其是對於含有大量數學內容的數據集。

儘管 CoT 或規劃+ CoT 求解器比直接回答和規劃+直接回答更強,但規劃+工具求解器在大多數情況下還要更優。也就是說,很多時候,使用 CoT 還不如讓 LLM 使用工具。