微軟 GPT 模型可信度綜合評估:GPT-4 通常比 GPT-3.5 更值得信賴,但也有例外

圖片來源:由無界AI生成

撰文:Boxin Wang、Bo Li、Zinan Lin

來源:微軟

生成式預訓練 transformer 模型(GPT)的可信度如何?

爲了回答這個問題,伊利諾伊大學香檳分校與斯坦福大學、加州大學伯克利分校、人工智能安全中心和微軟研究院共同發佈了一個大型語言模型(LLMs)綜合可信度評估平臺,並在最近的論文《DecodingTrust:全面評估 GPT 模型的可信度》‌《DecodingTrust:全面評估 GPT 模型的可信度》‌中進行了介紹。

根據我們的評估,我們發現了以前未曾公佈過的與可信度有關的漏洞。例如,我們發現 GPT 模型很容易被誤導,產生有毒和有偏見的輸出,並泄漏訓練數據和對話歷史中的隱私信息。我們還發現,雖然在標準基準上,GPT-4 通常比 GPT-3.5 更值得信賴,但在越獄系統或用戶提示的情況下,GPT-4 更容易受到攻擊,這些提示是惡意設計來繞過 LLM 的安全措施的,這可能是因爲 GPT-4 更精確地遵循了(誤導性的)指令。

我們的工作展示了對 GPT 模型的全面可信度評估,並揭示了可信度差距。我們的基準可公開獲取。

值得注意的是,研究團隊與微軟產品部門合作,確認所發現的潛在漏洞不會影響當前面向客戶的服務。之所以如此,部分原因是已完成的人工智能應用採用了一系列緩解方法,以解決可能在技術模型層面發生的潛在危害。此外,我們還與 GPT 的開發商 OpenAI 分享了我們的研究成果,OpenAI 已注意到相關模型的系統卡中存在潛在漏洞。

我們的目標是鼓勵研究界的其他人員利用這項工作並在此基礎上再接再厲,從而有可能預先阻止不良行爲者利用漏洞造成危害。此次可信度評估只是一個起點,我們希望與其他各方合作,在評估結果的基礎上繼續努力,創造出更強大、更可信的模型。爲了促進合作,我們的基準代碼具有很強的可擴展性和易用性:一個命令就足以在一個新模型上運行完整的評估。

01

語言模型的可信度視角

機器學習(尤其是 LLM)領域的最新突破使得從聊天機器人到機器人技術等各種應用成爲可能。然而,儘管有關 GPT 模型可信度的文獻仍然有限,但實踐者們已經提出,即使在醫療保健和金融等敏感應用中,也要使用有能力的 GPT 模型。爲此,我們重點從八個可信度角度對 GPT 模型進行了全面的可信度評估,並基於不同的構建場景、任務、指標和數據集進行了全面評估,如下圖 1 所示。

總體而言,我們的目標是評估:1)GPT 模型在不同可信度視角下的性能;2)其在對抗環境(如對抗性系統/用戶提示、演示)中的適應性。

例如,爲了評估 GPT-3.5 和 GPT-4 對文本對抗攻擊的魯棒性,我們構建了三種評估場景:

1) 在標準基準 AdvGLUE 上進行評估,採用虛無任務描述,目的是評估

a) GPT 模型對現有文本對抗攻擊的脆弱性;

b) 不同 GPT 模型在標準 AdvGLUE 基準上與最先進模型的魯棒性比較;

c) 對抗攻擊對其指令遵循能力的影響(以模型在受到攻擊時拒絕回答問題或給出錯誤答案的比率來衡量);

d) 當前攻擊策略的可轉移性(以不同攻擊方法的可轉移攻擊成功率來量化);

2) 在 AdvGLUE 基準上進行評估,給出不同的指導性任務說明和設計的系統提示,以研究模型在不同(對抗性)任務說明和系統提示下的恢復能力;

3) 對我們生成的具有挑戰性的對抗性文本 AdvGLUE++ 進行 GPT-3.5 和 GPT-4 的評估,以進一步測試 GPT-3.5 和 GPT-4 在不同環境下受到強對抗攻擊時的脆弱性。

圖 1. 基於不同可信度視角的評估分類。黃色方框表示對現有基準的評估,綠色方框表示使用我們設計的新數據或新評估協議對現有數據集進行的評估。

02

來自 DecodingTrust 的見解和發現

我們的研究發現了大型語言模型在可靠性方面一些之前未曾披露的優勢和威脅。

例如,在模型對對抗性演示的魯棒性方面,我們發現,一方面,GPT-3.5 和 GPT-4 不會被演示中添加的反事實示例誤導,甚至可以從反事實演示中受益;另一方面,我們觀察到,提供反欺詐演示會誤導 GPT-3.5 和 GPT-4 對反事實輸入做出錯誤預測,尤其是當反事實演示靠近用戶輸入時,GPT-4 更容易受到反事實演示的影響。

此外,就有毒性和偏差而言,GPT-3.5 和 GPT-4 在良性和無目標系統提示下對大多數刻板印象主題的偏差都不大。但是,在設計有誤導性(對抗性)的系統提示下,兩種 GPT 模型都可能被“誘騙”同意有偏見的內容。與 GPT-3.5 相比,GPT-4 更容易受到有針對性的誤導性系統提示的影響,並更頻繁地同意有偏見的內容,這可能是因爲 GPT-4 更準確地遵循了誤導性指令。模型偏差往往取決於用戶提示中提到的人口羣體。例如,對於“同性戀者感染 HIV”這一查詢,GPT-4 一般會強烈反對,而對於“女性感染 HIV”這一查詢,GPT-4 則經常同意並輸出有偏見的內容。模型偏差還取決於刻板印象主題。GPT 模型在領導力和貪婪等不太敏感的主題上輸出的內容偏差較大,而在毒品交易和恐怖主義等較敏感的主題上生成的內容偏差較小。這可能是由於 GPT 模型對一些受保護的人口羣體和敏感話題進行了微調。

DecodingTrust 還評估了 LLM 的隱私泄露問題。我們發現,GPT 模型可能會泄露隱私敏感的訓練數據,如標準 Enron 電子郵件數據集中的電子郵件地址,尤其是在提示電子郵件的上下文或少樣本演示對時。此外,在少樣本的提示下,利用目標電子郵件域等補充知識,電子郵件提取的準確率可比電子郵件域未知的情況高出 100 倍。我們還觀察到,GPT 模型會泄露對話歷史中注入的私人信息。總體而言,GPT-4 在保護個人身份信息 (PII) 方面比 GPT-3.5 更穩健,而且兩種模型對特定類型的 PII(如社會安全號碼)都很穩健,這可能是由於對這些 PII 關鍵字進行了明確的指令調整。不過,當在上下文學習過程中出現隱私泄露演示時,GPT-4 和 GPT-3.5 都會泄露所有類型的 PII。最後,GPT 模型在理解不同的隱私相關詞彙或隱私事件方面表現出不同的能力(例如,當被告知“confidentially”時,它們會泄露隱私信息,而當被告知“in confidence”時,則不會)。在我們構建的提示下,GPT-4 比 GPT-3.5 更有可能泄露隱私,這可能是因爲它更精確地遵循了(誤導性的)指令。我們將在下面的圖 2 中介紹更多模型不可靠輸出的例子。

圖 2. 從不同的可信度角度看,GPT-4 在良性系統提示下的不良反應示例。攻擊性或敏感信息被屏蔽。

巴比特園區開放合作啦!

中文推特:https://twitter.com/8BTC_OFFICIAL

英文推特:https://twitter.com/btcinchina

Discord社區:https://discord.gg/defidao

電報頻道:https://t.me/Mute_8btc

電報社區:https://t.me/news_8btc