幻覺不一定有害,新框架用AI的「幻覺」優化圖像分割技術

作者胡健,是倫敦大學瑪麗女王學院的博士生,導師是龔少剛教授,這篇文章是在龔少剛教授和嚴駿馳教授的指導下完成的。

在人工智能領域,大型預訓練模型(如 GPT 和 LLaVA)的 “幻覺” 現象常被視爲一個難以克服的挑戰,尤其是在執行精確任務如圖像分割時。然而,最新發表於 NeurIPS 2024 的研究《Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation》提出了一個有趣的觀點:這些幻覺實際上可以被轉化爲有用的信息源,從而減少對手動提示的依賴。

這項研究由來自倫敦大學瑪麗女王學院和上海交通大學的研究團隊進行的,他們開發了名爲 ProMaC 的框架,該框架創新性地利用了大模型在預訓練過程中產生的幻覺。不僅能夠準確識別圖像中的目標對象,還能判斷這些對象的具體位置和形狀,這在僞裝動物檢測或醫學圖像分割等複雜任務中表現尤爲出色。

研究動機

該研究專注於一種具有挑戰性的任務:通用提示分割任務(task-generic promptable segmentation setting)。在這個框架下,該研究只提供一個任務內的通用提示來描述整個任務,而不會具體指明每張圖片中需要分割的具體物體。例如,在僞裝動物分割任務中,該研究僅提供 “camouflaged animal” 這樣的任務描述,而不會告知不同圖片中具體的動物名稱。模型需要完成兩項主要任務:首先,根據圖片內容有效推理出具體需要分割的目標物體;其次,準確確定目標物體的具體位置和分割的形狀。

儘管如 SAM 這類大型分割模型的存在,能夠在提供較爲精確的位置描述時有效地進行物體分割,但在僞裝樣本分割或醫學圖像分割等複雜任務中,獲取這種精確描述並不容易。以往的研究,如 GenSAM [1],提出利用 LLaVA/BLIP2 這類多模態大模型(MLLMs)來推理出特定樣本的分割提示,以指導分割過程。然而,這種方法在處理像僞裝樣本分割這樣的場景時,往往因爲目標共現偏差(object co-occasion bias)存在而導致問題。例如,在一個只有草原的圖像中,如果訓練數據中獅子通常與草原共現,LLaVA 可能會偏向於預測草原中存在僞裝的獅子,即使圖中實際上沒有獅子。這種假設的偏好在僞裝動物分割任務中尤其問題嚴重,因爲它可能導致模型錯誤地識別出不存在的僞裝動物。

圖 1. co-occurrence prior 導致的 hallucination

但是這樣的現象就一定是壞事嗎?其實並不盡然。考慮到獵豹確實常出沒於此類草原,儘管在特定圖片中它們可能並未出現。這種所謂的 “幻覺”,其實是模型根據大規模數據訓練得出的經驗性常識。雖然這種推斷與當前的例子不符,但它確實反映了現實世界中的常態。更進一步地說,這種由幻覺帶來的常識可能有助於更深入地分析圖片內容,發現與圖片相關但不顯而易見的信息。如果這些信息得到驗證,它們可能有助於更有效地執行下游任務。

圖 2. ProMaC 整體架構

實現方法

如圖 2 所示,該研究提出了一個循環優化的 ProMaC 框架,它包括兩部分:利用幻覺來從任務通用提示中推理出樣本特有提示的 multi-scale chain of thought prompting 模塊和將生成的掩碼與任務語義相對齊的 mask semantic alignment 模塊。前者推斷出較爲準確的樣本特有提示來引導 SAM 進行分割,後者則將生成的掩碼與任務語義進行對齊,對齊後的掩碼又可以作爲提示反向作用於第一個模塊來驗證利用幻覺得到的信息。通過循環優化來逐漸獲得準確的掩碼。

具體地,ProMaC框架如圖 3 所示:

圖 3. ProMaC 流程圖

多尺度思維鏈提示

它主要完成兩個任務:收集儘可能多的任務相關候選知識,並生成準確的樣本特有提示。爲此,該研究將輸入圖像切割成不同尺度的圖像塊,每個圖像塊中任務相關對象的不同可見性水平激發了 MLLM 的幻覺。這促使模型在各個圖像塊中通過先驗知識探索圖像數據與相關任務之間的聯繫,進而預測潛在的邊界框和目標物體

但其中只有正確的信息才值得保留。爲此,該研究引入了視覺對比推理(Visual Contrastive Reasoning)模塊。該模塊首先使用圖像編輯技術創建對比圖像,這些對比圖像通過去除上一次迭代中識別到的掩碼部分,生成只包含與任務無關背景的圖片。接着,通過將原圖的輸出預測值與背景圖片的輸出預測值相減,可以消除由物體共存偏差帶來的負面影響,從而確認真正有效的樣本特有提示。具體表達式如下:

掩碼語義對齊

獲得的樣本特有提示將被送入掩碼生成器來產生準確的掩碼。首先,樣本特有提示被輸入到分割模塊(SAM)以生成一個掩碼。然而,SAM 缺乏語義理解能力,它主要依據給定的提示及其周圍的紋理來識別可能要分割的物體。因此,該研究採用了 CLIP 來評估相同提示在不同圖像塊上生成的各個掩碼與目標物體之間的語義相似性。這種方法有助於確保分割結果的準確性和相關性:

歸一化後的相似度用作權重,以加權合成最終的掩碼。這個掩碼在下一次迭代中有助於生成更優質的背景圖片,進而引導更有效的提示生成。這能充分利用幻覺來提取圖片中與任務相關的信息,驗證後生成更準確的提示。這樣,更好的提示又能改善掩碼的質量,形成一個互相促進的提升過程。

該研究在具有挑戰性的任務 (e.g., 僞裝動物檢測,醫學圖像檢測) 上進行了實驗:

圖 4. 僞裝樣本檢測實驗結果

圖 5. 醫學圖像實驗結果

圖 6. 可視化案例

PromaC 提供了一個新視角,即幻覺不一定就是有害的,如果能加以利用,也是能爲下游任務提供幫助。

[1] Hu J, Lin J, Gong S, et al. Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects [C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38 (11): 12511-12518.