擴散模型也能搞定社交信息推薦,港大數據智能實驗室提出RecDiff
用擴散模型搞社交信息推薦,怎麼解決數據噪聲難題?現有的一些自監督學習方法效果還是有限。
針對此,港大數據智能實驗室提出了新項目RecDiff。
RecDiff是一種全新的基於擴散模型的推薦框架,能夠更好地捕捉用戶的潛在偏好和興趣,從而生成個性化、貼合用戶需求的推薦內容。
具體而言,該框架採用隱空間擴散機制,有效清除用戶表示中的噪聲,無論是壓縮還是密集的嵌入空間。
RecDiff通過多步擴散和噪聲消除過程,展現出在不同噪聲水平下均能準確識別和去除噪聲的能力。
此外,擴散模塊針對下游推薦任務進行了優化,以最大化其對推薦過程的增強效果。
通過廣泛的實驗評估,RecDiff在提高推薦準確性、訓練效率以及去噪效果方面均表現出色。
基於圖協同過濾的編碼器
受到簡化圖神經網絡(GNN)成功應用的啓發,圖那對在社交去噪框架中採用了輕量級圖卷積網絡(GCN)作爲圖編碼器。
圖關係去噪模型
隱空間的社交擴散
汲取擴散模型在各個領域成功生成無噪聲數據的精髓,研究團隊的RecDiff框架集成了一種創新的擴散機制,用以產生淨化後的社交關係數據。
面對社交圖數據固有的稀疏性挑戰,研究團隊設計了一種策略:
在潛在空間而非直接在圖數據空間中,通過正向與反向的擴散步驟,實現社交信息的高效和精準擴散。
如上圖所示,該隱空間社交擴散過程可通過以下公式進行精煉表達:
正向和反向擴散
擴散損失函數
推斷過程
預測和優化
利用隱空間社交擴散模塊,研究者將去噪後的社交關係與編碼後的交互範式結合起來,以獲得預測的最終嵌入。
具體方法如下:
模型複雜性分析
本節全面分析了研究者的 RecDiff 與社會擴散模塊在時間和空間上的複雜性。
時間複雜性。
空間複雜性。
實驗
模型整體性能比較
團隊比較了團隊的模型與基線模型的整體推薦性能。
top-20和不同top-N的驗證結果列於下表:
團隊的RecDiff始終優於最先進的基線,展示了卓越的推薦準確性。
T 檢驗證實了團隊的結果在所有數據集和評估指標上的統計意義。
在不同的top-N設置中,RecDiff的性能優勢保持一致。團隊的基於擴散的社交關係去噪模塊可以去除無關信息和虛假信息,從而使RecDiff有效地挖掘有價值的社交關係以增強推薦效果。
一些社交推薦方法如(DGRec、DiffNet 和 GraphRec)的表現比與社交信息無關的方法NGCF差。這表明,由於虛假或不相關的成分,社交關係會對用戶-商品關係建模產生負面影響。
團隊的RecDiff框架通過對社交信息去噪來解決這個問題,其性能始終優於基線模型 GDMSR。它能有效過濾社交關係中的噪音,識別有意義和有影響力的社交關係,準確編碼用戶偏好,從而實現精準推薦。
包含自監督學習(SSL)的基準方法在推薦性能上一直優於其他方法。MHCN、KCGN和SMIN等方法利用了局部-全局互信息最大化技術的變體,而 DSL 則採用了預測對齊自監督任務的方法。
這凸顯了輔助監督信號在解決社交推薦中的數據缺陷難題(如噪聲和稀疏性)方面的積極影響。
相比之下,團隊的模型引入了一種基於擴散模型的多步驟去噪方法,在不同的噪聲水平下生成更多的監督信號。這種強大的去噪能力帶來了超越基線的卓越推薦性能。
消融實驗
團隊將通過一項消融研究來探討RecDiff框架中不同子模塊的影響。團隊評估了通過刪除或替換基本模塊而獲得的幾個變體的性能。
超參數的影響
噪聲對模型的影響
訓練效率研究
與基線模型(MHCN、SMIN 和 KCGN)相比,團隊在 Ciao 和 Yelp 數據集上優化 RecDiff 的效率。
RecDiff在訓練和測試中都表現出了明顯的效率優勢。對於每個訓練歷時,團隊都評估並記錄了測試集的性能,以分析改進情況。
對 RecDiff 框架抗噪能力的進一步探索
團隊評估了 RecDiff 在數據噪聲情況下的魯棒性,方法是在用戶-用戶圖中引入隨機虛假邊來替代不同比例的真實社交連接。
然後使用被破壞的圖對模型進行重新訓練,並在真實測試集上進行評估。
具體來說,團隊分析了用噪聲信號替換 0%、20% 和 50% 的社交關係的效果。
比較 RecDiff 與 MHCN 和 DiffNet 的性能,上圖(a)和(b)中的結果顯示了原始評估結果,而(c)則說明了 NDCG 的相對性能變化。
基於這些結果,團隊可以得出以下結論:
團隊探討RecDiff在特定用戶/商品案例中的去噪效果。
圖中展示了四個子圖案例,突出了去噪的必要性。
基線方法KCGN和MHCN無法識別錯誤的社交連接,導致這些錯誤社交鄰居的相似性得分很高。
相比之下,RecDiff能有效識別這些噪聲實例,顯著降低相似性得分,併爲虛假連接的用戶生成不同的嵌入。
這些發現證明了 RecDiff 在不同噪聲情況下的出色消噪能力。
圖中還介紹了另外兩種情況,即用戶對共享的交互商品在類別上與用戶交互的其他商品存在顯著差異。
這些孤立的交互很可能存在噪聲的商品,從而使相關的社交鏈接也變得有噪聲。
RecDiff 再次成功地識別並消除了這些噪音,爲虛假的社交鄰居分配了較低的相似性分數並生成了更獨特的嵌入。
這些案例進一步體現了 RecDiff 方法的出色去噪效果。
項目團隊提出了一種名爲RecDiff的新型擴散模型,旨在通過消除用戶之間噪音社交鏈接來增強社會化推薦系統。
RecDiff採用多步噪聲傳播和消除的訓練方式,在隱藏空間中運行,利用編碼的用戶表徵,實現了高效和簡單的設計。
通過在不同擴散步驟下對模型進行訓練,RecDiff 展現出了出色的噪聲處理能力,能夠有效應對各種類型的噪聲影響。
研究圖那對在真實世界數據集上評估了模型的性能,結果顯示相比現有方法,RecDiff在推薦準確率方面取得了顯著提升。
未來,RecDiff團隊計劃將RecDiff拓展到更多推薦場景中,並結合多模態信息,進一步探索該模型的潛力和應用價值。
論文:http://github.com/HKUDS/RecDiff源代碼:https://github.com/HKUDS/RecDiff港大數據智能實驗室:https://sites.google.com/view/chaoh