清華大學劉洋:聯邦學習開拓者,拓展縱向聯邦學習與聯邦遷移學習
2016 年,谷歌最早提出了聯邦學習(Federated Learning),通過讓用戶數據不出本地,而在設備本地進行模型訓練。
目的是保障大數據交換時的信息安全、保護終端數據和個人數據隱私以及合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。
由於其將訓練數據的“橫向劃分”,在後來的分類中被稱爲橫向聯邦學習。
在那之後的三、四年時間裡,一股聯邦學習研究熱潮被掀起,該領域每年的論文數量從個位數上升至上百篇,聯邦學習邁入加速發展的階段。
清華大學的研究方向是機器學習、聯邦學習等。她是縱向聯邦學習、聯邦遷移學習等算法框架和“廣義”聯邦機器學習概念的主要提出者之一,在國際上率先提出了包括線性迴歸模型、樹模型、神經網絡模型等多種機器學習模型在加密分佈式場景下的訓練算法,兩次獲得國際人工智能領域 AAAI 工業創新應用獎。
▲圖 | 《麻省理工科技評論》中國 2022 年隱私計算科技創新人物入選者
此外,還參與共同創建國際最早、最大的工業聯邦學習開源平臺(FATE)和生態體系(FedAI.org),並共同編寫了世界上首個聯邦學習的 IEEE 國際標準 P3652.1。
其學術成果被 Openmined PySyft、百度 PaddleFL、字節跳動 Fedlearner、FedML 和 微衆銀行 FATE 等多個國際主流隱私計算和聯邦學習開源項目實現,並應用於智慧金融、智慧醫療、智慧營銷等領域。
以問題爲驅動,以產業化爲目標
認爲當時谷歌提出的橫向聯邦學習並沒能解決企業之間數據孤島問題。而在 AI 持續落地的行業背景下,尤其是小企業缺少數據的支持,產業需要解決如何讓小企業享受到大企業的數據價值,即保障數據、隱私安全的前提下破除孤島問題。
2018 年,踏上了離開美國的飛機,回到國內加入微衆銀行,並在之後的三年裡曾擔任微衆銀行資深研究員、AI 部門聯邦學習研究團隊負責人。在此之前,她曾在美國多家科技公司從事大數據方向工作。
“智能產業需要以數據爲驅動,而國內在數據資源和場景方面是最多的,相應的機會也就更多。”在做出回國決定時,豐富的技術落地場景是重要因素之一。
表示,不論是在學界還是業界,她研究風格從來都是以問題爲驅動、以產業化爲目標。
在微衆銀行時期,帶領團隊推進關於聯邦學習,AI 隱私和信任的研究和應用示範,在金融,醫療保健和計算機視覺等領域落地首個聯邦學習應用系統。
期間,與微衆銀行首席人工智能官首先提出了“廣義”聯邦學習概念與分類。
在學界的影響方面,相關論文在 ACM TIST 發表以來被下載超過 2 萬次,引用近 2 千次,僅用 2 年時間成爲 ACM TIST 史上最受歡迎前 2 位文章,也是聯邦學習領域全球高引文章。
▲圖 | 來源:
帶領研究團隊率先提出縱向聯邦學習和聯邦遷移學習等算法框架,以及多種機器學習模型在加密分佈式場景下的訓練算法。
如今這兩種算法已經成爲業界和學界主流的框架,獲得隱私計算領域相關 30 餘件授權專利,超過 130 件專利申請,並在 JMLR、AAAI、IJCAI、USENIX 等人工智能領域重要國際期刊和會議發表學術論文 40 餘篇,Google Scholar 引用數超過 7000 次。
在的帶領下,微衆銀行提出了一種主要針對於縱向聯邦學習的聯邦學習系統架構:首先在加密空間上對樣本進行對齊,識別出參與聯邦學習的各個相同的用戶;在識別出這些用戶後,通過協作者對用戶數據進行加密模型訓練。加密訓練包含以下步驟:公鑰的分發與收集、加密過程中中間結果的交互、加密彙總梯度與損失、更新雙方模型。
在訓練過程中,傳遞的並不是數據本身或數據的加密形式,而是運算過程中產生的中間結果的加密形式。整個訓練過程保證了效果的前提下,沒有向其它各方泄露任何的底層數據,從而保證了數據安全。
相比之下,谷歌用聯邦學習服務自己的 To C 業務端的需求,而團隊提出的縱向聯邦學習則能滿足 B 端需求,用以解決企業與企業之間的數據孤島難題,利於打造一個更開放、類似企業聯盟的生態。
在縱向聯邦學習的訓練過程中,多主體需要每次迭代時實時交換梯度更新信息進行聯合計算和訓練,導致通信效率成爲決定縱向聯邦學習框架可擴展性的主要瓶頸問題,制約了縱向聯邦學習的廣泛應用。
針對這一問題,和團隊潛心鑽研。近日,由擔任一作的論文(由和明尼蘇達大學張欣爲合作,通訊作者爲劉洋和微衆銀行首席 AI 官教授)發表在“信息與通信工程”學科的國際頂級期刊上。
▲圖 | 相關論文(來源:IEEE Transactions on Signal Processing)
研究團隊提出了面向分佈式特徵的縱向聯邦學習的高效通信協作學習框架,通過系統地採用本地 Block Coordinate Descent(BCD)算法和聯邦協作,在保證理論收斂性的指導下進行足夠數量的局部更新來解決縱向聯邦學習場景中昂貴的通信開銷問題。
縱向聯邦學習方法允許具有關於同一用戶不同屬性集的多方聯合構建模型,而無需公開其原始數據或模型參數,突破了傳統縱向聯邦學習通信瓶頸並提高了安全性,助力跨機構間數據價值流通。
在產業落地方面,微衆銀行將團隊研發的聯邦學習技術用於小微企業信貸以及個人貸款的風險管理,據介紹,在金融領域的應用中,可以通過聯邦學習技術打通企業徵信和發票數據的交互渠道,結合第三方數據建立風控模型。
“通過使用聯邦學習技術,我們可以對企業的徵信進行更好的預測和評分。”表示。
微衆銀行曾在 2020 年通過聯邦學習,完善了多家小微企業的徵信評分。該項目最終獲得了當年深圳市金融科技專項獎一等獎,這也是深圳爲產業轉化項目給到的最高獎項之一。
目前聯邦學習技術持續完善,將在 AI、金融、醫療、智能製造等領域獲得廣泛應用的空間。
在自動駕駛領域,駕駛能力升級依賴持續的數據收集和系統迭代,傳統自動駕駛系統訓練往往是將所有車輛數據收到一個模型裡進行訓練,這種方式採集的成本很高。
5G 的逐漸普及將拓展聯邦學習在其中的應用,將傳統的集中式學習框架逐漸過渡到分佈式的終端智能的互相學習的體系,這種體系可以使各個終端持續的進行分佈式學習,而不用批量的收集數據,最終促進車端的智能化程度。
此外,聯邦學習可以解決車與車之間的數據不共享、企業之間數據不能共享的問題;在車路協同的發展模式下,縱向聯邦學習有助於打通路側設備,交通數據等多方數據,同時避免延遲和隱私問題。
而在 AI 醫療場景下,醫療機構之間的數據無法互通帶來了數據孤島現象嚴重,各家醫院都難以積累足量的數據。聯邦學習技術可以在數據不出數據中心的情況下,進行模型的學習,提供一個隱私安全計算的環境,使得各方在保護用戶隱私和信息安全的前提下提升系統效率,擴展 AI 在醫療領域的應用。
由於市場成熟度仍較低,團隊還在打通技術從論文到落地的各個環節。“過去一年,我們聯合產業界的夥伴做了非常多前期的示範性工作。智慧醫療對隱私計算的需求非常大,因此也成爲了工作的重心。”
說:“技術在醫療場景中落地能夠真正服務於醫生,連接來自不同醫院的數據,打造更精準的模型輔助診斷,最終讓更廣泛的就醫羣體受益。”
表示,其科研的目標一直都是解決真正的產業問題,在解決實際產業問題過程中驅動科研進展。她認爲,目前聯邦學習技術已經發展到了 2.0 階段,即搭建了基礎的架構,未來的工作重心則是讓技術更安全、更高效地應用到產業當中。