聯邦學習如何以野馬之姿,打破 AI 數據困局
2021-03-04 18:18:40
關注AI技術的人們想必都知道,聯邦學習(FederatedLearning)技術最早是由谷歌在2017年公開發布,一經提出就被業內寄予厚望。
由于面臨著數據孤島和數據隱私保護等問題,AI產業落地進程面臨著嚴重的數據困局。聯邦學習技術正是為了應對這一問題而被提出,現在已成為新一代人工智能最重要的技術范式之一。
在聯邦學習出現并快速發展的三年多時間里,國內外諸多科技巨頭都已經開展聯邦學習的深入研究與應用。值得注意的是,在聯邦學習技術的研究和推廣上,我國的科技企業與研究機構不再是處于跟隨狀態,而是處于和國外科技巨頭并駕齊驅的水平。其中一些頭部企業正在積極參與到聯邦學習的技術標準制定,以及產業應用落地的實踐當中。
聯邦學習為何如此重要?在最近兩年當中,聯邦學習又是如何在眾多國內科技巨頭的支持和推動下,實現迅速發展和應用落地的?這成為很多人非常關心的問題。
打破AI數據困局,聯邦學習的野馬之姿
聯邦學習,谷歌這一技術設想,主要回應的問題是如何有效利用用戶終端上的數據進行AI模型訓練,而又不侵犯用戶的數據隱私。
工程師們的解決方式是用戶數據只需在本地終端進行訓練,云端服務器只要獲取訓練后的訓練模型(權重)即可,也就是搭建一個大型的分布式神經網絡模型訓練框架,從而讓用戶數據不離本地,同時也能獲得很好的AI服務體驗。
聯邦學習的出現,讓每個用戶都可能成為AI發展的貢獻者,同時又啟發了企業之間跨越AI落地的數據鴻溝的一種嶄新方式。
所謂的“數據鴻溝”,主要是我們常聽到的“數據孤島”。一方面是企業逐利的本性,必然使其不愿拿出自身的數據與其他公司交換,導致少數幾家巨頭壟斷大量數據而小企業無數據可用的馬太效應;另一方面是全球各國對數據隱私保護的監管越發嚴格,企業在用戶數據使用和共享上面更要考慮合規合法的應用,因而進一步加劇了數據孤島效應。
在這一數據鴻溝的制約下,眾多行業和企業會因為沒有高質量、大規模的數據支撐而無法得到更好的訓練模型。特別是對于一些專業性強的細分領域,如金融、風控、法律以及醫療等領域,由于各家的數據無法打通,自身的數據量又有限,會極大地限制其AI技術的發展。
既能保護數據不共享以保護用戶隱私,同時又能在云端更新和共享通用模型,這正是聯邦學習技術所能實現“兩全其美”的策略。聯邦學習在從C端應用向B端產業應用演進中,形成了更為通用的解決方案:一、橫向聯邦學習,即樣本中用戶不同,特征相同,谷歌的方法即是這種;二、縱向聯邦學習,即樣本中用戶相同,特征不同,適用于擁有同一批用戶的不同企業;三、遷移聯邦學習,即樣本中用戶、特征都可能不同,這樣可以通過數據的升維或降維,從而進行另外數據子空間的遷移學習。
這樣,聯邦學習作為一種更加泛化的機器學習方式,就可以把更多像金融、保險、醫療、安防、教育等行業機構作為數據主體來進行AI的模型應用場景了。而在聯邦學習技術的深化和擴展當中,我國的多家科技企業發揮了重要的作用。
百舸爭流,聯邦學習在中國的成績單
作為聯邦學習技術的深度參與方,國內企業不僅參與了聯邦學習的技術研發和應用,同樣還參與了聯邦學習的標準制定以及貢獻了多個開源模型框架。
首先,我國的多家企業組織和參與了聯邦學習基礎架構與應用規范標準的制定。去年,聯邦學習基礎架構與應用(IEEEP3652.1)標準工作組兩次會議先后在深圳、洛杉磯召開,國內眾多企業對聯邦學習標準草案的制定提出建設性意見,并預計在今年出臺這一草案。
業內人士評價,聯邦學習技術正是在全球知名人工智能專家楊強教授和其團隊主導參與的IEEE聯邦學習標準制定委員會的推動下,才成為備受產學研各界關注的人工智能的研究領域。
其次,國內多家企業也都紛紛推出了可以進行產業落地應用的開源框架。
比如,騰訊發起的微眾銀行早在2018年就基于聯邦學習理論研究進行相關開源軟件研發,在2019年初,正式開源全球首個工業級聯邦學習框架FATE(FederatedLearningEnabler),其實現了基于同態加密和多方計算的安全計算協議,在信貸風控、客戶權益定價、監管科技等領域推出了相應的商用方案。
去年,百度在PaddlePaddle2.0開放平臺中,也增加了PaddleFL聯合學習框架,PaddleFL主要是面向深度學習進行設計,提供了眾多在計算機視覺、自然語言處理、推薦算法等領域的聯邦學習策略及應用場景。同樣,平安科技在其提出的聯邦智能體系的基礎上,自主研發了蜂巢聯邦學習平臺,主要應用于多方信息的安全協作計算,滿足銀行和金融機構的風險評估、反洗錢、投顧、投研、信貸、保險和監管等多場景應用需求。
同樣,基于聯邦學習理論的多方安全計算技術,騰訊云開發出“騰訊云數盾”來滿足數據安全治理的多重需求。阿里巴巴也早在2015年就開始了與聯邦學習思路相同的共享學習技術的研究,在各方通過共享加密數據或加密機制下的參數交換方式來進行機器學習,建立虛擬的共享模型的產品平臺。
此外,華為、京東、聯想以及國內多家創業企業都已在聯邦學習的生態發展中貢獻進行著各種不同細分領域的實踐創新。
這些國內科技企業之所以紛紛投入到聯邦學習技術的研發和推廣,正是看到其在用戶數據隱私保護與AI技術創新上面實現的完美平衡,以及帶來的眾多產業的AI應用落地的機會。
推動AI產業落地,聯邦學習的中國實踐
根據聯邦學習的技術特點以及參與企業的當前的研發重點,金融領域成為聯邦學習最先進行應用落地的主要場景。其中在金融業務的眾多環節中,信貸風控可謂是典型的聯邦學習的應用落地場景。
基于聯邦學習的信貸風控,微眾銀行提出了“同態加密中間變量”的解決方案,也就是保證原始數據不出庫的情況下,使用經過梯度交換得到的中間變量來進行風控模型的建模,從而降低使用中心化機器學習帶來的系統性隱私風險。
通過聯邦學習實現的信貸風控的用戶數據網絡增強,就可以在貸款前更好地判斷客戶風險,幫助信貸公司過濾信貸黑名單或明顯沒有轉化的貸款客戶,進一步降低貸款審批流程后期的信審成本;同時在貸款中實現用戶放款后行為的動態評估以輔助授信額度的調整,在貸款后期幫助放貸機構進行催收的策略評估,調整催收策略,提升催收效率。
在醫療健康行業,同樣也長期面臨著“數據孤島”的問題,從而制約著醫療AI的發展。
基于患者數據隱私保護的要求和各家醫療機構數據無法互聯互通且標準不一的問題,聯邦學習可以很好地避開醫療機構之間的信息壁壘,不再需要將各家數據做集中合并,而是通過協議在其間傳遞加密之后的信息,而各個醫療機構通過使用這些加密的信息更新模型參數,從而實現在不暴露原始數據的條件下使用全部患者數據的訓練過程。
日前,騰訊的天衍實驗室和微眾銀行正是利用這一聯邦學習的方式成功構建了一個“腦卒中發病風險預測模型”,既能利用兩家醫院的加密后的共同的患者樣本進行特征建模訓練,又能很好地保護各自的數據隱私,最終比兩家醫院各自獨立訓練的模型效果準確率有了大幅的提升。
在安防監控行業,AI安防系統也同樣由于數據隱私保護的監管要求和各家安防廠商之間各自為戰的狀況而難以獲得很好的發展。假如有多個廠商使用聯邦學習來訓練和優化AI算法模型,就可以讓每家企業在自己的服務器上進行訓練,只需加密上傳訓練模型到后臺,進行模型優化后,再反饋給各個廠商改進后的模型方案。
除了金融、醫療和安防行業的應用外,聯邦學習正在深入到其他行業當中。未來包括像金融、醫療、保險、安防、教育、零售、工業以及智慧城市等各個行業和場景,都可以依賴聯邦學習技術實現行業AI能力的提升,從而實現降本增效的運營目標。
總體而言,對于國內這些聯邦學習的積極推動者和踐行者的科技企業們而言,聯邦學習到底意味著什么?
首先,去年5月我國網信辦出臺了《數據安全管理辦法(征求意見稿)》這一被稱為“中國版GDPR”的法規,標志著我國數據規范使用的時代已經到來。面對越來越嚴格的數據安全的監管要求以及日益嚴峻的用戶數據隱私保護的風險,國內這些科技企業必須將數據的合規合法的使用當作日常運營的關鍵要務來看待。
數據安全的嚴格限制無疑會帶來企業在AI技術應用上面的挑戰,聯邦學習技術正是應對這一監管挑戰和行業競爭限制而提出的解決方案,自然得到了科技企業的大力推崇。
其次,對于那些科技巨頭而言,聯邦學習技術不僅能直接解決企業內部的“數據孤島”問題,也可以使其在所要涉及的行業內建立起數據共享的合作生態。只有搶占先機,推出自己的聯邦學習的開源架構,才能吸引更多的行業伙伴加入到這一聯邦學習的生態當中。
另外,對于那些創業企業或行業客戶而言,既沒有豐富的數據資源,也沒有充足的資源投入到AI系統的建設上,通過加入聯邦學習的生態,借助巨頭的平臺和大數據資源,進行自身AI模型的優化,大幅降低企業智能化升級成本,成為一件非常劃算和可行的選擇。
近兩年,我們經常會聽到“普惠AI”這一概念。普惠AI的愿景肯定不會只是一兩家AI巨頭就能實現的,而是更需要各行各業的企業、組織和個人一同參與,來為AI的技術升級與落地貢獻源源不斷的數據資源。
在AI的持續演進和數據隱私安全保護的交織下,聯邦學習正在搭建一座機構與用戶、機構與機構之間數據信任、共享普惠AI成果的橋梁。而這座聯邦學習生態之橋的建設,國內的技術建造者和各行業的參與者還有很多的工作要做。