咨詢電話
021-80392549
今年1月份,蘇黎世聯(lián)邦理工學院的Stefan Feuerriegelc教授在 《Communications of the ACM》期刊上刊文“Artificial Intelligence Across Company Borders”,在文中教授指出了人工智能(AI)產(chǎn)業(yè)落地過程中常見挑戰(zhàn):如何開展跨公司合作?
CACM觀點:超越聯(lián)邦學習,讓AI跨越公司邊界
教授表示:通過數(shù)據(jù)共享構(gòu)造大規(guī)模的跨公司數(shù)據(jù)集是一種方式,但有數(shù)據(jù)保密和隱私泄漏風險,且受隱私相關(guān)法律的限制。
而保護隱私的分布式機器學習框架—聯(lián)邦學習,能讓數(shù)據(jù)不出本地,解決上述痛點。
但傳統(tǒng)的聯(lián)邦學習目前并不能提供規(guī)范的隱私保護證明,此外,其場景容易受到因果攻擊。
因此,教授指出,結(jié)合聯(lián)邦學習和領(lǐng)域自適應,能夠更大限度讓合作公司從協(xié)作AI模型中受益,同時將原始訓練數(shù)據(jù)保持在本地。
以下是Stefan Feuerriegelc教授對領(lǐng)域自適應聯(lián)邦學習的介紹,由星云Clustar高級算法工程師張瀧玲、楊柳翻譯整理。
近年來,以AI為核心的數(shù)字技術(shù)正在驅(qū)動經(jīng)濟社會發(fā)展。數(shù)據(jù)顯示,2030年,AI將使全球工業(yè)部門的經(jīng)濟活動增加13萬億美元。
然而,由于無法獲取或有效利用跨國公司數(shù)據(jù),使得這一技術(shù)的潛力在很大程度上仍未得到完全開發(fā)。AI收益于大量具有代表性的數(shù)據(jù)(representative data),這些數(shù)據(jù)通常需要來自于多家公司,特別是在實際工業(yè)場景中,面對少見的意外事件或者關(guān)鍵系統(tǒng)狀態(tài),想使AI模型取得良好的性能是極具挑戰(zhàn)性的。
實現(xiàn)跨公司AI技術(shù)的一種直接方式是通過數(shù)據(jù)共享構(gòu)造大規(guī)模的跨公司數(shù)據(jù)集。但出于數(shù)據(jù)保密和隱私泄漏風險的考慮,大多數(shù)公司都不愿意直接共享數(shù)據(jù)。并且在大多數(shù)情況下,共享數(shù)據(jù)受到隱私相關(guān)法律的限制。因此,具有領(lǐng)域自適應的聯(lián)邦學習是解決跨公司AI問題的關(guān)鍵,一方面,聯(lián)邦學習能夠在不泄漏各公司數(shù)據(jù)隱私的前提下,實現(xiàn)模型訓練和推理;另一方面,領(lǐng)域自適應允許各公司按照自己特定的應用場景和條件,對聯(lián)邦模型做定制。
1
AI合作的障礙
跨公司AI主要存在兩個障礙:
首先是跨公司的數(shù)據(jù)隱私性。因為直接共享原始數(shù)據(jù)可能會給競爭對手公司暴露有關(guān)自身公司的運營流程或知識產(chǎn)權(quán)專有信息等。這一障礙常常出現(xiàn)在公司尋求與供應商、客戶或競爭對手公司想進行AI合作時。
例如,制造工廠的數(shù)據(jù)可以揭示參數(shù)設(shè)置、產(chǎn)品成分、產(chǎn)率、產(chǎn)量、路線和機器正常運行時間。如果此類數(shù)據(jù)被泄漏,它可能會被客戶在公司談判中濫用或進而幫助競爭對手提高生產(chǎn)力和改進產(chǎn)品。同時除了知識產(chǎn)權(quán)之外,一些深層的限制因素也會降低公司之間共享數(shù)據(jù)的意愿或傾向,例如公司間的信任程度、道德約束、保護公司用戶隱私權(quán)的法律法規(guī)以及網(wǎng)絡(luò)安全風險。因此我們需要一個保護數(shù)據(jù)隱私的解決方案,即在不暴露各公司的源數(shù)據(jù)前提下進行模型推斷。
其次是跨公司間的合作需要考慮到領(lǐng)域偏移(domain shifts)的影響。領(lǐng)域偏移是指為不同公司使用不同配置機器或操作系統(tǒng)采集得到的數(shù)據(jù)分布不匹配。例如,來自一家公司采集到的機器數(shù)據(jù)可能不能作為另一家公司的代表性數(shù)據(jù)由于不同機器數(shù)據(jù)采集條件不一樣。領(lǐng)域偏移給潛在的推論帶來了障礙:在一家公司的數(shù)據(jù)上訓練得到的模型可能表現(xiàn)不佳當部署到另一家數(shù)據(jù)分布明顯不同的公司時。