本文根据"AI+产业发展高峰对话暨国泰汉口科创中心开园仪式"上武汉大学计算机学院教授、博导 叶茫分享的主题报告《大数据联合计算之联邦学习》整理完成。 本文看点: 01 当前AI的瓶颈 02 联邦学习:解决联合建模的数据隐私问题 03 联邦学习的应用场景介绍 04 联邦学习在研究层面上的局限性 嘉宾简介 叶茫,武汉大学计算机学院教授、博士生导师,国家级高层次青年人才,中国科协青年托举人才。2019年于香港浸会大学获博士学位,曾任阿联酋起源人工智能研究院研究科学家和美国哥伦比亚大学访问学者。主要研究方向计算机视觉、可信人工智能等,发表国际期刊会议论文 70 余篇,其中第一/通讯作者发表 CCF-A 类论文30 余篇,引用者包括图灵奖获得者 Geoffery Hinton,Yann Lecun 等。担任国际 SCI 期刊 Journal of Electronic Imaging 编委,人工智能顶级会议 IJCAI 专题主席等学术职务。主持国家级青年人才项目、湖北省重点研发计划、国家自然科学基金面上项目等科研项目。获得国际计算机视觉顶会 ICCV2021赛道冠军、2021年斯坦福排行榜 "全球前2%顶尖科学家"、2022年百度AI华人青年学者等荣誉。 (正文4700字,10-12分钟) 随着AI的发展,在很多应用场景下AI可以做到非常高的准确率,但是随之而来的安全性、隐私性的问题引起了大家的重视,联邦学习由此诞生。 01 当前AI的瓶颈 1、封闭世界模式 AI在很多任务上已取得了非常好的效果,但它们主要基于封闭世界模式。封闭世界的特点是:任务单一不变,人类设定;边界给定;可能性有限。比如几年前人工智能打败人类最伟大的棋手。 而最近比较火的AI应用主要面向开放世界模式,典型的应用场景是无人驾驶,无人驾驶所处的应用场景相比于之前围棋的封闭世界而言有以下几个特点:(1)任务多变,无人驾驶所要解决的任务非常复杂,它需要感受路边各种事、人物以及车辆和周围的环境。(2)环境不确定性,比如有时是在市区比较拥挤的场景,有时是在郊区比较单一的场景。(3)不可预见的可能性,很多时候自动驾驶的场景里面会出现突发的情况,比如说有人突然横穿马路。以上是当前AI从封闭世界到开放世界模式所面临的诸多挑战之一。 2、过度依赖大数据 在假设的理想世界环境下,我们拥有非常大量的数据,数据质量足够好,并且数据种类,特征值比较完备,现在很多图像分类、人脸识别任务都是基于这一潜在假设。但在很多应用场景里面,比如医疗的应用场景,总会面临着小数据AI模型构建的问题,这就导致了以下几个挑战: 第一,样本比较少,很难搜集足够多的训练样本,特别是比较专业的疑难杂症。 第二,在真实世界中进行数据采集和标注时,不可避免带来噪声的问题,如何构建对噪声鲁棒的AI模型非常重要。 第三,数据种类杂乱。比如医疗应用场景的数据类型非常多,不仅有年龄、性别、出生地点等基本数据,还有图像数据(比如CT影像数据),还有医生的经验数据,这里面所涉及到数据类型复杂多样。 最后是特征值缺失的问题,很多时候构建AI模型,训练学习的时候有大量的样本和数据,虽然我们可以假设所需要的数据都可以得到,但是在很多实际测试环境中数据是缺失的。 3、过度依赖中心化数据 中心化数据简单来讲就是样本足够多,并且样本质量好、方便处理,这是大家最喜欢的范式。比如不同的机构、医院把数据都汇集到云平台,大家联合训练AI模型,可以得到比较好的模型。但在真实场景中,数据是多元散落在各地的。这种时候数据来源不同,数据源的属主不同、利益不同,大家无法直接共享自己的数据,就不能构建大规模中心化的数据平台。另外,各方机构所采集的数据因为设备差异,通信环境等各种因素的影响,数据格式、质量、特征会不同,数据变化也比较大。 02 联邦学习:解决联合建模的数据隐私问题 随着国内外的数据监管法律趋严,如何构建AI模型变得更加具有挑战性。联邦学习便是在这种环境下诞生的技术。联邦学习是一种分布式机器学习技术,核心思想是在多个数据源共同参与模型训练时,不泄露原始数据的前提下,仅通过交互模型中间参数进行模型联合训练。简单来讲就是,我们之前在中心化大数据平台下进行的分布式学习,是所有人把数据汇集在一块,大家进行联合的AI模型构建。而联邦学习解决在数据没有办法共享情况下联合学习建模的问题。所面临的挑战主要是三个方面: 第一,如何保护隐私。即保护数据不出域,每个用户的数据停留本地,以及在模型参数交互的过程中涉及到隐私泄露问题,进行更严格的隐私保护是联邦学习要解决的重要挑战。 第二,如何提高效率。联邦学习的出发点是数据没有办法直接共享,不同企业通过网络的形式上传模型的反馈,这时候就会涉及到交互的问题,会严重影响它的效率,相比于前面提到的中心化大模型的训练有极大的受限。 第三,如何进行联合建模。不同的机构数据不一样,数据类型、优势不一样,如何发挥各方面的优势,去构建更好的联邦学习模型也是值得探讨的。 联邦学习主要的应用范式是"数据是可用不可见,数据不动模型动"。即联邦学习可以使用这些数据的反馈,但是不能直接获取到这些数据。并且数据全部停留在本地,不上传服务器,只上传针对模型的反馈,以实现不同机构的交互。 联邦学习的目的是各个边缘设备(客户端)联合训练一个好的机器学习模型,同时保护数据隐私(数据不共享)。传统分布式中心化集体学习的范式,每个机构把数据全都上传到服务器云平台,然后在服务器大云平台上面训练好的AI模型。而联邦学习的所有用户数据停留在本地,不上传数据,只上传模型的反馈,通过服务器对模型的反馈参数进行操作以训练更优的模型。 它的优势是: 减少网络传输的压力。传输网络模型参数和反馈,而非原始数据,因为比如有些视频数据的数据量非常大,直接传输数据带来很大的网络压力。 保证自有数据不出域,达到隐私保护的目的。 快速学习数据。传统分布式学习需要大家同时在线,把数据上传到服务器。而联邦学习是每个客户端都有数据和模型,一个客户端收到了新数据可以进行独立的本地更新,不跟其他客户端进行交互,也可以选择跟在线的客户端进行交互,这样可以得到更优的模型,是一种非常灵活的方式。 03 联邦学习的应用场景介绍 1、联邦学习赋能智慧医疗 联邦学习使机构间可以跨地域协作而数据不出本地,多方合作建立的预测模型能够更准确地预测癌症,基因疾病等疑难病。比如前一段时间很多公司开发了多地联合的新冠肺炎的智能诊断,考虑到病人信息的隐私性,很多医院机构不愿意把自己的数据直接上传到中心化的平台,这时需要给各个医院一个模型,使医院的数据在这个模型上反馈,针对模型的反馈去进行联合学习,得到更优的健康预测的模型或智能诊断的模型。应用案例:电子病历相似性搜索、病人表征学习、社区特异性模型、预测健康风险。 2、联邦学习赋能智慧安防 AI安防的两大痛点:数据不够多元,且特别封闭;缺乏优质数据,算法不够精准。AI安防的应用场景非常多变,人脸识别已比较成熟,但是更多是对人的识别,包括步态识别等。要得到更优的模型,需要采集足够多元化的数据,把他们聚合在一块,覆盖所有的场景,这显然不太现实。所以更常见的方式是采集一些数据,这种数据量非常大,把所有的数据放在一起进行联合训练。这里会涉及隐私以及网络传输的压力,联邦学习可以进行在线模型更新和反馈;无需集中传输数据;进行数据保护,隐私性高;共同建模、共同进步。 3、联邦学习赋能自动驾驶 联邦学习有助于打破车路协同的数据孤岛,建立高效局域车联网,降低车载数据等隐私泄露风险。自动驾驶涉及到用户愿不愿意把自己让行驶数据、驾驶数据等被采集上传到服务器,很多时候大家是不愿意的,如果我们都不上传数据,自动驾驶就没有办法得到更优的模型。联邦学习可以让所有的用户数据停留在本地,只给予用户一个模型来让用户进行反馈,这样大家就可以进行联合建模,得到更优的自动驾驶模型,同时保护了用户数据隐私。对于未来数据监管越来越严格的情况下,联邦学习是自动驾驶模型训练的解决思路。 04 联邦学习在研究层面上的局限性 1、异构联邦学习 现有的联邦学习大多基于同构假设,但是模型结构、数据分布、硬件设备、通信网络均存在差异性。首先是模型异构(参与者的模型结构不同)。比如银行或者医院有自己的商业利益和优势,不能把模型设计的细节共享出来,所以很有可能模型设计不一样,这是联合的机器学习会面临的极大挑战。第二个是数据异构(不同参与者数据分布差异大)。不同机构数据差异非常大,甚至数据类型都不一样,而现在联邦学习都是假设数据类型比较固定,相对统一。另外,硬件设备的不同及通讯环境的差异也会给异构联邦学习带来挑战。比如不同人用的手机计算能力不同,有的人的手机计算能力比较好,可以用比较复杂的模型;但另一些人用的手机计算资源比较有限。不同的通信环境(比如用WiFi、2G/3G/4G/5G)在上传模型反馈时,也会存在不同的延迟和滞后。 2、可信联邦学习 前面提到的所有联邦学习主要解决的点是基于数据不出域,即数据停留在用户本地。但当我们进行模型反馈和交流的过程中,模型的参数、梯度都涉及到隐私泄露的风险,如何实现更加安全可信的分布式联邦学习是值得研究的。这里引用杨强院士所概括的:可信联邦学习是安全可证明,性能可使用,效率可控,决策可解释,模型可监管以及普惠的。也就是说首先在隐私保护的前提下,我们要提升模型的性能,保证算法的效率,这样才能使得模型是可用的。同时,模型的可解释在医疗应用的场景尤其重要。 3、公平性联邦学习 联邦学习的出发点是我们要共同进步,共同受益。但在联邦学习中参与者各方数据量不一样,原始的模型性能也不一样,这将导致在联邦学习之后有的机构模型性能可能从90%提升到91%,仅提升1%;也有的机构原始模型性能不好,只能做到20%,经过联邦学习之后做到80%。如何平衡联邦学习之后各方收益,保证联邦学习的公平性,也是非常值得思考的问题。 —END—