大数据联合计算之联邦学习解决联合建模的数据隐私问题

　　本文根据＂AI+产业发展高峰对话暨国泰汉口科创中心开园仪式＂上武汉大学计算机学院教授、博导 叶茫分享的主题报告《大数据联合计算之联邦学习》整理完成。
　　本文看点：
　　01 当前AI的瓶颈
　　02 联邦学习：解决联合建模的数据隐私问题
　　03 联邦学习的应用场景介绍
　　04 联邦学习在研究层面上的局限性
　　嘉宾简介
　　叶茫，武汉大学计算机学院教授、博士生导师，国家级高层次青年人才，中国科协青年托举人才。2019年于香港浸会大学获博士学位，曾任阿联酋起源人工智能研究院研究科学家和美国哥伦比亚大学访问学者。主要研究方向计算机视觉、可信人工智能等，发表国际期刊会议论文 70 余篇，其中第一/通讯作者发表 CCF-A 类论文30 余篇，引用者包括图灵奖获得者 Geoffery Hinton，Yann Lecun 等。担任国际 SCI 期刊 Journal of Electronic Imaging 编委，人工智能顶级会议 IJCAI 专题主席等学术职务。主持国家级青年人才项目、湖北省重点研发计划、国家自然科学基金面上项目等科研项目。获得国际计算机视觉顶会 ICCV2021赛道冠军、2021年斯坦福排行榜 ＂全球前2%顶尖科学家＂、2022年百度AI华人青年学者等荣誉。
　　（正文4700字，10-12分钟）
　　随着AI的发展，在很多应用场景下AI可以做到非常高的准确率，但是随之而来的安全性、隐私性的问题引起了大家的重视，联邦学习由此诞生。
　　01 当前AI的瓶颈
　　1、封闭世界模式
　　AI在很多任务上已取得了非常好的效果，但它们主要基于封闭世界模式。封闭世界的特点是：任务单一不变，人类设定；边界给定；可能性有限。比如几年前人工智能打败人类最伟大的棋手。
　　而最近比较火的AI应用主要面向开放世界模式，典型的应用场景是无人驾驶，无人驾驶所处的应用场景相比于之前围棋的封闭世界而言有以下几个特点：（1）任务多变，无人驾驶所要解决的任务非常复杂，它需要感受路边各种事、人物以及车辆和周围的环境。（2）环境不确定性，比如有时是在市区比较拥挤的场景，有时是在郊区比较单一的场景。（3）不可预见的可能性，很多时候自动驾驶的场景里面会出现突发的情况，比如说有人突然横穿马路。以上是当前AI从封闭世界到开放世界模式所面临的诸多挑战之一。
　　2、过度依赖大数据
　　在假设的理想世界环境下，我们拥有非常大量的数据，数据质量足够好，并且数据种类，特征值比较完备，现在很多图像分类、人脸识别任务都是基于这一潜在假设。但在很多应用场景里面，比如医疗的应用场景，总会面临着小数据AI模型构建的问题，这就导致了以下几个挑战：
　　第一，样本比较少，很难搜集足够多的训练样本，特别是比较专业的疑难杂症。
　　第二，在真实世界中进行数据采集和标注时，不可避免带来噪声的问题，如何构建对噪声鲁棒的AI模型非常重要。
　　第三，数据种类杂乱。比如医疗应用场景的数据类型非常多，不仅有年龄、性别、出生地点等基本数据，还有图像数据（比如CT影像数据），还有医生的经验数据，这里面所涉及到数据类型复杂多样。
　　最后是特征值缺失的问题，很多时候构建AI模型，训练学习的时候有大量的样本和数据，虽然我们可以假设所需要的数据都可以得到，但是在很多实际测试环境中数据是缺失的。
　　3、过度依赖中心化数据
　　中心化数据简单来讲就是样本足够多，并且样本质量好、方便处理，这是大家最喜欢的范式。比如不同的机构、医院把数据都汇集到云平台，大家联合训练AI模型，可以得到比较好的模型。但在真实场景中，数据是多元散落在各地的。这种时候数据来源不同，数据源的属主不同、利益不同，大家无法直接共享自己的数据，就不能构建大规模中心化的数据平台。另外，各方机构所采集的数据因为设备差异，通信环境等各种因素的影响，数据格式、质量、特征会不同，数据变化也比较大。
　　02 联邦学习：解决联合建模的数据隐私问题
　　随着国内外的数据监管法律趋严，如何构建AI模型变得更加具有挑战性。联邦学习便是在这种环境下诞生的技术。联邦学习是一种分布式机器学习技术，核心思想是在多个数据源共同参与模型训练时，不泄露原始数据的前提下，仅通过交互模型中间参数进行模型联合训练。简单来讲就是，我们之前在中心化大数据平台下进行的分布式学习，是所有人把数据汇集在一块，大家进行联合的AI模型构建。而联邦学习解决在数据没有办法共享情况下联合学习建模的问题。所面临的挑战主要是三个方面：
　　第一，如何保护隐私。即保护数据不出域，每个用户的数据停留本地，以及在模型参数交互的过程中涉及到隐私泄露问题，进行更严格的隐私保护是联邦学习要解决的重要挑战。
　　第二，如何提高效率。联邦学习的出发点是数据没有办法直接共享，不同企业通过网络的形式上传模型的反馈，这时候就会涉及到交互的问题，会严重影响它的效率，相比于前面提到的中心化大模型的训练有极大的受限。
　　第三，如何进行联合建模。不同的机构数据不一样，数据类型、优势不一样，如何发挥各方面的优势，去构建更好的联邦学习模型也是值得探讨的。
　　联邦学习主要的应用范式是＂数据是可用不可见，数据不动模型动＂。即联邦学习可以使用这些数据的反馈，但是不能直接获取到这些数据。并且数据全部停留在本地，不上传服务器，只上传针对模型的反馈，以实现不同机构的交互。
　　联邦学习的目的是各个边缘设备（客户端）联合训练一个好的机器学习模型，同时保护数据隐私（数据不共享）。传统分布式中心化集体学习的范式，每个机构把数据全都上传到服务器云平台，然后在服务器大云平台上面训练好的AI模型。而联邦学习的所有用户数据停留在本地，不上传数据，只上传模型的反馈，通过服务器对模型的反馈参数进行操作以训练更优的模型。
　　它的优势是： 减少网络传输的压力。传输网络模型参数和反馈，而非原始数据，因为比如有些视频数据的数据量非常大，直接传输数据带来很大的网络压力。 保证自有数据不出域，达到隐私保护的目的。 快速学习数据。传统分布式学习需要大家同时在线，把数据上传到服务器。而联邦学习是每个客户端都有数据和模型，一个客户端收到了新数据可以进行独立的本地更新，不跟其他客户端进行交互，也可以选择跟在线的客户端进行交互，这样可以得到更优的模型，是一种非常灵活的方式。
　　03 联邦学习的应用场景介绍
　　1、联邦学习赋能智慧医疗
　　联邦学习使机构间可以跨地域协作而数据不出本地，多方合作建立的预测模型能够更准确地预测癌症，基因疾病等疑难病。比如前一段时间很多公司开发了多地联合的新冠肺炎的智能诊断，考虑到病人信息的隐私性，很多医院机构不愿意把自己的数据直接上传到中心化的平台，这时需要给各个医院一个模型，使医院的数据在这个模型上反馈，针对模型的反馈去进行联合学习，得到更优的健康预测的模型或智能诊断的模型。应用案例：电子病历相似性搜索、病人表征学习、社区特异性模型、预测健康风险。
　　2、联邦学习赋能智慧安防
　　AI安防的两大痛点：数据不够多元，且特别封闭；缺乏优质数据，算法不够精准。AI安防的应用场景非常多变，人脸识别已比较成熟，但是更多是对人的识别，包括步态识别等。要得到更优的模型，需要采集足够多元化的数据，把他们聚合在一块，覆盖所有的场景，这显然不太现实。所以更常见的方式是采集一些数据，这种数据量非常大，把所有的数据放在一起进行联合训练。这里会涉及隐私以及网络传输的压力，联邦学习可以进行在线模型更新和反馈；无需集中传输数据；进行数据保护，隐私性高；共同建模、共同进步。
　　3、联邦学习赋能自动驾驶
　　联邦学习有助于打破车路协同的数据孤岛，建立高效局域车联网，降低车载数据等隐私泄露风险。自动驾驶涉及到用户愿不愿意把自己让行驶数据、驾驶数据等被采集上传到服务器，很多时候大家是不愿意的，如果我们都不上传数据，自动驾驶就没有办法得到更优的模型。联邦学习可以让所有的用户数据停留在本地，只给予用户一个模型来让用户进行反馈，这样大家就可以进行联合建模，得到更优的自动驾驶模型，同时保护了用户数据隐私。对于未来数据监管越来越严格的情况下，联邦学习是自动驾驶模型训练的解决思路。
　　04 联邦学习在研究层面上的局限性
　　1、异构联邦学习
　　现有的联邦学习大多基于同构假设，但是模型结构、数据分布、硬件设备、通信网络均存在差异性。首先是模型异构（参与者的模型结构不同）。比如银行或者医院有自己的商业利益和优势，不能把模型设计的细节共享出来，所以很有可能模型设计不一样，这是联合的机器学习会面临的极大挑战。第二个是数据异构（不同参与者数据分布差异大）。不同机构数据差异非常大，甚至数据类型都不一样，而现在联邦学习都是假设数据类型比较固定，相对统一。另外，硬件设备的不同及通讯环境的差异也会给异构联邦学习带来挑战。比如不同人用的手机计算能力不同，有的人的手机计算能力比较好，可以用比较复杂的模型；但另一些人用的手机计算资源比较有限。不同的通信环境(比如用WiFi、2G/3G/4G/5G)在上传模型反馈时，也会存在不同的延迟和滞后。
　　2、可信联邦学习
　　前面提到的所有联邦学习主要解决的点是基于数据不出域，即数据停留在用户本地。但当我们进行模型反馈和交流的过程中，模型的参数、梯度都涉及到隐私泄露的风险，如何实现更加安全可信的分布式联邦学习是值得研究的。这里引用杨强院士所概括的：可信联邦学习是安全可证明，性能可使用，效率可控，决策可解释，模型可监管以及普惠的。也就是说首先在隐私保护的前提下，我们要提升模型的性能，保证算法的效率，这样才能使得模型是可用的。同时，模型的可解释在医疗应用的场景尤其重要。
　　3、公平性联邦学习
　　联邦学习的出发点是我们要共同进步，共同受益。但在联邦学习中参与者各方数据量不一样，原始的模型性能也不一样，这将导致在联邦学习之后有的机构模型性能可能从90%提升到91%，仅提升1%；也有的机构原始模型性能不好，只能做到20%，经过联邦学习之后做到80%。如何平衡联邦学习之后各方收益，保证联邦学习的公平性，也是非常值得思考的问题。
　　—END—

自然界并不天然存在的光激光绿激光笔绿激光笔激光电视机，激光一体机生活中，激光类物品经常可以看到。什么是激光呢？激光是如何出现的呢？为什么有那么多种多样用处呢？实际上激光并不属于大自然纯天然具有的光，它是利用中国首个茗茶产业带排行公布云南普洱浙江龙井分列一二4月13日，京东超市发布中国茗茶产业带排行榜，据公开可查询到的信息显示，这也是中国首个通过引进电商指数，对茗茶产业带发展情况进行排名的榜单，依据中国茗茶产业带排行榜显示，云南普洱茶严打非法采挖保护个人信息安全原标题严打非法采挖保护个人信息安全作者蔡颖慧（北京理工大学法学院助理教授）当前，我国互联网用户规模已超过10亿，形成了全球规模最大的数字社会。随着云计算大数据5G等新一代信息技术的数据分析能力模型为什么要学习数据分析？过去以往在增量时代，每天都有新的领域新的市场被开发。尤其是在互联网电商等领域的红利期，似乎只要做好单点的突破就能获得市场。这个蛮荒时代，业务运营主要依靠是经验涉嫌向华为中芯国际提供芯片技术，新思科技正遭美商务部调查4月14日消息，据彭博社援引知情人士爆料称，EDA大厂新思科技（Synopsys）正接受美国商务部调查，因为其涉嫌将关键技术转让给被美国制裁的中国企业。报道称，目前该调查尚未公开，苹果概念股思林杰上市22天跌18天，股民怒了没有哪个公司像这样文张佳儒估计中签缴费的人，心都在滴血！这哪里是吃肉，这是挨飞刀！有股民这样评价科创板新股思林杰，连续跌一个月，到现在还没有明显企稳的迹象，这是很难受的走势。4月14日午盘，思林杰报哈萨克斯坦国产汽车已占国内销量的六成以上哈萨克斯坦汽车制造业在2021年成为制造业的驱动力，其增速达到了20。4。根据统计分析网站Energyprom。z的信息，哈萨克斯坦的汽车制造和组装工业正在受到越来越得多关注和期待24座万亿俱乐部城市去年GDP披露6城超2万亿随着东莞市官方公布的2021年GDP总量迈过1万亿元大关，万亿俱乐部城市也因此又增一席，正式扩容至24城。澎湃新闻梳理发现，目前，这24个万亿俱乐部城市均已披露了2021年GDP数半导体跌疯了，我该割肉吗？半导体昨天刚说半导体基金的估值不是特别便宜，最起码不是2018年的那种便宜程度，结果当天收盘的时候，半导体就直接跳水3个点，经过了最近一段时间的暴跌，很多人都会觉得3个点没啥意思，河南又一企业采用铁运，河南公转铁运输范围继续扩大一河南砂石矿山厂出货量情况据百年建筑网调研河南14家砂石矿山厂出货量，截至4月7日，砂石总出库量达80。1万吨，环比上升17，其中碎石出库量48。8万吨，占总出库量的61机制砂出库地球氧气含量增多，你的观点是？嗨咯，大家好，今天我们大家一起探讨一下地球氧气含量升高，你的观点是？？大家肯定听过富氧这个词，名副其实是应用物理或化学方法将空气中的氧气进行收集，使收集后气体中的富氧含量21。如今

<<<<<<－>>>>>>

火箭四连官宣，詹皇支持湖人大交易，勇士签两悍将，森林狼10换1一，火箭四连官宣。1，三位首轮秀的球衣号码正式分布。小贾巴里史密斯穿1号，塔里伊森穿17号，小泰泰华盛顿穿0号。原以为小贾巴里史密斯是在等戈登腾出10号，实际上是等沃尔腾出1号。有元宇宙与web3。0元宇宙不是web3web3去中心化和交互性强的特点可以辅助元宇宙，但元宇宙web3从web2到web3，这给了元宇宙很大的助力WEB2。0与WEB3。0对比web3的组织结构是符合2022年买手机该选多大内存？8G，12G，128G，256G有什么区别对于手机存储，大一些总归更好，但是还是会有很多朋友对内存有很多疑问比如有没有必要选12G256G？12G512G？12G128G和8G256G选哪个？8G128G或者6G128G还樊振东退出WTT布达佩斯赛事，大胖梁靖崑的恐龙症又要犯了世界排名第一退赛，谁能笑到最后新一站的WTT大满贯赛事即将开始，从东南亚的新加坡，再到东欧的布达佩斯，上一站也就是首届大满贯赛新加坡大满贯的男单冠军由世界排名第一的樊振东夺得，双圈慎重选择，杜兰特保罗布克三巨头兼容性仍待定，水花兄弟只有一对NBA自由市场开放后的第一大重磅消息，就是凯文杜兰特主动向篮网提出交易申请。这一申请也意味着，杜兰特离开勇士，加盟篮网巨头的计划，失败了！很显然，勇士夺冠，格林公式，对杜兰特的影响2年4700万！前灰熊老大即将加盟湖人？这要感谢杜兰特和爵士兜兜转转，爵士还是把戈贝尔交易了。在和森林狼的这笔交易中，爵士得到了比斯利贝弗利今年22号秀范德比尔特和博尔马罗等5名球员和未来5个首轮。这笔1换10的交易，让森林狼聚集了唐斯戈贝NBA早报杜兰特要求交易后首发声，锡安顶薪续约1。杜兰特再被要求交易后发推写道和我一起泡在球馆里的人知道怎么回事，他们知道我在乎什么。如果你没和我在一起，四处去打听一下。不知道杜兰特的下家是谁？2。在爵士与森林狼关于戈贝尔的交杜兰特交易离队，篮网重建，篮网要价不会低于乔治浓眉北京时间2022年7月3日NBA讯，篮网队欧文的续约和杜兰特申请离队，成为NBA目前最大的热点，今年陆续一些球员顶薪续约球队让球迷们疑惑不解，篮网这边对于欧文来说，很难掌控他的性格拥堵无保护左转掉头何小鹏体验城市NGP工程版日前，我们关注到小鹏汽车董事长兼CEO何小鹏发布了城市NGP工程版的体验视频，这次体验全程从小鹏汽车研发总部前进到广州塔，大约14公里，中间包含拥堵红绿灯无保护左转等多种路况。这条盘点球神罗职业生涯里的一些惊为天人的操作这球烫脚？我罗接球一个僵硬的转身等等我球呢？我罗过顶停球了解一下这记停球什么水平？我罗近在咫尺的进球机会居然想拉球过门将？塞尔维亚后卫C罗门前极限解围！这是我罗独创的双脚停球？别人73周日早场日韩赛事分析琉球FC破罐子破摔水原FC冲击四连胜001日乙东京绿茵vs琉球FC东京绿茵分析东京绿茵本赛季23轮战罢，东京绿茵取得7胜8平8负的战绩，积29分暂时排名联赛第15位。东京绿茵上轮联赛客场13不敌十人的千叶市原，各项赛