范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

WAIC2021面向开放智能,蚂蚁集团揭秘隐私计算框架

  机器之心报道
  机器之心编辑部
  最近一段时间,隐私计算成为了众多科技公司的研究方向,它或许将成为数据市场化的重要基础设施。
  众所周知,数据的价值是在经济活动中信息交互所产生的——数据越流通,应用的场景越丰富,其价值会得到不断放大及提升。不过在数据流通过程中,我们必须时刻考虑数据安全与隐私保护问题。
  不久之前,蚂蚁集团智能引擎与数据中台技术部负责人、IEEE Fellow 周靖人博士在世界人工智能大会 WAIC 2021「隐私计算学术交流会」上发表了题为《开放智能—数据流通下的数据安全和数据隐私》的演讲。
  靖人从数据特性入手,对独特数据背景下如何做到数据安全、隐私保护,并发挥大数据应用的价值进行了讨论,同时也首次引入了「开放智能」概念,对于蚂蚁集团面向隐私计算的技术架构进行了一番介绍。
  在活动中,蚂蚁集团的技术专家为我们展示了业内对于数据安全和隐私保护的最新思考。
  数据特性与算法伦理
  首先为什么需要数据流通,因为数据产生的场景与应用场景不尽相同——你可能会因为买了一杯咖啡而产生了数据,但这些行为数据,包括购物习惯、生活习惯等会被应用在其他的场景中。数据只有在更多的场景中实现应用,其价值才能得到不断扩展。
  在数据流通的过程中,我们免不了会思考两个深层次的问题:数据权属和算法伦理。
  我们可以把数据分成两类,一类是个人的基础数据,比如性别,年龄等,这些数据归属于个人是没有太多异议的,另一类是行为数据,这类数据的产生涉及到多个数据主体:消费者是一个行为主体,同时商品、服务也是行为主体,还有一方涉及到平台,后者通过观察消费者和商品之间的一系列关系,再基于平台自身的知识,把相互的行为数据记录下来。
  可以看到,行为数据的产生涉及多个主体,我们很难把行为数据分割成服务信息或个体信息,同时行为数据的产生还涉及到平台的知识产权和劳动成果。在数据流通的过程中,我们需要合理分配和保护所有主体和数据参与者的权益。
  站在消费者角度,我们思考如何保护自己的隐私,并通过数据分享为自己带来更多的方便。同时在平台角度,基于大数据的算法需要大量技术投入,在数据流通的过程中,我们也希望能够保护平台方的知识产权和劳动成果,当然也需要平台依法接受监管。
  还有一个非常具有挑战性的问题,我们称之为算法伦理:应用数据后对算法产生的影响。这个范畴包括了可解释性、公平性、以及一系列的隐私保护。
  如今大量的应用使用了基于人工智能的算法,我们需要思考如何把社会学、经济学的思考映射到数学模型和算法方面。
  例如我们会发现:可解释性和隐私在某种程度上存在矛盾。AI 模型的可解释性需求往往是把一些模型的决策点一定程度上暴露出来。但随着模型决策点和边界条件的可视化,人们的隐私信息也在某种程度上面临着暴露。很多时候,从模型的推断结果可以反推一些人的基本属性——所以如何权衡这个问题,也是当下我们需要研究的重要课题。
  不过,可解释性和算法公平性又存在相互促进的关系。随着算法从一个黑盒变成白盒,慢慢引入可解释能力,我们将逐步消除 AI 算法中的潜在歧视。
  数据开放流通的三个层次
  讨论完数据权属和算法伦理之后,我们来看看如何在数据流通中去解决上述问题。
  数据的流通可以简单归纳为三个层次: 第一层:仅涉及到个人数据的生产和融合,仅仅是一个个体或平台,或平台通过观察的方式积累个人行为数据。今天人们在电商平台,或聚合新闻平台、短视频应用等,都属于这样的场景。 第二层:机构之间数据的互相交流,比较典型的例子是银行通过用户信息的流通不断提升风控能力,避免系统性风险。 第三层:数据流通的生态,在理想情况下应该存在多个数据的提供方,以及多个数据的消费者,这中间有一系列的机制来保证数据隐私与安全,同时也能提供更好的数据服务。
  在现阶段我们主要需要探讨前两个层次的技术。
  首先是个人数据生成和融合。这类场景会涉及到数据采集、模型训练,技术人员需要思考如何从数据挖掘核心信息,产生个性化模型,模型推理的结果会影响决策。这是一个比较长的链路,需在整个过程中关注如何保护个人隐私。保护往往需要从产品设计就开始考虑,并贯穿在产品的全生命周期中去。采集过程需以最小集采集为原则,而不是随意的、无明确范畴采集,这方面要引入差分隐私、数据脱敏等技术。在建立模型后,还需进行验证,确保模型可信——这方面有差分隐私可解释性的技术。
  当前的互联网正在进入云端协同的新阶段,消费者的行为通过手机或电脑在端上发生,模型很多在云上进行大规模机器学习训练产生,这样的体系被我们称为云端协同。
  在这个过程中,我们若想做到隐私保护,需要在端上实现理解用户的行为的同时,去做初步的数据筛选、数据清洗等等工作。清洗后的数据再到云端融合其他数据,产生新的模型计算。整个过程当中,云端系统并没有存储用户的行为,这种模式的真正应用能够为消费者提供更好的权益。
  最典型的形式是联邦学习,它可以说是一个分布式学习框架,在数据采集后采用不出域的原则,也就是我们今天可以把很多原型计算放到端侧设备上,通过协同方式去创建联合学习模型的方式。在这个过程中我们也可以通过差分隐私、可信执行环境等技术去加强数据保护的能力。
  机构之间的数据开放互通,通过各机构之间信任关系、网络状态、数据量以及模型复杂度等方式,可分为下面几个类别: 最直接的是集中式模式,也就是数据各个机构、参与方能够把数据汇总到集中式环节里进行模型训练,进行整个认知智能的探索。或使用一个特定的小集群来提供高效的数据融合,后者的好处是效率高,数据融合在一个主体,就可进行非常复杂的计算,它面临的挑战是如何搭建起可信环境。所以在实践中,我们经常会采用中心化模式。 去中心化模式中,所有的模型训练是分布式执行:数据提供方也是计算参与方。通过多方的协同来进行联合训练、联合学习。技术就会涉及到多方安全计算、同态加密等。在计算过程中做加密虽然带来了安全性保障,对性能也提出了很大挑战。该模式可做到安全可证,但同时会为性能付出代价。 集中式模式和去中心化模式之间还有一种中间状态,即联合计算模式。这个模式里,每方都会参与到模型计算,同时再引入中心化模块概念,其可以协调计算、模型训练。这里具有代表性的是联邦学习,拆分学习等,都属于联合计算学习框架。在这个框架中,我们需要通过差分隐私来保护各个模块与中心化模块之间的通信。以信息论为基础,我们可以度量任何信息交互所可能带来的个人隐私风险,也就是说个人隐私在联邦学习环境中计算所带来的一系列风险是可度量的。
  所以,我们可以把机构之间信息的开放、流通,可归纳为可信、可证、可度量的环境。
  开放智能技术
  如何把上面讨论的内容形成体系化的技术框架,去解决数据流通过程中遇到的各种问题,保证在各种复杂场景中数据的安全及隐私保护呢?
  这里引入一个新名词:开放智能,指的是用于解决数据开放流通过程中所面临的一系列问题的前沿技术的统称。这个领域非常复杂,技术也非常具有挑战性——在开放智能中,我们会面临多个数据主体,包括个人、企业,甚至政府,每一类主体的意愿、诉求都各不相同。个人层面想做到隐私保护,企业诉求是希望保护自己的知识产权和劳动成果。政府首先关注社会利益。同时还会涉及到如何激励开放的意愿,同时避免数据歧视、算法垄断等。
  我们可把开放智能的技术分为五部分: 首先是是底层的数据技术,主要用于解决数据授权的问题。 其次是计算技术,包括可信计算、可度量计算、可证计算,用于解决计算过程中的隐私保护问题。 第三层为算法层,解决合规合法、算法伦理、鲁棒性等算法可信赖的问题。 在此之上还有市场构建,需要思考如何通过激励机制、定价等,促进形成良好生态,解决数据流通过程中的效率问题。 最后是可验证技术,当模型训练好之后,我们需要确保模型实现的的确是我们需要它做的事情。
  蚂蚁推出了隐私计算框架——隐语,这是蚂蚁集团经过多年独立自主研发和业务应用打磨而构建的一套统一框架,旨在解决数据价值的安全流动这一行业难题。
  该框架有两个层次,上面一层是编译器,通过新的编译器技术,我们可以将整个执行图自动编译成密态计算图,并对其进行一系列的优化。下面一层是分布在不同参与方的 PPU(Privacy Preserving Unit),每一个 PPU 提供可信可证可度量的基础计算能力。由编译器生成的密态计算图会被分发到 PPU 上进行计算,最终产出用户需要的计算结果。
  蚂蚁集团的隐私计算技术架构——隐语,具有以下几个特点: 可扩展性,支持当前主流的机器学习的框架,上层可对接包括 TensorFlow、Pytorch、JAX 在内的多种主流机器学习框架,以及 SQL 前端;下层可以链接包括 SS、HE、GC 在内的多种安全协议。 隐私保护能力:支持包括可信安全、可度量安全和可证安全在内的多种隐私计算能力。 计算效率:目前隐私计算最大的问题在于性能瓶颈,蚂蚁集团对框架做了多方面的优化,包括 Platform + PPU 的双层设计可以提供分层优化能力,可以提供业界顶尖的计算性能和计算规模。
  开放智能的应用
  这样一套隐私计算体系目前已经获得了应用,一个的典型的场景是在个人信贷上。
  人们在银行办理贷款时,银行为了降低风险,往往会参考用户之前在银行系统中进行过的各类操作,包括购买的基金、金融产品,日常消费流水等。系统完整的分析结果会帮助我们提供更好的数据的服务,但这个过程需要全链路、健全机制的保障,需要在用户授权的情况下进行分析。
  为实现上述效果,就会涉及到多方安全计算。在联合计算之后还需进行验证,以确保每个数据参与方真正完成了它所需要做的计算。当训练好 AI 模型后,因为不能是黑盒状态,需要实现可解释,还要面向消费者进行告知:为什么今天可以贷这么多款。系统也不能因为客户的性别、年龄就对用户区别对待,在这一环节也需确保算法是公平的。最后,还有非常重要的监管环节,要有存证、审计的能力。
  开放智能是一个包含多领域知识的技术体系,涉及到了数据鉴权、隐私计算、可信赖 AI、市场机制等。这是一个崭新的领域,还有很多技术有待研究和创新。随着人们的不断参与,未来我们还将看到越来越多的新进展。

美国好日子到头了?军用基地分崩离析,五角大楼因为中俄美国海军目前拥有超过75个国内基地,而且这些基地绝大部分坐落于海边上,说到这儿,你是不是觉得美国海军过着面朝大海,春暖花开的日子?但不是所有的海军基地都有海边那令人陶醉的气息和魅力日本野心藏不住!哥斯拉横空出世,叫板F20?现如今,世界先进的空军作战装备迎来了大换血,五代机已经开始大规模列装部队,不过目前能独立研制五代机的国家也只有中美俄三国。可最近日本也没能耐得住寂寞,跑出刷存在感来了!其实早在中国专门对付中俄!美知名智库献出四大良策,美军要高枕无忧?提起大国竞争相信大家都不陌生,近些年来,随着中俄两国的实力不断提升,美国不得不把注意力转移到大国竞争上面来,美国的主要对手不再是中东地区的武装分子,而是中俄这两个实力雄厚,能和美国文在寅还是妥协了!之前强硬变笑话,给美国的保护费再次大涨截至目前,韩国领土上长期驻扎着三万余名美军,而且根据美韩共同防御条约的规定,驻韩美军司令官同时兼任美韩联合司令部司令官,也就是说,如果韩国发生战事,那么驻韩美军将和韩军在美韩联合司印度要向西方宣战?一口气威胁十余家国际军火巨头,谁给的勇气?最近印度国防部作出的一个举动再次让它成为了舆论关注的焦点。有媒体称,最近由于一些外国军火巨头没能按约定履行其在与印方国防交易中的抵消义务,印度国防部要把11家外国公司列入实施处罚的放虎归山?美国取消限制后韩国将研制新型导弹,最慌的不是中国就在今年5月,美韩双方达成了一项新协议,韩国在发展导弹这方面将不再受到射程和弹头重量上的限制,之前美韩导弹指南在经过四次修改之后,韩国导弹的最大射程被限制在了800公里,弹头重量不美军收获意外之喜,国会或将拨出250亿美元,多艘战舰不用退役?就在最近,万众瞩目的美国2022财年军事预算似乎又有了新的变化。据防务新闻报道,美国众议院军事委员会资深成员迈克罗杰斯提出了2022财年国防授权法草案的修正案,要对之前提出的内容进莫迪再遭迎头痛击!印度军机连连出事,空中霸王秒变飞行棺材有这么一句话,你永远不知道,明天和意外,哪一个会先来。的确,在这个世界上,多的是始料未及和意想不到。就像8月24日,美英日三国航母齐聚印太秀肌肉的时候,印度怎么也不会想到,到了8月骗谁呢?美国告诉中国航母无用,结果转身就开建第4艘福特航母什么是当今海上强国的标志?什么是大国海军的象征?这两个问题的共同答案那就是航空母舰。可以说,只有拥有航母的国家才能有在国际海洋问题上的绝对话语权。美国就凭借着自己的11艘核动力航母美国刚刚撤离阿富汗,澳大使就来揭短,中国威胁比911还大就在最近,美国费劲了九牛二虎之力终于从阿富汗这个帝国坟场里走了出来,在持续了20年的阿富汗战争中,美国付出的代价已经难以估量,除了2461名美军士兵阵亡,2万余名美军士兵受伤以外,将中国基地纳入打击范围?韩国首艘导弹潜艇服役,是美国在使坏?今年5月份的时候,韩国总统文在寅访问了美国,并与美国总统拜登进行了会晤,此次会晤让韩国收获良多,当时拜登当着文在寅的面宣布终止了韩美导弹指南。这就意味着韩国以后可以发展射程在800
射电望远镜捕捉巨大黑洞,质量约为太阳65亿倍近期科学家发现了微型黑洞,半径约为0。23纳米,大约是一米的2。3亿分之一,这种原子大小的黑洞形成于大爆炸初期,极有可能构成宇宙中所有暗物质的总和。在2019年,科学家成功使用射电科普讲座现场应中国地质调查局青岛海洋地质研究所邀请,中国科学院南京地质古生物研究所二级研究员冯伟民博士近日为青岛金门路小学的师生们带来一场名为揭开恐龙化石奥秘的科普讲座,并向学生们赠送了科普著天文学家拍摄到史上最清晰的第谷陨石坑照片就在近日,天文学家基于一个全新的望远镜系统成功从地球上拍摄到有史以来最高清的月球照片。此次拍摄的目标是第谷陨石坑,这是我们对月球最印象深刻的地标之一。即便是从数十万公里外拍摄的,这宇航员在火星3个月返回地球,为什么需要抬着?身体变化很明显前几日,我国三位宇航员成功完成太空任务返回地球,有一个细节相信很多网友都注意到了,在下飞船的时候,宇航员都是坐着的,甚至和民众打招呼都是由工作人员抬着的,为什么会造成这种现象呢?这NASA火星探测器洞察号,一个月内观测到火星发生了3次4级地震美国航空航天局的喷气推进实验室(NASAJPL)于当地时间9月22日宣布,火星探测器洞察号在过去的一个月内检测到了3起4级的火星地震(也称火震)。洞察号于2018年11月登陆火星的一百年之后人类文明的结果是什么?科学家人口减少成常态人类之文明,如何延续繁衍?这是科学家们一直在探讨的问题。人类自诞生以来,不断进化,才有了今天这般成就。宇宙,犹如一个巨大的轮盘,地球只是轮盘上一个不起眼的点,人类则更加渺小。人类虽往太空送快递,也要检测新冠病毒9月20日,天舟三号货运飞船发射成功,当晚,天舟三号成功对接空间站天和核心舱后向端口。至此,中秋太空快递签收成功。中国航天科技集团五院货运飞船系统总体主管设计师王冉说,货运飞船的主科学家揭示霸王龙的主要打斗方式咬脸近日,来自加拿大的研究团队针对霸王龙的生活习性有了进一步的研究收获。研究人员声称,霸王龙头部骨骼的伤痕表明,霸王龙因某种原因与同族打斗时,其主要攻击方式是狠咬对方脸部。研究进一步推二氧化碳变淀粉?中国科学家做到了导语中国科学家继上世纪60年代在世界上首次完成人工合成结晶牛胰岛素之后,又在人工合成淀粉方面取得重大颠覆性原创性突破,即在国际上首次在实验室实现二氧化碳到淀粉的合成。中国科学家将二如何理解爱因斯坦广义相对论的方程如何理解爱因斯坦广义相对论的方程从数学上讲,这是一个怪物,但我们可以用简单的语言理解它。爱因斯坦场方程看起来非常简单,但它们的编码蕴含了巨大的复杂性。看起来像一个紧凑的方程实际上是土木人眼中的土(一)在自然界,存在于地壳表层的岩石圈是由基岩及其覆盖土组成,所谓基岩是指在水平和竖直两个方向延伸很广的各类原位岩石所谓覆盖土是指覆盖于基岩之上各类土的总称。基岩岩石按成因可分为岩浆岩变