范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

AI训练的福音关于合成数据的一切

  如今,AI技术面临数个难以攻克的核心挑战。其不仅需要大量数据以提供准确结果,同时也要求我们认真挑选数据内容以避免引入偏见,而且必须严格遵守日益苛刻的数据隐私法规。过去几年以来,围绕这些挑战诞生出一系列解决方案——包括用于帮助识别并减少偏差/偏见的各类工具、用户数据匿名化方案以及用于保证仅在用户同意时收集数据的管理框架等等。然而,每一种解决方案都有着自己的问题与短板。
  如今,我们正迎来合成数据这一新兴行业,有望全面破除上述困局。合成数据是指由计算机人工生成的数据,可用于替代自现实世界中采集的真实数据。
  合成数据集必须与真实数据集拥有相同的数学与统计学属性,但不可明确指代真实个体。大家可以将其理解为真实数据的一种数字化镜像,能够在统计学层面反映实际情况。如此一来,我们就可以在完全虚拟的场域当中训练AI系统,并更轻松地针对医疗保健、零售、金融、运输乃至农业等各类用例实现数据定制。
  由此掀起的革命浪潮正在孕育当中。StartUs Insights去年6月发布的研究结果表明,已经有50多家供应商开发出合成数据解决方案。但在具体介绍领先厂商之前,我们先来了解合成数据能够解决哪些具体问题。
  真实数据带来的大麻烦
  过去几年以来,人们越来越关注数据集中的固有偏差/偏见如何在无意之间给AI算法带来永久存在的系统性歧视。根据Gartner公司的预测,到2022年,由数据、算法或AI项目管理团队引入的偏差/偏见将在所有错误交付结果中占据85%的比例。
  AI算法的激增也引发了人们对于数据隐私的日益关注。为此,欧盟通过GDPR、加利福尼亚州颁布州内隐私法案,弗吉尼亚州最近也着手制定更为严苛的消费者数据隐私与保护条款。
  相关法律的出台,使消费者能够更好地控制其个人数据。例如,弗吉尼亚州的新法律向消费者授予访问、更正、删除及获取个人数据副本的权利,同时也允许消费者随时拒绝企业销售其个人数据、或者出于针对性广告发布等目的对个人数据/资料进行算法访问的行为。
  通过限制信息访问渠道,个人信息确实得到了有效保护,但这同时也将牺牲算法的预测效果。要获得高准确性AI算法,模型希望数据供应越多越好;而如果得不到充足的数据,则AI优势在实际应用(例如协助医学诊断及药物研究)方面的表现也可能受到影响。
  另一种隐私问题解决方案则是消费者信息匿名化。例如,我们可以通过掩蔽或消除身份特征(例如删除电子商务交易记录中的姓名、信用卡号,或者清除医疗记录中的身份内容等)实现个人数据匿名化。但越来越多的证据表明,即使对某一数据源完成匿名处理,对方仍能够利用不慎泄露的其他消费者数据集实现内容关联与还原。实际上,通过合并来自多个来源的数据,即使经过一定程度的匿名化,恶意方仍然能够整理出令人惊讶的清晰身份形象。在某些特定情况下,对方甚至能够直接关联公共来源数据,在无需任何恶意攻击的前提下完成身份定位。
  合成数据解决方案
  合成数据承诺在实现AI优势的同时,消除各类负面影响。除了将真实个人数据排除在外,合成数据还强调纠正现实场景中产生的种种偏差/偏见,由此实现超越真实数据的素材质量。
  除了高度依赖个人数据的应用场景之外,合成数据还有其他多种用途。其一就是复杂的计算机视觉建模,这里往往涉及多种因素的实时交互。我们可以使用由高级游戏引擎合成的视频数据集创建出超逼真图像,用以描绘自动驾驶场景中可能发生的各种事件,由此获得现实场景下几乎不可能捕捉到、或者可能极度危险的图像或视频。这些合成数据集的出现,极大提升并改善了自动驾驶系统的训练效率与效果。
  图:使用合成图像训练自动驾驶车辆算法
  颇为讽刺的是,用于构建合成数据的主要工具之一,恰巧与创建Deepfake深度伪造视频的工具相同。二者均使用到生成对抗网络,即GAN。GAN的本质在于创建两套神经网络,其一生成合成数据,其二则尝试检测合成数据是否真实。在整个操作循环当中,生成器网络将不断改善数据质量,直到分类器无法找出真实数据与合成数据之间的差异为止。
  新兴生态系统
  Forrester Research最近确定了多项关键技术,其中就将合成数据列为实现"AI 2.0"的必要因素之一,使其能够从本质上扩展AI的应用可能性。通过更完备的数据匿名化功能以及强大的固有偏差/偏见纠正能力,再加上批量创建以往难于获取的数据,合成数据有望成为多种大数据应用的效率之选。
  合成数据还具有其他一系列优势:您可以快速创建数据集,并重复使用这些标记数据实现监督学习。另外,合成数据不像真实数据那样需要清洗与维护,因此至少从理论上讲,这项技术能够节约下大量时间与成本。
  目前,市场上已经出现了几家信誉卓著的合成数据厂商。IBM表示其正着力推进数据制造业务,希望通过创建合成测试数据以消除机密信息泄露风险、解决GDPR及其他法规问题。AWS则开发出内部合成数据工具,通过生成的数据集不断对Alexa进行新语种训练。微软还与哈佛大学合作开发一款工具,其中的合成数据功能可以增强各研究部门之间的协作。虽然形势一片大好,但合成数据仍处于起步阶段,市场走向将在很大程度上由新兴企业的发展所决定。
  下面,我们整理出一份简单的合成数据行业早期领导厂商清单,具体信息来自G2与StartUs Insights等行业研究组织。
  1、AiFi — 使用合成数据模拟零售商店与购物者行为特征。
  2、AI.Reverie — 生成合成数据以训练计算机视觉算法,借此实现活动识别、目标检测与划分。应用范围包括智慧城市、稀有物质示板识别、农业以及智能零售等场景。
  3、Anyverse — 使用原始传感器数据、图像处理功能以及汽车行业的定制化激光雷达创建合成数据集,借此实现场景模拟。
  4、Cvedia — 创建合成图像,简化标记、真实与视觉数据的收集流程。这套模拟平台使用多种传感器合成逼真环境,借此创建出丰富的实证数据集。
  5、DataGen — 室内环境用例,支持智能商店、家用机器人及增强现实等场景。
  6、Diveplane — 为医疗保健行业创建与原始数据具有相同统计学属性的合成"孪生"数据集。
  7、Gretel — 为开发人员提供与GitHub数据等效的合成数据集,其中包含与原始数据源相同的洞见。
  8、Hazy — 生成数据集以增强欺诈与洗钱检测能力,用以打击各类金融犯罪。
  9、Mostly AI — 专注于保险与金融领域,也是最早创建合成结构化数据的厂商之一。
  10、OneView – 开发虚拟合成数据集,用于通过机器学习算法分析地球观测图像。

OUMR1表面电阻测试仪镀层测厚仪一简介OUMR1表面电阻测试仪使用特殊的4极接触探头,用于确定金属涂层塑料外壳是否具有足够的电磁兼容性。OUMR1体积小,易于操作,由电池或蓄电池供电。通过选择一种预先编程的材料,南庄再迎百亿级产业项目!将打造高端电子芯片产业基地9月23日,禅城区又一工业地块成功出让。据了解,该地块位于南庄镇河滘大道与富兴路交叉口附近,将打造高端电子芯片产业基地,投资总额超百亿元,其中首期投资40亿元,二期投资60亿元。继芯片短缺成全球汽车市场拦路虎,会影响畅销车企车型排名吗当然芯片短缺出现的时机本质上也非常巧合,那就是正值全球汽车产业从传统燃油车向新能源汽车转换的过程中,这两个因素叠加起来,实际上就形成了双层筛选的机制。对于很多汽车品牌和厂商来说,挺特斯拉超级计算机算力全球第五,展现无人驾驶领域野心汽车自动驾驶是未来汽车行业发展的必然趋势,也是众多从业人员正在攻破的技术壁垒。自从DNN在语音识别和图像识别任务中展现出突破性的成果,DNN方法就被大量应用在无人驾驶汽车。DNN超提升量子计算机纠错能力的简易修改方法通过对代码进行一番调整,悉尼大学本科生PabloBonillaAtaides,已经有效地提升了新兴的量子计算机的纠错能力。现年21岁的Bonilla表示量子技术仍处于起步阶段,这部7平方厘米芯片可同时检测千种突变酶人们要弄清蛋白质或酶是如何工作的,以及了解基因突变如何影响这些对生命至关重要的分子,往往需要数年时间。研究人员必须一个个地改变分子中的氨基酸,产生变异的酶,并测试变异如何影响酶的机危险,危险,危险抽查近三成不合格有相关的儿童安全机构曾经发布过这样的数据,60左右的儿童伤害是发生在家里,而在家里发生的儿童伤害又大多和家具有关。所以,现在很多家长都会特意挑选儿童家具,认为儿童家具是给孩子专用的超级计算机帮助保护地球免受太空风暴影响密歇根大学研究人员使用Frontera超级计算机来改进空间天气预报系统,避免极端空间天气事件的最坏影响。上一次重大的空间天气事件在1859年袭击了地球,但是破坏度较小的空间天气事件国内最好的超声波硬度计厂家目前市场上什么牌子的超声波硬度计好?超声波硬度计哪个品牌质量好?请参阅中国无损检测网整理十大超声波硬度计品牌榜中榜。超声波硬度计又称为便携式硬度计超声硬度计便携维氏硬度计电镀层硬度OU1850波形AB扫描超声波测厚仪一产品概述OU1850高精度波形超声波测厚仪将穿透涂层及超薄测量发挥到极致,同时添加了波形显示数据回放及单双晶切换功能,并兼顾可靠性性能与耐用性,无论您在何处检测,OU1850波形金相切割机怎么选?从砂轮到精密,处处有学问市面上金相切割机种类繁多,让想要了解的金相朋友们无从下手,究竟什么样的金相切割机更适合自己了?恐怕很多朋友都是不太清楚的,那么今天就由小编带着大家一起来看看链能家都有那些金相切割机
日本斥资43亿日元,在河面上造了个拱门?这到底有什么用呢?风力超过12级的大风,在北太平洋国际日期变线的西部,例如菲律宾中国等国,人们习惯称其为台风,在大西洋或太平洋东部地区,这里的人们更愿意称之为飓风在南半球,如澳大利亚他们会称台风为旋印度军队伙食那么差,为何却有那么多胖子?带兵打仗能行吗?不同于解放军的英姿飒爽,干练挺拔印度军人基本上都是大腹便便。难道是印度军人的伙食太好了吗?并不然,印度军人的伙食不仅没有营养,食物种类还特别单一。基本都是土豆,面和米配上咖喱印度人我们是谁?倍美平台助你实现人生目标!今晚2000,不见不散五一小长假结束啦在五一小长假结束后的第一个工作周倍美导师直播课精彩继续导师们将从不同的角度带给大家新的理念和讯息让课程更加生动今日课程预告直播时间5月6日晚2000直播讲师商学院于倍美新视商全国市场培训会议在天津总部召开2021年5月8日上午10点,倍美新视商全国市场培训会议在总部召开。参加本次培训的有来自全国大江南北的市场团队精英与慕名而来的新会员。培训安排一经公布便得到全国数百位新老会员的积极被拒签的中国留学生受挫的学业生活理想,准备联合发起诉讼01hr我是一名本科和硕士都是生物相关的工科学生。我深刻的了解到,我所学的领域和计算机技术的融合,将为医生减轻大量负担,为病人带来精准的诊治,为全人类的健康福祉做出我的贡献。转学计张永振土得掉渣的中国科学家和他的病毒探险之旅编者按2020年1月11日,中国科学家张永振团队面向全世界公开了新冠病毒基因序列,被认为是此次全球科学界合作抗疫的重要事件。张永振说,中国和中国科学家们一直在积极地研究和发现新病毒视商是网络新零售发展的必然趋势古人常言大道,不仅指治国安邦之道,更是指历史的大逻辑发展的大潮流。想要看大势谋大局,就需要以史为镜,鉴往知来。在重要的时间节点上,我们总是能够从长线历史的大逻辑中,找寻方向汲取力量大师李政道构建两种文化的桥梁图文丨郑锌煌审核丨吴慧导语2021年4月8日1830,明德讲堂M678期讲座在中国科学院大学雁栖湖校区国际会议中心举行。国科大人文学院汪前进教授主持。科思技术研究院副院长科思科技促非升即走,青椒们已经快卷不动了撰文丨江城6月7日,一则警方通报很扎眼2021年6月7日14时52分,杨浦区邯郸路某大学发生一起持刀伤人案件。民警迅速到场将犯罪嫌疑人姜某(男,39岁,该校教师)控制,经120现场为何一件数字艺术作品,能拍出6930万美元的高价?3月11日,美国数字艺术家迈克温克尔曼(艺名贝普尔)的NFT作品每天第一个5000天,在全球顶级的佳士得拍卖行拍出了6930万美元天价,荣登了迄今为止全球在世艺术家的第三高拍卖价。Nature发文推广科思奖消弭国界,加强国际交流与合作本文今日发表于微信公众号NaturePortfolio一个由科学家发起的新倡议,正在为年轻学者提供获得国际认可和参与国际科学合作创新的新机遇。席卷全球的新冠疫情和地缘政治格局为国际