童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

Facebook首席AI科学家图文演讲:如何让AI学习常识,

11月23日 蚀肉堂投稿
  4月26日,GMIC北京2018在北京国际会议中心召开,Facebook首席AI科学家杨立昆(YannLeCun)通过视频连线做了题为《AI的最新技术趋势》的演讲。以下为演讲内容:
  杨立昆:大家晚上好!我这边是晚上,你们那边应该是上午,非常抱歉我不能亲自到会场上来。我叫杨立昆,来自F人工智能研究院以及纽约大学。今天我想讲一下关于深度学习的一些情况,同时也会提及深度学习的未来,以及我们所面临的关于深度学习方面的挑战,即如何让机器变得更加智能。
  从监督学习开始
  我们看一下今天的AI系统,如今所有的应用,不管是影像、声音或者是图像的识别,或者语言间的翻译等,这些内容AI都需要通过监督学习来获得。
  比如说:向它展示一些车的图像,告诉它这些都是车,下次再向机器展示车的图像的话,它就会告诉你答案是车。所以你可以看到,监督学习,对于计算机的学习非常重要。
  我们现在的有监督学习,或者说深度有监督学习,就是组合起来一些可以训练的模块,形成端到端的一个学习过程。一端是原始的输入,另一端就可以得到结果。通过这种方式,计算机会更好地了解我们的世界。
  实际上这个想法可以回溯到上个世纪八十年代的时候,当时提出的卷积神经网络可以识别图像,同时也有很多其他的应用。比如:说可以用于语言处理和语言识别和其他很多的应用,这就是我们如今在使用的一些常见应用的模型雏形。
  我们知道神经网络是非常庞大且复杂的,只有在算力很强的计算机上才可以运用。在深度学习变得普遍之前,我们需要确保机器学习的系统可以顺利应用。
  比如说:我们在2009年、2010年在纽约大学的一个合作项目,即利用ConvNets进行语义分割。我们可以看到:它能识别图像,能把马路上的建筑、天空以及路上的车和人等等在像素级别上分开。当时的识别技术还算不上非常完美。
  但在几年后,我们可以看到有一些公司利用上述技术做了一些工作,系统可以识别出道路上的车辆和行人,这也是实现智能驾驶的重要组成部分。随着深度学习的发展、网络的深度越来越深,越来越多的人相信深度学习是可以奏效的。
  大家可以看到几种常见的神经网络,比如:VGG、GoogLeNet、ResNet还有DenseNet等;比如说:有100层或者180层的一些人工神经网络。
  像在Facebook中我们会广泛使用深度神经网络来识别图像。
  随着网络深度的不断增加,识别ImageN图像的错误率也在不断下降,现在已经表现得比人还要好。在ImageN上的表现已经太好了,以至我们现在都已经不再把它作为首选的评价标准了。我们现在也在研究更复杂的问题,不只是识别图像,还要能够进行本地化处理。
  MaskRCNN是我们在Facebook人工智能研究院所做的研究,可以看到它的表现非常好,不仅仅可以识别出对应的物体是什么,还可以对图像进行精细的分割,只是部分可见的东西都可以分得清。
  大家可以看到:它可以识别电脑、酒杯、人、桌子,还可以统计它们的数量,而且也可以识别出道路、汽车等。
  如果五年前让系统来解决这些问题的话,我们当时可能认为需要1020年时间才能达到今天呈现的效果。这个模型也是我们开源的Dectectron物体检测平台的一部分,大家可以下载其中的代码,预训练好的模型可以检测200多种不同的类别。
  Facebook在AI方面做研究的方式是我们不仅仅发布了一些论文,同时连代码也开源出来,这样的话全世界都能更好了解这些成果。
  当然还包括其他很多项目,在Facebook,我们利用这样的技术设计了DensePose,它在一个单一的GPU上运行,可以预测密集人体姿态估计,而且系统能够实时运行。
  这个系统可以追踪很多人的行为,生成视频,而且对姿势的判断也非常准确。此外,它可以实时地生成分片3D模型,相应的代码也是开源的。
  当然利用这样的技术不仅仅可以进行图像识别,也可以进行面部识别,还能识别人的行动,甚至可以用来翻译。FairSeq是Facebook在加州所做的研究,我们可以用我们的系统进行翻译工作。
  在Facebook经常有各国语言,采用这种技术可以把一些文字从一种语言翻译到另外一种语言。
  我觉得对于行业来说,进行这样的开发研究将是会是一个非常有用的过程。对于我们研究团队来说,不仅仅要开发对我们公司来说非常有用的技术,同时我们也希望所开发的技术能够引导整个社区,能够解决我们所感兴趣的问题。
  我们认为AI不仅仅会帮助Facebook解决问题,同时还会帮助人类解决很多自己无法解决的挑战,所以我们会与我们的科学团队一起朝这方面努力。
  以下是在过去的几年里,所发布的一些开源项目,包括像深度学习网络、深度学习框架,还有关于深度学习的应用。
  我刚才讲到:Facebook每天都会有一些新的应用发布,比如:医学影像分析、自动驾驶、语言翻译等等,在科学方面也有很多应用。
  我们也可以看到,深度学习的广泛应用会进一步推动科学方面的研究,在接下来几年里,我们会看到深度学习会发生更大的变革。
  这是一个NVIDIA训练的自动驾驶的demo视频,它是用卷积网络做模仿学习。模仿人类驾车,它会识别摄像头拍到的路况,然后把结果映射为方向盘的角度,它可以在郊外的路上连续开几分钟而不需要人的干预。
  可微分编程:深度学习与推理的联姻
  我们再来看一下可微分编程。
  实际上我们可以从另外一个角度来理解深度学习,深度学习并不是一定需要构建一个固定架构的神经网络然后训练,它也可以是写程序代码,但程序代码可以被解释为神经网络。这样的程序里会带有一些参数,然后可以通过训练来优化这些参数,这些参数的最终取值也就取决于训练数据。
  当然了我们也需要写第二个程序,计算输入关于参数的导数的梯度,就可以往正确的方式调整这些参数的值了。这样动态改变了最终网络的结构,它也就可以适应不同的任务。这就是可微分编程。
  这是几年前所开展的一项典型的工作,Facebook和纽约大学一起合作的,用记忆模块增强神经网络,网络的结构也就是动态的,这样的做法也会影响未来我们用什么样的工具开发神经网络。
  这是另外一个关于动态计算的例子。如果你要建立一个系统能够回答复杂问题的话,比如:下面的这副图中,红色的立方体,是不是要比别的大一些?或者立方体有没有比某个颜色的东西更多?
  这是几年前F和斯坦福大学合作的研究,它的关键思想是:通过循环神经网络LSTM输入问题,问题会被编码成向量的形式,然后向量再被另一个网络解码,解码后的结果像是一种程序,程序解释后的结果是几个模块连接形成的计算图。这样最终我们就解答了这个问题。
  比如:对于问题立方体有没有比黄色的东西更多,我们首先需要一个立方体的检测器,然后需要检测黄色东西的检测器,分别数出来都有多少,最后对比两个数字得到了结果。动态计算就可以端到端地训练出执行这样任务的程序,决定它的组成结构的也就是用来训练它的数据。
  刚才看到的都是一些已经做到的深度学习成就,那么我们还需要看一下:距离达成真正的AI我们还缺了什么?
  现在我们已经可以构建出更安全的车辆或者说自动驾驶车辆,我们有更好的医学影像分析、还不错翻译软件、差不多能用的聊天机器人,但我们还做不出来有常识的机器人、做不出真正有智慧的个人助理、做不出可以替代洗碗机的管家机器人。
  我们缺了一些重要的东西。
  强化学习是我们缺的那块拼图吗?
  有的人会说:答案就是强化学习。强化学习当然也很有力,但是它只能在游戏的、虚拟的环境里发挥。
  玩DOOM、下围棋,都没有问题,但是因为强化学习需要很多的尝试,AlphaG甚至自我对局了上百万局,这些都是现实世界里做不到的,所以强化学习并不适合解决现实生活中的问题。
  玩A游戏需要上百个小时才能玩到人类玩几分钟的水平,学开车就更是要先撞坏很多车才能学会,现实世界里的尝试也没办法加速时间,这都是不可接受的。
  所以确实我觉得人类和动物的那种学习方式,现在的机器并不具备。
  机器需要学习常识
  我们想想婴儿是怎么学习的呢?
  比如:我们给婴儿看左上角的这张图,那个小车漂浮在空中,虽然没有下面没有任何支撑,但是并没有掉下来。不到6个月大的婴儿看到这张图片并不会觉得惊讶,但是更大的婴儿已经知道了没有东西支撑的话是会掉下来的,看到这张图片就会很惊讶,像左下角的图这样。
  我的一位朋友,她是在巴黎工作,她给我们展示了婴儿在每个月分别能学会哪些概念,而且他们也能够了解到一些物理最基本的原理。这是他们在生命的最初几个月学到的一些概念,也就有假说认为这就是常识萌芽的时期。
  动物也有一定程度的常识,比如:这只幼年的猩猩,我们给它变了个魔术,在杯子里放了东西然后把它变没了。猩猩本来期待着东西还在里面的,当它看到不见了的时候就笑得躺在地上了,这只猩猩就对这个世界有着较为准确的认知模型。
  那么我们需要做的,也就是让机器具备对这个世界的模型,我把这个称作自我监督学习或者预测学习。机器要尝试预测自己看到的东西的各个方面,这也可能就是能让机器像人类一样高效地学习的关键。
  这种学习主要靠观察,没有监督,和世界只有很少的互动。它们除了接收,还要可以规划和行动,这正是构建自动化机器的关键。
  所以不管下次的变革在哪个点,我觉得它都不会是监督学习,当然也不会是纯强化学习的。它应该会有某种自我监督或者无监督学习,而且也会在这样的变革当中出现一些常识性的学习。
  我总结一下:这也就是我们近期在F做的预测学习,学习如何预测、推理以及计划,也就是学习常识。它的核心思想是自动的智能机器人应当有一个内部的世界模型,可以在它做出行动之前自己进行模拟,预知自己的动作的结果。
  这是一种最优控制中常见的方法,但在机器学习中就不那么常见了。这里我们遇到的问题也就是如何让人工智能学会对世界建模、从而用这个模型帮助自己规划现实世界中的行为。
  预测的时候还需要处理不确定性,在桌子上立一支笔,然后松手,它就会倒下来。我们只确定它会倒下来,但是不确定具体会倒向哪个方向。这种时候我们也就需要对抗性训练,训练模型不只给出一个答案,而是多个可能的答案。
  这里需要两个模型:一个模型做预测,另一个模型来评判哪些结果还不错、哪些结果是现实世界不太可能发生的。做预测的模型也就要尝试让自己的预测越来越好,让做评判的模型分不清哪些是真的会发生的,哪些只是预测出的结果。
  根据这样的思路,早几年的GAN就可以生成卧室的照片,今年NVIDIA也可以生成非常逼真的高清明星照片。
  所以,对抗性训练也就是我们希望可以帮助建立预测机器的方法。预测应当是智慧的核心,我相信能训练出具有预测能力的模型也就能在未来几年中为我们带来大的进步。
  AI发展趋势的预测
  我最后做一下总结:对于AI学术研究的趋势,监督学习和强化学习即便不会被取代,也会被自我监督学习和无监督学习大大地增强。学习具有预测能力的模型也会成为未来几年内的研究热点,这能让我们从无模型的强化学习来到基于模型的强化学习以及模仿学习,它们的效率都会提升很多,所需的尝试次数也会少很多。
  另一件事是:让模型具有推理的能力,但同时还和深度学习是兼容的。就是让深度学习方法可以做符号表示方法可以做的事情,把符号换成了向量,把逻辑变成了可微分的程序操作。
  目前的固定结构的网络会变成动态的、由数据决定的网络结构。这也会需要在计算方法方面有新的探索,从而成为系统性的问题。深度学习本身我认为也会有一些进化,它们操作的不再是数值或者高维向量,而是操作图结构之类的复杂数据结构,更多的深度学习理论也可能会出现。
  在AI的技术应用方面,我认为监督学习会变少,更多的会是无监督特征学习、监督微调,这样可以在更多没有充足数据的场景下工作。比如:小语种的翻译,只有很少的双语对照语料。
  我们也会看到新的深度学习框架出现,为动态网络提供编译器,PyT就在尝试向这个方向发展。对于不同框架之间的可协作性,我们也和微软、亚马逊等公司一起合作设计了ONNX。
  让神经网络在移动、低功耗设备上做推理也有很多研究,这已经成为了一个非常重要的问题。对于F这样的公司来说,每天用户要上传20亿张照片,而且每张照片都需要被一系列卷积网络识别,分析不同的信息。
  这会消耗很多电力,尤其是想要拓展到处理视频等一些别的任务中的话,所以也就需要研究如何在低功耗设备上运行神经网络。现在手机上也已经出现了GPU之外的专用深度学习处理器。
  感谢各位的倾听,我就讲这么多。谢谢。
  
投诉 评论

机器之魂:论AI在未来工厂中的应用编者按:未来的工厂会是什么样子的呢?在AI作为关键驱动力的作用下,工厂会变得更敏捷更定制化。这方面以及有一些国家(比如美国、中国)和公司开始捷足先登。但是绝大部分国家和公司对此……人类感知和深度学习有何不同?人类与机器相比为什么会产生错觉?人类感知和深度学习系统在识别图像与声音上有什么区别?它们是如何感知的,原理是什么?本文将对上述几个方面的内容给出详细解释。我们如何看待这个……谷歌助手点餐,微软小娜下单:AI横行的未来世界里没有人类什么机器人和机器人之间的交流,摒弃了任何人类的从中参与。而没有人类的参与,也就同时意味着,这当中的任何一个过程都不由人类来创造价值。国内用户基本上已经熟悉了在手机上下单订餐,……会打电话的AI背后:谷歌Duplex技术解析谷歌昨晚在加州召开了2018年度的开发者大会(GoogleIO2018)。在大会介绍的AndroidP、Gmail、Gboard、TPUv3等众多新产品和功能中,尤为……当AI成为“人缘裁判”,我们该在社交软件里何去何从?互联网的兴起催生了网络社交,人们在社交平台的只言片语都成为了数据而被存留。随着大数据时代的来临,粗略的估算逐渐被量化呈现的数据取代,微博上有多少粉丝、朋友圈里有多少大佬,都是个……从历史、入侵、服务、未来4个层面,看机器被赋予“智能”的过程AI就在身边,只可惜它在你面前的状态为“隐身”。智能是人类赋予机器的一个称号,并不代表取代(被掌控)。既然是被赋予的,可以从(由来、入侵、服务、未来)四个层面来看机器被赋……Facebook首席AI科学家图文演讲:如何让AI学习常识,4月26日,GMIC北京2018在北京国际会议中心召开,Facebook首席AI科学家杨立昆(YannLeCun)通过视频连线做了题为《AI的最新技术趋势》的演讲。以下为演讲内……AI与基因科学的对话:高岭之花如何“接地气”AI技术已经渐渐步入了人们的生活,而基因科学却似乎离我们还很远。不过基因科学可能很快就要进入一个爆发期了,未来AI可以与基因科学联合,一起在医疗领域大显身手。有人的地方就……突围红海,腾讯听听音箱的全局设计再推演如果把腾讯听听音箱现状称作PlanA,那在产品设计之初,一定是会有更优的PlanB。一。推演背景听听是一款不错的音箱,但不是必胜的方案。腾讯在4月20日对外发……Face云服务平台产品负责人:AI如何助力行业智能化算法,是否可行?行业,是否认可?决定了,是否可以做?用户场景是什么,决定了是否值得做?能否给现有行业的核心玩家带来相应的价值,且价值可否去复用,这是判断是否有价值并且可持续。边……机器心理学家:可能是未来唯一不会被AI取代的职业AI与心理学看似是相亲结合,其实是指腹为婚。《我,机器人》是美国著名科幻作家艾萨克阿西莫夫一生中最重要的一部中短篇科幻小说集。小说集描绘了机器人的智能水平在经历了一步步发……语音交互启蒙篇随着智能音箱、智能家居等智能硬件的普及,语音交互热度也不断飙升。本文内容主要为语音交互启蒙篇。2018年的3月,小米,百度等多个公司发布智能音箱产品,小爱音响mini、小……
中美罗马会晤后外交部再回应俄乌局势印度“意外”向巴基斯坦发射导弹?大有蹊跷美国安局主力网络间谍装备曝光已控制全球海量设备俄罗斯副外长:向乌运送武器将面临严重后果俄罗斯央行黄金资产被冻结影响几何李嘉诚净赚800亿撤出英国?腾讯股价跌60市值蒸发超4万亿基金一季度或已亏近百亿知乎Q4非广告业务收入占比逾6成商业内容解决方案成增长新曲线知乎Q4营收10亿元同比增长96股价盘前下跌9抖音2022年重点打压方向,也是赚钱密码谁在为知乎拓边疆?中方向乌克兰提供食品,而美方提供致命性武器

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界