吴恩达AI是时候从大数据转向小数据了
丰色 编译整理
量子位 | 公众号 QbitAI
AI大牛 吴恩达 不久前刚被检测出新冠阳性,许多网友都向他表达了早日康复的祝愿。
如今,他的工作重心放在了他的 Landing AI 公司上。
这是一家专门面向制造业厂商数字化转型的初创公司,创立目标就是帮助制造业公司更快速、轻松地构建和部署人工智能系统。
对于传统企业来说,预训练好的模型都是基于公开数据,实际派不上用场。
但毕竟是传统企业,上哪儿收集 海量的特定数据 来支撑训练?
那Landing AI是如何克服的这个困难?
最近,吴恩达在 接受IEEE Spectrum的一段专访 中,讨论了人工智能领域下一个十年的风向,表达了"是时候从大数据转向小数据、优质数据 "的观点。
或许我们能从中找到这个问题的答案。
以下整理自采访原文,略有删减。
IEEE Spectrum:得益于越来越大的模型和数据集,深度学习在过去十年间取得了巨大的进步。一些人认为这是一个不可持续发展的轨迹。你同意吗?
吴:这确实是个值得思考的问题。NLP领域已经有了基础模型 (foundation model) ,并正在继续扩大规模。计算机视觉领域也有构建基础模型的潜力,就是在视频领域由于计算带宽(算力) 和处理成本的限制还有待开发。虽然扩展深度学习算法的引擎已经运行了大约15年,但它还有足够的动力。不过,它只适用于某些问题,还有一系列场景需要小数据解决方案。
注:基础模型是Percy Liang和吴在斯坦福大学的一些朋友创造的一个术语,指的是在非常大的数据集上训练的巨大模型,这种模型可以针对特定的应用进行调整,例如GPT-3。
过去十年里,面向消费者的企业由于拥有 大量用户群 (有时甚至高达数十亿) ,因此获得了非常大的数据集得以开展深度学习。这给它们带来了不少经济价值,但我发现这种法则不适用于其他行业 。
IEEE Spectrum:有意思,你以前就是在这种公司工作。
吴:确实,不过十多年前,当我提议启动谷歌大脑项目、利用谷歌的计算基础设施建设大规模网络时就引起了争议。一位非常资深的人把我拉到一边,警告我说,这会对我的职业生涯不利。我想他的意思是这个项目 不能只注重扩大规模 ,应该把重点放在架构创新 上。
我还记得当我和我的学生,发表第一篇倡导使用CUDA进行深度学习的论文时,另一位AI资深人士坐下来对我说:"CUDA编程非常复杂。作为一种编程范例,如果这么做的话工作量太大了。"
IEEE Spectrum:我想他们后来肯定都被说服了。
吴:是的。
现在当我与大家讨论 以数据为中心的人工智能 (Data-centric AI) 运动时,也会想到15年前与大家讨论深度学习时的场景。这一年,许多人和我说"方向错了"、"两者之间似乎没有什么新东西" 。
IEEE Spectrum:你是如何定义以数据为中心的人工智能,为什么你认为它是一种运动 (movement) ?
吴:以数据为中心的AI是为构建成功AI系统所需数据的系统准则。对于AI系统来说,你必须用代码实现一些算法,然后在你的数据集上进行训练。过去十年里,主要的应用范例就是我们 下载数据集,同时专注于改进代码 。这种模式给深度学习网络带来了显著的改进,但其架构基本上表达的就是一个已解决的问题。因此,对于许多实际应用来说,现在更有效的方法是固定神经网络结构 ,找到改进数据 的方法。
而当我提出这个观点时,有从业者说:"这事儿我们已经做了20年了。" 我想说的是,现在是时候把这件少数人 凭直觉做的事情变成一门系统的事。
IEEE Spectrum:你前面提到,一些公司或机构只有少量数据可供使用。以数据为中心的人工智能如何帮助他们?
吴:像很多视觉模型都是用数百万张图像构建的,我也曾经花3.5亿张图像搭建了一个人脸识别系统。但这种模型在只有50张图像的数据集上却没法运行。不过事实证明,如果你有 50个非常好的数据 ,你也可以做出有价值的东西,比如缺陷检查系统。在许多根本不存在巨型数据集的行业,我认为重点必须从大数据转向优质数据 。有50个经过深思熟虑的实例就足以向神经网络解释你想要它学会什么。
IEEE Spectrum:用50张图像训练一个模型的意思是在一个用大数据集训练好的现有模型上对其进行微调吗?还是说这是一个全新的模式,就从这个小数据集上学习?
吴:我来讲一下 Landing AI 是做什么的吧。在给制造商提供暇疵检查服务时,我们一般就用带有我们自己风格的RetinaNet。它是一个预训练模型。话说过来,预训练只是难题的一小部分,更大的难题是提供一个工具让制造商能够选择正确的图像集(用于微调) ,并用一致的方式对图集进行标记。面对大数据集的应用时,我们的通常反应都是如果数据有噪音也没关系,所有数据照单全收,算法会对其进行平均(average over) 。但是,如果我们能够开发出用来标记出数据不一致的地方的工具,为制造商提供一种非常有针对性的方法来提高数据质量,那这将是获得高性能系统的更有效方法。
就比如你现在你有10000张图像,其中30张属于一个类别,但这30张的标签不一致。我们要做的一件事就是构建工具来 吸引你注意到这个特殊的数据子集 ,使你能够快速重新对它们进行标记,从而提高模型性能。
IEEE Spectrum:像这样生成高质量的数据集是否有助于消除数据偏见?
吴:非常有帮助。有偏见的数据是导致最终模型产生偏见的众多因素之一。在NeurIPS会议上,Mary Gray的演讲谈到了以数据为中心的AI是这个问题的解决方案之一 (并非全部) 。
以数据为中心的AI给我们带来的强大能力之一是 构建 (engineer) 数据子集 。想象一下,你训练了一个机器学习模型,它的性能对于大多数数据集都还可以,但只有一个子集有偏差。要是仅仅为了提高该子集的性能就更改整个神经网络架构,那是相当困难的。
但如果你能针对这个子集构建 (engineer) 出合适的数据,解决方式也就更有针对性。
IEEE Spectrum:构建 (engineer) 数据的确切意思是?
吴:在AI领域,数据清洗很重要,但目前都是靠很机械的方式。面对一个非常大的数据集时,这个工具可以快速地将你的注意力吸引到有噪音的数据子集上,针对该子集进行集中收集。
就像我曾经发现语音识别系统的性能很差,主要是背景中有汽车噪音。知道了这一点,我就可以再收集更多带这种噪音背景的数据,而不是对所有内容都采取行动,省钱又省时。
IEEE Spectrum:使用合成数据怎么样?这也是个好的解决方式吗?
吴: 合成数据 也是Data-centric AI工具集中的一个重要工具。在NeurIPS研讨会上,Anima Anandkumar做了一次涉及合成数据的精彩演讲。我认为它仅仅只是一个为模型增加数据的预处理步骤。我希望能看到开发人员将生成合成数据作 为迭代机器学习模型闭环的一部分。
IEEE Spectrum:你的意思是合成数据可以让你在更多不同数据集上尝试模型吗?
吴:不止如此。假设你要检测智能手机外壳上的瑕疵,包括划痕、凹痕、材料变色等。如果你的训练模型在这个检测任务上总体表现良好,但就是在识别凹痕上表现不佳,那么就可以用合成数据生成更有针对性的数据来解决问题。
IEEE Spectrum:能和我们详细说一下当一家公司找到Landing AI,比如要做视觉检验,你们会提供何种帮助?
吴:我们会要求他们将数据上传到我们的平台,用以数据为中心的人工智能方法向他们提供建议,并帮助他们标记数据。
Landing AI的重点是授权制造商自己做机器学习工作,我们的很多工作是确保软件快速且好上手。在机器学习的迭代过程中,我们会为客户提供建议,比如如何在平台上训练模型,如何以及何时改进数据标记来提高模型性能。
IEEE Spectrum:如果产品或照明条件什么的发生变化,这种模型能跟上吗?
吴:所以说 授权制造业客户自己 更正数据、重新训练和更新模型非常重要。
在消费互联网中,我们只需训练少数机器学习模型就能服务10亿用户。在制造业中,有10000家制造商就要搭建10000个定制模型。挑战是,你如何做到这点还不用雇佣10000名机器学习专家?
这个问题在其他行业比如医疗健康领域也存在。
摆脱这一困境的唯一办法是开发出能够让客户自己设计数据、表达专业领域知识的工具,让他们自己构建模型。这也是Landing AI在计算机视觉领域中正在做的事儿。
IEEE Spectrum:最后还有什么想说的?
吴:在过去十年中,人工智能的最大转变是向深度学习的转变。我认为在这十年中,最大的转变很可能是转向以数据为中心的人工智能。随着当今神经网络架构的成熟,我认为对于许多实际应用而言,瓶颈将是我们能否有效地获取让模型运行良好所需的数据。
而以数据为中心的人工智能运动在整个社区拥有巨大的能量和动力。我希望更多的研究人员和开发人员能够加入并致力于它。
完。
采访原文:
https://spectrum.ieee.org/andrew-ng-data-centric-ai
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
AKKO大碳复刻225个键帽体验,键帽厂实锤了摩豹刚推出DarmosharkK1那段时间,基本被社区大佬大推特推的开箱文刷屏了,小固用了之后这个键盘什么都好,就是ABS材质键帽手感一般,高强度用了三个月后,决定换一套键帽(其实
今年的骁龙870手机你们觉得咋样?你们觉得今年的骁龙870处理器手机咋样,我个人觉得太香了。换之前。我想不到。8系的处理器。媲美上一年旗舰芯片的性能,下放到23千元的价位。今年高通很牛。不管怎样说,消费真肯定希望更
小米手机注意了!MIUI12。5增强版来了8月10号,雷军在年度演讲上,不仅发布了不少新品,而且还发布了备受期待的MIUI12。5增强版。据悉,这次增强版新增了原子内存和液态存储等发布会上推出的新功能,还修复和优化了若干个
华为跌倒,高通吃饱在全球通信行业,华为与高通分别是中美两国的代表企业。几年前华为与高通共同瓜分了5G标准的制定权,其中高通主导的LDPC方案成为5G数据信道编码标准,而华为主导的Polar方案成为5
虽然8K电视跌至千元4K仍然优势明显很多人都好奇,在2019年,8K电视起步价为6位数,现在,几千块就能买上一台,且与4K价格差不多,那么到底买不买?我们看下8K电视有多强大吧。其拥有76804320分辨率。很多人可
微影Y9投影仪好吗?看看网友上手后怎么说?最近不知道怎么就对百元投影比较好奇,身边拥有中高端投影仪的朋友也对百元投影仪的市场有兴趣,今天就让我们一起来看看百元投影仪市场里的其中一款投影仪,微影Y9,从不同方面来看看微影Y9
Tomcat环境变量如何配置,CMD可直接启动简介相信很多人对Tomcat都不陌生,这是一个免费开源的轻量级Web应用服务器下载由于这是一款开源免费的服务器,因此大家可以直接去官网下载安装包。官网也很好找,百度搜索tomcat
选购手机,对应需求,性价比才会最高,你想清楚了吗现代人离不开手机,手机不仅用于打接电话,现在已成了人们与这个世界联接的一个移动终端。大家都在感叹,没有了手机,寸步难移。手机作一个工具,是一个必须品,也会是一个重要的花销,特别对于
去验配中心,验配师为什么都会推荐双耳配戴助听器?1听得更清楚双耳佩戴可以消除头影效应,减少头部对高频声音的阻碍,帮助患者更专注的聆听对方讲话。双耳佩戴还有天然的静噪,作用,可以很好的抑制背景噪声,提高信噪比,帮助患者在嘈杂环境下
郭台铭的战略眼光。。川老爷子,郭台铭,孙正义还记得几年前,鸿海赴美国威斯康星州的百亿美元投资案吗?现在预估投资缩减到不到7亿美元,这个当初被认为有违经济效益的投资在川普下台三个月后被打回原形。真是风里
OPPOA16s发布6。5英寸HD屏,后置三摄,约1135元IT之家8月14日消息近日OPPO在荷兰推出了一款全新的中端智能手机OPPOA16s,这款新手机是已经推出的OPPOA16的升级版,新增支持NFC。OPPOA16s提供的一些关键功