DeepMind两年研究一朝公开,通用人工智能最新突破一个模型一套权重通吃600视觉文本和决策任务
感谢IT之家网友 Sancu 的线索投递!
通用人工智能,还得看 DeepMind。这回,只一个模型,使用相同的权重,不仅把看家本领雅达利游戏玩得飞起。
和人类聊聊天、看图写话也不在话下。甚至还能在现实环境里控制机械臂,让其听从指令完成任务!
模型名为 Gato ,西班牙语中的"猫"。
按照 DeepMind 的说法,这只猫猫可以使用具有相同权重的同一个神经网络 ,适应各种不同的环境。
具体而言,DeepMind 让它在 604 个不同的任务 上接受了训练,这些任务模式完全不同,需要观察的元素和行为规则也不同。
而 Gato 不仅在 450 个任务中都超过了专家水平的 50%,在 23 个雅达利游戏上表现还超过人类平均分。
DeepMind CEO 哈萨比斯直接说:
这是我们目前最通用的智能体。
这一最新成果一发布,当即就在 AI 圈子里掀起热议。
有 AI 研究者指出:Gato 令人印象深刻。只需要在云上花费 5 万美元,就能完成对它的训练。
这点钱只是 PaLM 训练费用 1100 万美元的一个零头。用 PaLM 的预算完全可以将 Gato 扩展 100 倍,而这很可能是行之有效的。
PaLM 是谷歌发布的 5400 亿参数语言模型。
有人直接祭出了 AlphaStar 架构和 Gato 架构的对比:
Zoom AI 杰出科学家 Awni Hannun 则直接感叹起过去 5 周以来,谷歌 / DeepMind 释出成果之密集。
所以这只来自 DeepMind 的"猫猫",究竟怎么一回事?一个 Transformer 搞定一切
对于研究方法,DeepMind 只用一句话就解释明白了:
我们受到语言大模型的启发,用类似的方法把模型能力拓展到文本之外的领域。
没错,这次立功的又是语言大模型中常用的 Transformer 架构。
Transformer 的本质就是把一个序列转换 (transform) 成另一个序列。
所以要想让它掌握各种不同任务,首先就需要把各类数据都编码成序列。
文本 自不必说,天然就是序列信息,可用经典的 SentencePiece 编码。
图像 ,ViT 已经打好样,先按 16x16 像素分割,再给每个像素编上号处理成序列。
玩游戏时的按键输入 同样是序列,属于离散值,比如懂得都懂的"上上下下左右左右 BABA"。
操纵机器人时的传感器信号和关节力矩 属于连续值,也通过一系列采样和编码处理成离散序列。
最终,所有序列数据都交给同一个 Transformer 处理。
整个 Gato 模型使用的训练数据总体上偏向游戏和机器人控制任务 ,596 个任务占了 85.3%。视觉和自然语言任务只占 14.7%。
模型架构上,为了简洁和可扩展性,就在最经典的原版 Transformer 基础上小改,具体参数如下:
24 层 11.8 亿参数版的 Gato,在谷歌 16x16 Cloud TPUv3 切片上训练了大约 4 天。
到了部署阶段,Gato 对于视觉和语言任务就像传统 Transformer 和 ViT 那样运行。
对于游戏和机器人控制的行为模式则可以理解为"走一步看一步 "。
首先给出一个任务提示,比如游戏操作或机器人动作,作为输出序列的开头。
接下来 Gato 会观察当前的环境,对动作向量进行一次自回归采样,执行动作后环境发生变化,再重复这个过程……
那么这样训练出来的 Gato,在各项任务中到底表现如何?仅靠 12 亿参数成为多面手
玩游戏方面,Gato 的表现可以用一张图来总结。
x 轴是训练集之中专家水平的百分比,其中 0 代表一个随机参数模型的水平。
y 轴是 Gato 超过或达到对应专家水平的任务数量。
最终结果,Gato 在 604 个任务中,有 450 个超过了专家水平的 50% 。
更详细的结果如下:
雅达利游戏测试中,Gato 在 23 个游戏上表现超过人类平均分 ,11 个游戏上比人类得分高一倍。
这些游戏包括经典的乒乓球、赛车,也包括射击、格斗等多种类型。
在 Bengio 团队推出的 BabyAI 测试上,Gato 几乎在所有关卡达到了专家水平的 80%,最难的几个 Boss 关达到 75%。与之前 BabyAI 榜单上的两个模型水平相当(分别为 77% 和 90%),但这两个模型都针对性的用了上百万个演示来训练。
▲BabyAI 关卡示例
在 Meta-World 上(虚拟环境中操作机械臂),Gato 在全部 45 个任务中,有 44 个超过专家水平的 50%,35 个超过 80%,3 个超过 90% 。
▲Meta-World 任务示例
操纵真实机器人方面,与之前模型对比也不遑多让。
至于视觉和文本任务 DeepMind 这次至少为了验证通用模型的可行性,没有做跑分,而是给了一些示例。
△ 描述图像
▲聊天对话
最后,DeepMind 还对 Gato 模型的可扩展性做了评估。
虽然当前 Gato 在每一个单独任务上都还比不上 SOTA 结果,但实验结果表明,随着参数、数据和硬件的增加,Gato 模型的性能还有成比例上涨 的空间。
另外,Gato 在少样本学习 上也表现出一定潜力。
DeepMind 认为,这样一个通用模型将来可通过提示或微调迅速学习新的任务,再也不用为每个任务都重头训练一个大模型了。通用人工智能还有多远?
看完 Gato 如此表现,网友们的"大受震撼"也就不奇怪了。
甚至还有人认为,AGI(通用人工智能)近在眼前。
当然,反对 / 质疑的声音也不小。
比如始终冲在给人工智能泼冷水一线的马库斯,这次也第一时间开了炮:
仔细看看第 10 页。无论模型有多大,大型语言模型标志性的不靠谱和错误信息仍然存在。
但不管怎么说,DeepMind 在通用人工智能方向上的努力都在不断涌现出新成果。
事实上,无论是 2013 年惊艳了谷歌的雅达利游戏 AI,还是名满全球的 AlphaGo、AlphaStar,DeepMind 透过这些阶段性成果想要达成的终极目标,一直都通向通用人工智能 这个关键词。
去年,DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 还领衔发布了一篇同样引起不少讨论的文章:Reward is Enough。
论文认为,强化学习作为基于奖励最大化的人工智能分支,足以推动通用人工智能的发展。
而据 Gato 团队成员透露,这只"猫猫"已经在 DeepMind 内部孕育了 2 年时间。
此次 Gato 是以有监督方式进行离线训练的,但论文也强调,原则上,同样可以采用离线或在线强化学习的方式对其进行训练。
而就在一周前,DeepMind 发布了一个新视频,其中说到:
我们接下来要做一件大事(the next big thing),那意味着需要去尝试很多人们认为过于困难的事情。但我们一定要去尝试一下。
现在看来,这个 next big thing 就是指 AGI 了。
论文地址:
https://www.deepmind.com/publications/a-generalist-agent