谷歌发布了他们训练的5400亿个参数的AI语言模型PaLM
Google Research最近发布了Pathways 语言模型(PaLM),这是一个 5400 亿参数的 AI 自然语言处理 (NLP) 模型,在BIG-bench基准测试中超过了人类的平均表现。PaLM 在许多评估任务上优于其他最先进的系统,并在逻辑推理和笑话解释等任务上显示出强大的结果。
软件工程师 Sharan Narang 和 Aakanksha Chowdhery在 Google Research 博客上的一篇文章中描述了 PaLM。该模型使用仅自回归解码器的 Transformer 架构,并使用 Google 的Pathways技术在 6144 个 TPU 芯片集群上进行训练,这是迄今为止已知的最大的此类集群。在对一组 29 个自然语言处理 (NLP) 任务进行评估时,PaLM 在除一个之外的所有任务上都超过了当前记录。再加上一种用于生成响应的新的思维链 提示方法,PaLM 还在多个推理基准上实现了最先进的性能,并在两个新颖的推理任务上展示了能力:逻辑推理和解释笑话。根据 Narang 和 Chowdhery 的说法,
PaLM 通过将扩展能力与新颖的架构选择和训练方案相结合,为更强大的模型铺平了道路,并使我们更接近 Pathways 的愿景:"使单个 AI 系统能够泛化数千或数百万个任务,了解不同类型数据,并以显着的效率做到这一点。"
给定先前的标记,语言模型预测文本序列中的下一个项目或标记;当迭代使用这样的模型时,将预测输出作为输入反馈,该模型称为自回归模型。基于 Transformer 深度学习架构的自回归语言模型在许多 NLP 任务上创造了最先进的性能记录,许多研究人员开发了非常大规模的 Transformer 模型。训练这些大型模型可能具有挑战性,因为它们通常太大而无法放入单个 GPU 或 TPU 加速器的内存中,而且大型训练数据集需要数小时甚至数天的处理时间。
去年年底,谷歌宣布他们计划开发一个名为 Pathways 的系统,这是一种新的人工智能架构,旨在处理许多不同的任务和数据类型。作为这项工作的一部分,他们开发了一个编排层,用于大规模使用 TPU 加速器。使用 Pathways,PaLM 团队扩展了他们的训练过程以使用 6144 个 TPU,"无需使用任何管道并行性"。使用 Pathways 还提高了训练效率:基于模型 FLOPs 利用率,PaLM 训练的效率为 46.2%,而 GPT-3 为 21.3%。
与类似模型一样,PaLM 首先通过自监督学习对从网页、维基百科、书籍和开源代码存储库中提取的大型文本语料库进行预训练。除了在纯英语 NLP 任务上创造新的最先进记录和在多语言任务上的"竞争性"表现外,PaLM 在多个文本到代码和代码到代码任务上取得了"出色"的成绩,执行与OpenAI 的 Davinci Codex API一样或更好。研究人员还调查了 PaLM 在两个多步骤推理任务中的表现,包括解释笑话:
输入:我尝试了 10,000 次随机重启我的神经网络,但我被指控过度拟合。我想没有好种子会逍遥法外。
模型输出:这个笑话是双关语。神经网络是一种可以从数据中学习的计算机程序。"种子"是用于初始化随机数生成器的数字。"好种子"是产生好的随机数生成器的数字。"行善必受罚"这句话的意思是,如果你做了一件好事,你就会因此受到惩罚。
PaLM 团队成员 William Fedus 在 Twitter 线程中分享了他对这项工作的一些想法。尽管他的总体反应是积极的,但 Fedus 确实指出了两个需要改进的方面:
虽然这个模型在 TPUv4 上运行非常高效,但基于模型大小,我们的计算效率很低。540B 参数对于这个计算预算来说太大了……[另外]PaLM 是仅解码器,但我们仍然发现编码器-解码器模型微调得更好。
PaLM在几个 NLP 基准排行榜上的排名可在 Papers with Code 上找到。