在很多科幻电影里,我们经常会看到电影塑造出一个会自主思考、自动执行任务的AI系统或智能机器人的角色。 例如《2001:太空漫游》设计了一个超级智能计算机HAL9000用于管理宇航员的任务;《终结者》塑造了自主学习人工智能系统天网,旨在控制美国的核武器和国防系统,以保证国家安全。 这些能够像人类一样思考和推理,还具有涵盖广泛的认知技能和能力的的AI系统被称作AGI(ArtificialGeneralIntelligence)。 AGI的智能不限于特定领域或任务,还要有推理、规划、解决问题、抽象思维、理解复杂思想、快速学习和经验学习能力等。 举个例子,AlphaGO虽然围棋独步天下,但它不算AGI,相比之下《机器人总动员》里的WallE则更符合人AGI的定义。 AGI的概念在人工智能领域已经存在了几十年,许多研究人员一直在尝试通过开发新的算法、模型和方法来实现AGI。我们距离实现AGI还有多远呢? 微软研究院最近发布的一篇论文指出,OpenAI最新的大语言模型GPT4已经有AGI的雏形。 GPT4的广泛能力与涵盖广泛领域的许多能力以及在广泛的任务上表现出的人类水平及以上的性能,使我们可以放心地说GPT4是迈向AGI的重要一步。人工智能的火花 微软研究院的这篇论文全文共154页,满满的全是给研究人员给GPT4出的考题。 图片来自:YouTubeAIExplained 由于全文篇幅很长,YouTube博主AIExplained对全文做了精选浓缩,让我们跟着他的视角来直观了解GPT4的能力。 需要先说明的是,这些来自微软的研究人员在GPT4的早期开发阶段就已经要接触到了该模型,并开展了大约6个月的实验。 他们使用的未做限制的开发版本,而不是现在做了安全限制处理的最终版本,因此文章提出的结论只是针对GPT4原始模型。 让我们进入正题。文章指出,GPT4的一个重要新能力是可以在很少指示或者无示范的情况下正确使用工具,例如使用计算器,而这是GPT3。5版本的ChatGPT(以下简称旧版ChatGPT)所不能做到的。 提示:有一条河流从左到右流淌、河的旁边建有金字塔的沙漠、屏幕底部有4个按钮,颜色分别为绿色、蓝色、棕色和红色 研究人员发现,GPT4可以与StableDiffusion结合,根据文字提示输出一个细节丰富的图片,并且会根据文字提示来排列对象,提高了使用效率。 人类和其他动物的一个重要区别就在于,人类会发现并使用工具,如今AI也在朝着这个方向慢慢演化。 研究人员还让GPT4去参加LeetCode上的软件工程师模拟考试。 取五次考试中最佳结果作为样本的话,GPT4在简单、中等和困难的三个等级考试中分别取得86。4、60、14。3的成绩。 论文谦虚地说GPT4的编码水平接近人类水平,那么人类表现怎么样呢? LeetCode的数据库显示人类在简单、中等和困难的三个等级考试的平均成绩分别为72。2、38。7、7,这还是剔除掉一题都答不上的人的数据。 可以说,就编程能力而言GPT4已经比很多软件工程师还要优秀了。 GPT4不仅可以完成普通的编程工作,还能胜任复杂的3D游戏开发。 论文提到,GPT4在零样本的情况下用JavaScript在HTML生成了一个躲避障碍物的游戏Demo。 只要在此基础上稍加优化,这个Demo完全可以变成一个游戏产品。而当研究人员用同样的提示测试旧版ChatGPT,后者表示它做不到。 为了测试它的推理水平,研究人员拿了一道2022年国际数学奥林匹克竞赛的题目给它做。 你也可以挑战一下~ 由于GPT4的数据库只更新到2021年(虽然是开发版本,但还是没有联网的),这道题的答案并不在它的数据库内,因此它要完全靠数学逻辑推理能力完成。 GPT4答出了一个正确的解题逻辑,但在具体的答案上出现了错误,研究人员表示这是基础计算上的错误(像极了考试时把乘法算成除法的人),而ChatGPT则只能生成一个逻辑不连贯的答案,水平差得远。 在问到一些像一个游泳池可以放多少个高尔夫球等很难回答的问题时,GPT4也能以合乎逻辑的方式去回答。 接着研究人员发现GPT4可以调用其他应用的API,来完成检索用户邮件、日历、坐标等操作,从而实现帮人订餐、订票、回复邮件等助理工作。 这一点在OpenAI最近公布的ChatGPT插件集功能上已经有所体现,GPT4模型能做的事绝对不只是文字生成这么简单,通过与其他应用API结合,它可以成为一个近似于系统的存在。 研究人员还发现了一个你很难察觉到的功能,那就是GPT4可以建立人类的心智模型。 研究人员为它设立了一个场景,GPT4很好地分析了场景中人的心理过程以及相对应出现的行动。 也就是说,GPT4能够像人类一样解读人类的行为与心理的联系,而不仅是单纯看到动作本身,这是AI的一大进步。OneMoreThing? 这篇论文共分为十个章节,共介绍了GPT4的多模态能力(与视觉生成内容相关)、生成和理解代码能力、数学能力、与世界的交互能力、与人类的交互能力、判别力,以及GPT4局限性、社会影响、未来方向。 全文以抽丝剥茧的方式全面解读了GPT4的能力,一经发布便受到了广泛的关注,火出了圈。 有意思的是,有网友在论文的LaTeX源代码注释中发现作者隐藏掉了部分信息。 从注释来看DV3应该是Davinci3(达芬奇3) 例如GPT4的内部名称实际为DV3,与此同时它也是这篇文章的第三作者,也许是考虑到隐私问题,这被作者有意给隐藏了起来。 网友们还发现作者也并不太清楚GPT4的实际成本,并似乎错误地把GPT4称为纯文本模型,而不是多模态模型。 论文中与毒性内容相关的部分在发布时也被删除,或许这是考虑到避免给OpenAI造成不必要的负面影响。 总的来说,如果你对GPT4能做什么、目前还有什么限制,或者对AI的进展有浓厚兴趣,可以通过此文进一步了解目前最强大的大语言模型。 原文地址在此:https:arxiv。orgpdf2303。12712。pdf