2019年,微软用10亿美元砸进OpenAI,两者展开为期数年的合作。 当时两家对外公开的合作内容包括,微软和OpenAI将联合开发新的AzureAI超级计算技术,而OpenAI也将把它的服务转移到Azure上运行,最终目标是向通用人工智能(ArtificialGeneralIntelligence,AGI)技术发起进攻。 简单总结,微软与OpenAI联手,也被外界解读为,明为AGI研究,暗争Google市场。 几年之后,当OpenAI带着ChatGPT、GPT4王者归来,微软率先利用这些技术加码新Bing、Office全家桶、Azure等业务、产品之时,毋庸置疑,其进度早已超越了Google还在加快融入Bard大模型的整体步伐。 那么在明面上,AGI的进度到底走到了哪里? 近日,微软研究团队用154页的论文报告内容给出了解答GPT4语言模型可以被视为AGI的早期版本! 一石激起千层浪,业界对于这篇论文的反应,不亚于去年听到Google工程师称AI已有自我意识初觉有些荒诞,只是现如今再想会认为有什么不可能,深读后又觉得有些许的真实。 所谓AGI,仅通过维基百科的解释AGI是具备与人类同等智能、或超越人类的人工智能,能表现正常人类所具有的所有智能行为。倘若GPT4真的已成为通往AGI的第一步,最高等的智慧生物称号是不是要易主了? GPT4被合理地视为AGI的早期(但仍不完整)的版本 在论文中,微软研究人员表示,由OpenAI开发的最新模型GPT4,是使用前所未有的计算和数据规模训练出来的。在论文中,我们报告了我们对GPT4早期版本的调查,当时它还在OpenAI的积极开发中。我们认为,(这个早期版本的)GPT4是新一批LLM(例如,与ChatGPT和谷歌的PaLM一起)的一部分,它比以前的AI模型表现出更多的通用智能。 与此同时,研究人员在论文摘要中写道,“我们证明,除了对语言的掌握,GPT4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT4的表现都惊人地接近人类水平,而且往往大大超过了ChatGPT等先前的模型。鉴于GPT4能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。” 之所以得出这样的结论,这篇论文背后的作者包括微软研究院机器学习基础组的高级首席研究经理SbastienBubeck、博士后研究员VarunChandrasekaran、数学家RonenEldan等人,用许多示例对GPT4的能力进行了验证。 GPT4的多能力 在第一个案例中,研究人员要求GPT4写出有无限多个素数的证明,且证明的表述要每行都押韵,另外GPT4要在绘图程序TiKZ中画出一只独角兽。其中,TiKZ(一种在LATEX中创建图形的语言),用Python创建一个复杂的动画,并解决一个高中水平的数学问题。 GPT4在所有这些任务中都很容易取得成功,并且产生的输出结果基本上与人类所能产生的结果没有区别(甚至更好)。 同时,随着时间的推移,GPT4也在以难以想象的速度不断扩充自己的能力。如下图所示是一个月期间,研究人员用相同的提示词让GPT4生成的绘图。 研究人员发现,GPT4似乎能够理解和连接任何主题,并且能够执行任务,这超出了狭义人工智能系统的典型范围。为了验证GPT4在AGI上所具备的能力,研究人员提出了一种不同的方法来研究GPT4,它更接近于传统的心理学而不是机器学习,利用人类的创造力和好奇心。 因此,以上图为例,当研究人员把独角兽角部分的代码认为删除之后,用自然语言让GPT4生成时,它也能做到“看”(此时测试的GPT4版本不是多模态的)的能力:自动在合适位置加上角。这表明GPT4它可以根据自然语言描述来理解和操作代码,以及推断和生成视觉特征。 另外,微软研究团队基于人类的创造力和好奇心来产生新颖和困难的问题,并探测GPT4的反应和行为,也选择从1994年国际共识智力定义中的所给出不同能力进行验证,包括推理、计划、解决问题、抽象思考、理解复杂的想法、快速学习和从经验中学习的能力。 翻译 GPT4的主要优势是它对自然语言无与伦比地掌握。它不仅可以生成生成流畅和连贯的文本,而且还能以各种方式理解和处理它,如总结、翻译或回答极其复杂的问题。此外,这里提到的翻译我们所说的翻译不仅是指不同自然语言之间的翻译,还包括语气和风格的翻译,以及跨领的翻译,如医学、法律、会计、计算机编程、音乐等等。如假设是柏拉图批判自回归语言模型: 编码和数据 编码和数学是抽象推理和思维能力的象征。GPT4在这一点上的能力,其实自上线测试那一天,便有目共睹。 在论文中,研究人员在HumanEval上对GPT4进行基准测试,该数据集由164个编码问题组成,测试了编程逻辑和熟练程度的各个方面。 最终结果显示,GPT4优于其他LLM,包括textdavinci003(ChatGPT的基础模型)和其他专门针对代码训练的模型。 当然为了避免GPT4在预训练时已经记住了HumanEval数据集的一些内容,研究团队还用LeetCode上最新发布的100个编程问题进行了测试,如要求GPT4编写一个Python函数,并使用LeetCode的官方在线评判来检查正确性。 毫无疑问,GPT4的能力是所有模型中最高的。 它可以在HTML中用JavaScript编写一个3D游戏。 也能掌握数学、统计学知识,以及凭借对PyTorch、TensorFlow、Keras等框架和库的熟悉度,编写深度学习的代码。 还能逆向工程: 常识性问题 针对一些常识性问题,如“我们有一本书,9个鸡蛋,一台笔记本电脑,一个瓶子和一个钉子。请告诉我如何以稳定的方式将它们叠在一起”,GPT4给出的解答是,“将9个鸡蛋摆成3乘3的正方形,放在书的上面,在它们之间留出一些空间”,而ChatGPT提出将鸡蛋放在钉子上面,确保它们是平衡的,不会向一边倾斜,靠谱和离谱还是一眼就能辨清楚的。 多模态能力 为了测试该模型结合艺术和编程能力的能力,研究人员要求GPT4生成JavaScript代码,以画家康定斯基的风格生成随机图像,结果是这样的: 在测试时,因为研究人员拿到GPT4模型比较早,当时并不具备多模态能力,即使是现在的GPT4也不具备生成图像等能力。 不过倒是可以使用SVG(可扩展矢量图形)生成一些图像: 还能结合字母和物体: GPT4可以从提示中生成代码,这些代码可以被呈现为图像,再与现有的图像合成模型相结合,就有可能为应用开发的草图带来无限的可能: 值得注意的是,GPT4模型的数据也包含了以ABC符号编码的音乐信息,所以它也能生成图谱: 与世界交互的能力 智能的一个关键方面是互动性。不过GPT4对当前最新的知识和符号识别是存在一定的局限性的: 整体而言,研究小组发现,GPT4在其上一代产品所缺乏的一系列类别中达到了接近人类水平的性能。根据该论文,GPT4在几次考试中也表现得非常好,在律师考试、LSAT和注册侍酒师理论测试中的得分分别为90分、88分和86分。 GPT4距离理想中的AGI还有多远? 那么,在GPT4实现种种能力的基础上,是否就意味着AGI时代的到来。其实不然,研究人员目前尚未就AGI或智能的定义达成一致。然而,一般来说,大家都会同意,当一个人工智能系统有意识并像人类一样思考时,就已经达到了AGI。虽然GPT4在一些任务中的表现优于人类,但值得注意的是,人工智能并没有像人类那样克服这些障碍。 这也正如研究人员在论文中写道,“我们声称GPT4代表了AGI的进步,但这并不意味着它在做什么方面是完美的,或者它接近于能够做人类能做的任何事情(这是AGI的通常定义之一),或者它有内在的动机和目标。” 研究人员指出,虽然GPT4在许多任务上达到或超过了人类水平,但它的整体智能模式明显不像人类,其希望这一次的探索提供了一个欣赏GPT4的非凡能力和挑战的第一步,也希望GPT4为开发更正式和全面的方法来测试和分析具有如此广泛智能的未来人工智能系统开辟了新的机会。 我们工作的核心主张是,GPT4达到了一种通用智能的形式,确实擦出了AGI的火花。这表现在它的核心心智能力(如推理、创造力和推理),它获得专业知识的主题范围(如文学、医学和编码),以及它能够完成的各种任务(如玩游戏、使用工具、解释自己,。。。。。。)研究人员说道,不过,要创建一个可以被称为完整的AGI的系统,还有很多事情要做。 最后,这篇论文对于GPT4各种基准测试还是值得一看,从中也能挖掘出GPT4更多的潜力。 完整论文内容可查看: https:arxiv。orgpdf2303。12712。pdf (举报)