GPT4写代码能力提升21!MIT新方法让LLM学会反思
Pine 发自 凹非寺
量子位 | 公众号 QbitAI
GPT-4再度进化!
加上一个简单方法,就能让GPT-4这类大语言模型学会自我反思,性能直接提升30% 。
在此之前,大语言模型回答出错,经常是二话不说,直接先道歉,然后emmmmmm,继续乱猜。
现在,它不会这样了,有了新方法的加成,GPT-4不仅会反思自己哪里错了,还会给出改进策略。
比如说它会自动分析为什么"陷入循环":
或者说反思一下自己有缺陷的搜索策略:
这是美国东北大学联合MIT发表的最新论文中的方法:Reflexion 。
不仅适用于GPT-4,也适用于其他大语言模型,让它们学会人类特有的反思能力。
目前该论文已经发表在预印平台arxiv上。
这把直接让网友直呼"AI进化的速度已经超过我们适应的能力了,我们要被毁灭了。"
甚至有网友为开发人员发来"饭碗警告":
用这种方法写代码的时薪是要比普通开发人员便宜的。
利用二元奖励机制实现反思
正如网友所言,Reflexion赋予GPT-4的反思能力和人类的思考过程差不多:
可以简单用两个字来概括:反馈 。
在这个反馈过程中,又可以分为三大步:1、评估:测试当前生成答案的准确性2、自我反省的产生:错误识别——实现修正3、执行一个迭代反馈循环
在第一步评估的过程中,首先要经历的是LLM(大语言模型) 的自我评估 。
也就是说LLM在还没有外部反馈时,首先要自己对答案进行反思。
那如何进行自我反思?
研究团队使用了一个二元奖励机制 ,为LLM在当前状态下执行的操作赋值:
1代表生成的结果OK,0则表示生成的结果不太行。
而之所以采用二元 而非多值或连续输出这类更具描述性的奖励机制,原因和没有外部输入有关。
要在没有外部反馈的条件下进行自我反思,必须将答案限制在二元状态下,只有这样,才能迫使LLM做出有意义的推断。
在自我评估结束之后,如果二元奖励机制输出为1,则不启动自我反思装置,若为0,LLM则会开启反思模式。
在反思的过程中,模型会触发一个启发性函数h(如下) ,类比人类思考过程,h起到的作用就像是监督 一样。
不过,同人类思考一样,LLM在反思的过程中同样也有局限性,这在函数中的Ω和ε中就能体现。
Ω表示重复连续动作的次数,一般会将这个数值设置为3,这表示反思过程中若重复一个步骤三次,会直接跳到下一个步骤。
而ε则表示在反思的过程中允许执行的最大操作数量。
既然有监督,那修正 也必须执行,修正过程的函数是这样子的:
其中,自我反思模型是通过"特定领域的失败轨迹 和理想反射对"训练而来的,并不允许访问数据集中给定问题的特定领域的解决方案。
这样一来,LLM在反思的过程中便能够迸发出更多有"创新性"的东西。反思之后性能提升近30%
既然GPT-4这类LLM都能够进行自我反思了,那具体效果究竟如何?
研究团队在ALFWorld和HotpotQA基准上对这种方法进行了评估。
在HotpotQA的100个问答对测试中,使用Reflexion这种方法的LLM显示出了巨大的优势,再经过多轮反思重复提问之后,LLM的性能提升了接近30%。
而没有使用Reflexion,在重复问答之后,性能没有任何变化。
在HotpotQA的134个问答对测试中,可以看出在Reflexion的加持下,LLM经过多轮反思后,准确率一度达到97%。
在另外一篇博客中,团队成员也晒出了他们这种方法在GPT-4上的效果,测试范围是编写代码。
结果也显而易见,用了Reflexion,GPT-4的编程能力直接提升了21%。
关于GPT-4已经会"思考"了,你怎(huang) 么(le) 看(ma) ?
论文地址:
https://arxiv.org/abs/2303.11366
参考链接:
[1] https://nanothoughts.substack.com/p/reflecting-on-reflexion
[2] https://www.reddit.com/r/MachineLearning/comments/1215dbl/r_reflexion_an_autonomous_agent_with_dynamic/
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
前端基础知识之CSS是什么?这里是云端源想IT培训,帮你轻松拿offer嗨大家好,我是学长今天的你过得还好吗?2023。03。07女神节到了,所有的女孩都好看,愿我们成为自己的阳光,不需借谁的光!上期给大家分
佛系守号三年后,她领走了599万!6日下午,一位大姐低调地走进江西省福彩中心兑奖室兑奖,这位大姐刘女士(化名)是双色球2023024期一等奖得主,刘大姐凭1张10元单式票揽获1注一等奖,总奖金599万余元。据刘大姐
巴黎时装周的瘦,只有骨头没有肉丨看别人的故事,把自己的日子过通透今年的巴黎时装周秀场已经不适合全家人一起观看了,尴尬到轮流起身去倒水。设计师的心思你们不懂,我家老奶奶懂。她说这个模特和我们村的破落户一样,衣服没
河南鲁山传承红色基因花园路小学师生走进爱国主义教育基地河南讯万物复苏时,最美惊蛰天。3月4日,鲁山县花园路小学师生走进空军某部航空展览馆,进行爱国主义教育,赓续红色血脉。叔叔,这个飞机为什么是常香玉号?这个是抗美援朝战争中,著名爱国文
33岁至今未有孩子,备孕的妈妈要注意了我在头条对她说我说的可能只是个个例,你不一定存在这样的情况,但是也想分享给大家。张张今年33岁了,前不久她的孩子引产了,我觉得很惊讶,孕检都好好的怎么会引产呢?原来,张张26岁结婚
章子怡被曝黑料!妈妈耍大牌训哭实习生,女儿没礼貌直呼徐峥光头近日,章子怡在国外看秀穿搭简约干练,于盖尔加朵同框,气质绝佳。但国内却有网友曝其黑料称耍大牌,全家蛮横霸道欺负人等。爆料者称自己曾是某医院的实习生,结果章子怡的妈妈耍大牌,嫌弃服务
人类与所有生物生殖隔离,是否因为基因被锁死人类的基因是否被未知的力量锁死,为何地球上的物种普遍存在着繁殖隔离。人类的基因中包含着上古时期智人的基因数据,这已不再是一个秘密,人类可以因此打破枷锁,创造出新的人类么?在人类基因
微信升级新功能,青少年模式一键搞定!3月3日,微信又升级了新功能,升级后,将微信设置为青少年模式只需要一键,具体操作流程我们来了解一下。记者晓梅3月3日,微信又升级了新功能,升级后,将微信设置为青少年模式,只需要一键
请画出你家车标!幼儿园变相摸家底惹怒家长,老师竟被反套路幼儿园时期,是学生们启蒙教育的重要阶段。学生们已经有了个人的主观意识,3岁左右的学生,最适合智力开发,大脑也在飞速运转。此时,也是树立学生养成良好三观的好时机,学生也有了一定的明确
家长们注意了!精细喂养并非优质母爱!现在的父母对待孩子非常精细,尤其是在喂养方面孩子不吃水果就榨汁,不吃蔬菜就剁碎,这导致了很多23岁的宝宝,明明到了可以吃固体食物的阶段,一吃瘦肉青菜就说嚼不动甚至呕吐。这种过于精细
泰国儿童肥胖率在东盟地区排名第三!近日,据泰媒报道称,泰国卫生部卫生厅厅长素万猜表示,3月4日为世界肥胖日,根据2023年2月16日卫生部的监测数据发现,泰国05岁儿童有9。13存在肥胖或有肥胖趋势,614岁儿童达