GPT4写代码能力提升21！MIT新方法让LLM学会反思

　　Pine 发自 凹非寺
　　量子位 | 公众号 QbitAI
　　GPT-4再度进化！
　　加上一个简单方法，就能让GPT-4这类大语言模型学会自我反思，性能直接提升30% 。
　　在此之前，大语言模型回答出错，经常是二话不说，直接先道歉，然后emmmmmm，继续乱猜。
　　现在，它不会这样了，有了新方法的加成，GPT-4不仅会反思自己哪里错了，还会给出改进策略。
　　比如说它会自动分析为什么＂陷入循环＂：
　　或者说反思一下自己有缺陷的搜索策略：
　　这是美国东北大学联合MIT发表的最新论文中的方法：Reflexion 。
　　不仅适用于GPT-4，也适用于其他大语言模型，让它们学会人类特有的反思能力。
　　目前该论文已经发表在预印平台arxiv上。
　　这把直接让网友直呼＂AI进化的速度已经超过我们适应的能力了，我们要被毁灭了。＂
　　甚至有网友为开发人员发来＂饭碗警告＂：
　　用这种方法写代码的时薪是要比普通开发人员便宜的。
　　利用二元奖励机制实现反思
　　正如网友所言，Reflexion赋予GPT-4的反思能力和人类的思考过程差不多：
　　可以简单用两个字来概括：反馈 。
　　在这个反馈过程中，又可以分为三大步：1、评估：测试当前生成答案的准确性2、自我反省的产生：错误识别——实现修正3、执行一个迭代反馈循环
　　在第一步评估的过程中，首先要经历的是LLM（大语言模型） 的自我评估 。
　　也就是说LLM在还没有外部反馈时，首先要自己对答案进行反思。
　　那如何进行自我反思？
　　研究团队使用了一个二元奖励机制 ，为LLM在当前状态下执行的操作赋值：
　　1代表生成的结果OK，0则表示生成的结果不太行。
　　而之所以采用二元 而非多值或连续输出这类更具描述性的奖励机制，原因和没有外部输入有关。
　　要在没有外部反馈的条件下进行自我反思，必须将答案限制在二元状态下，只有这样，才能迫使LLM做出有意义的推断。
　　在自我评估结束之后，如果二元奖励机制输出为1，则不启动自我反思装置，若为0，LLM则会开启反思模式。
　　在反思的过程中，模型会触发一个启发性函数h（如下） ，类比人类思考过程，h起到的作用就像是监督 一样。
　　不过，同人类思考一样，LLM在反思的过程中同样也有局限性，这在函数中的Ω和ε中就能体现。
　　Ω表示重复连续动作的次数，一般会将这个数值设置为3，这表示反思过程中若重复一个步骤三次，会直接跳到下一个步骤。
　　而ε则表示在反思的过程中允许执行的最大操作数量。
　　既然有监督，那修正 也必须执行，修正过程的函数是这样子的：
　　其中，自我反思模型是通过＂特定领域的失败轨迹 和理想反射对＂训练而来的，并不允许访问数据集中给定问题的特定领域的解决方案。
　　这样一来，LLM在反思的过程中便能够迸发出更多有＂创新性＂的东西。反思之后性能提升近30%
　　既然GPT-4这类LLM都能够进行自我反思了，那具体效果究竟如何？
　　研究团队在ALFWorld和HotpotQA基准上对这种方法进行了评估。
　　在HotpotQA的100个问答对测试中，使用Reflexion这种方法的LLM显示出了巨大的优势，再经过多轮反思重复提问之后，LLM的性能提升了接近30%。
　　而没有使用Reflexion，在重复问答之后，性能没有任何变化。
　　在HotpotQA的134个问答对测试中，可以看出在Reflexion的加持下，LLM经过多轮反思后，准确率一度达到97%。
　　在另外一篇博客中，团队成员也晒出了他们这种方法在GPT-4上的效果，测试范围是编写代码。
　　结果也显而易见，用了Reflexion，GPT-4的编程能力直接提升了21%。
　　关于GPT-4已经会＂思考＂了，你怎（huang） 么（le） 看（ma） ？
　　论文地址：
　　https://arxiv.org/abs/2303.11366
　　参考链接：
　　[1] https://nanothoughts.substack.com/p/reflecting-on-reflexion
　　[2] https://www.reddit.com/r/MachineLearning/comments/1215dbl/r_reflexion_an_autonomous_agent_with_dynamic/
　　— 完 —
　　量子位 QbitAI · 头条号签约
　　关注我们，第一时间获知前沿科技动态

是不是父母入户广州，孩子就能在广州上公立学校？可以迁来广州，以前要排队的，现在不知道有没改了，你小孩迁到你父亲户口可能对上学更有利，学前儿童入户是会优先的是的，但还要有学位的房子，我孙子就上了公立学校，孙女也上了公办幼儿园！是在东莞已缴13年社保，马上到退休年限，但在公司已干满15年，该让公司补缴吗？感谢邀请，感谢楼主的提问。楼主您好，如果你在东莞缴了13年的社保，那么这种情况即使你到了退休年龄也没有办法去办理这个退休手续。但是在公司已经干满15年，实际上应当有所在的公司来给你如何看待国家反诈骗中心app？为什么这么多人不愿意安装？关键我得有钱给他们骗，一无所有，还欠高利贷，怎么可能还被骗，等我有了3000存款，我一定安装，如果我3500存款我也睡不着，天天也会怕骗子来骗我这个巨款如何看待国家反诈骗中心应用？怎样找到适合自己的工作？我觉得找工作不一定就是说非要找适合自己的，首先呢，我觉得应该要找那个自己能干的了的，能胜任呢，干一行爱一行，不管干哪一行，只要干了就认真去做，把它做好，我是这样认为的。就拿我自己来为什么很多人买房时都喜欢静悄悄，买完以后才告诉身边朋友或亲戚？今年年初买房的时候，我也非常开心，并且第一时间把这个消息告诉了关系最好的表姐。谁知表姐听了之后脸色骤变，冷冷地说了一句话。也正因为这句话，我决定买房的时候谁都不告诉，等住上之后再告各地户口政策相继放开，未来天津户口会有优势吗？高考还会有优势吗？最近杭州重庆等地又放宽了落户政策。天津最近也传言有要放宽的迹象，但是我觉得天津落户政策不会像其他城市放的那么开，因为天津有着跟北京和上海一样的高考优势，如果全放开的话，就会引来天量2022年深圳能回去湖北过年吗？2022年深圳能回湖北过年吗？感觉心里塞塞的，我儿子属龙岗区，同你一样想回家。如果是罗湖区与龙岗区，深圳放行，你又特别想家的情况下，可以在15日以前回来，集中隔离后可以陪家人过除夕哈工大研究生都能找到工作吗？哈工大研究生都能找到工作吗？一个都字让这个问题难以回答。因为再牛的大学，就业率也不可能100。作为工科实力超强的大学，哈尔滨工业大学的毕业生就业应该不是问题，更别说硕士生了。从20得了精神分裂症的人该如何找到适合的工作？这问题很复杂，但不是不能解决。严重患者不大可能具有工作能力，只能是治疗的好转结果，和稳定平复期，在具有一定能力的情况下，参与在社会上进行劳动。首先要进行个体健康，价值和能力判断分析在电厂工作累不累？这个问题我还是比较有发言权的！这个要分在什么电厂，电厂主要有火电厂，水电厂，风电厂，光伏电站，以及核电厂！我想最累的就是火电厂了，最轻松的应该是光伏电站了，主要原因是没有夜班！再说在体制内上班，30岁以后不求上进可以工作一辈子吗？很有意思的问题，在体制内，30岁，不求上进，又想做一辈子，如果把工作比喻成伴侣，您到底是爱她，还是不爱她呢？理性看待上进在体制内工作，初期没有人不想上进，但僧多粥少，往往是失望的多

<<<<<<－>>>>>>

前端基础知识之CSS是什么？这里是云端源想IT培训，帮你轻松拿offer嗨大家好，我是学长今天的你过得还好吗？2023。03。07女神节到了，所有的女孩都好看，愿我们成为自己的阳光，不需借谁的光！上期给大家分佛系守号三年后，她领走了599万！6日下午，一位大姐低调地走进江西省福彩中心兑奖室兑奖，这位大姐刘女士（化名）是双色球2023024期一等奖得主，刘大姐凭1张10元单式票揽获1注一等奖，总奖金599万余元。据刘大姐巴黎时装周的瘦，只有骨头没有肉丨看别人的故事，把自己的日子过通透今年的巴黎时装周秀场已经不适合全家人一起观看了，尴尬到轮流起身去倒水。设计师的心思你们不懂，我家老奶奶懂。她说这个模特和我们村的破落户一样，衣服没河南鲁山传承红色基因花园路小学师生走进爱国主义教育基地河南讯万物复苏时，最美惊蛰天。3月4日，鲁山县花园路小学师生走进空军某部航空展览馆，进行爱国主义教育，赓续红色血脉。叔叔，这个飞机为什么是常香玉号？这个是抗美援朝战争中，著名爱国文33岁至今未有孩子，备孕的妈妈要注意了我在头条对她说我说的可能只是个个例，你不一定存在这样的情况，但是也想分享给大家。张张今年33岁了，前不久她的孩子引产了，我觉得很惊讶，孕检都好好的怎么会引产呢？原来，张张26岁结婚章子怡被曝黑料！妈妈耍大牌训哭实习生，女儿没礼貌直呼徐峥光头近日，章子怡在国外看秀穿搭简约干练，于盖尔加朵同框，气质绝佳。但国内却有网友曝其黑料称耍大牌，全家蛮横霸道欺负人等。爆料者称自己曾是某医院的实习生，结果章子怡的妈妈耍大牌，嫌弃服务人类与所有生物生殖隔离，是否因为基因被锁死人类的基因是否被未知的力量锁死，为何地球上的物种普遍存在着繁殖隔离。人类的基因中包含着上古时期智人的基因数据，这已不再是一个秘密，人类可以因此打破枷锁，创造出新的人类么？在人类基因微信升级新功能，青少年模式一键搞定！3月3日，微信又升级了新功能，升级后，将微信设置为青少年模式只需要一键，具体操作流程我们来了解一下。记者晓梅3月3日，微信又升级了新功能，升级后，将微信设置为青少年模式，只需要一键请画出你家车标！幼儿园变相摸家底惹怒家长，老师竟被反套路幼儿园时期，是学生们启蒙教育的重要阶段。学生们已经有了个人的主观意识，3岁左右的学生，最适合智力开发，大脑也在飞速运转。此时，也是树立学生养成良好三观的好时机，学生也有了一定的明确家长们注意了！精细喂养并非优质母爱！现在的父母对待孩子非常精细，尤其是在喂养方面孩子不吃水果就榨汁，不吃蔬菜就剁碎，这导致了很多23岁的宝宝，明明到了可以吃固体食物的阶段，一吃瘦肉青菜就说嚼不动甚至呕吐。这种过于精细泰国儿童肥胖率在东盟地区排名第三！近日，据泰媒报道称，泰国卫生部卫生厅厅长素万猜表示，3月4日为世界肥胖日，根据2023年2月16日卫生部的监测数据发现，泰国05岁儿童有9。13存在肥胖或有肥胖趋势，614岁儿童达