范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

当GPT4反思自己错了性能提升近30,编程能力提升21

  机器之心报道
  机器之心编辑部
  GPT-4 的思考方式,越来越像人了。
  人类在做错事时,会反思自己的行为,避免再次出错,如果让 GPT-4 这类大型语言模型也具备反思能力,性能不知道要提高多少了。
  众所周知,大型语言模型 (LLM) 在各种任务上已经表现出前所未有的性能。然而,这些 SOTA 方法通常需要对已定义的状态空间进行模型微调、策略优化等操作。由于缺乏高质量的训练数据、定义良好的状态空间,优化模型实现起来还是比较难的。此外,模型还不具备人类决策过程所固有的某些品质,特别是从错误中学习的能力。
  不过现在好了,在最近的一篇论文中,来自美国东北大学、MIT 等机构的研究者提出 Reflexion,该方法赋予智能体动态记忆和自我反思的能力。
  为了验证方法的有效性,该研究评估了智能体在 AlfWorld 环境中完成决策任务的能力,以及在 HotPotQA 环境中完成知识密集型、基于搜索问答任务的能力,在这两项任务的成功率分别为 97% 和 51%。
  论文地址:https://arxiv.org/pdf/2303.11366.pdf
  项目地址:https://github.com/GammaTauAI/reflexion-human-eval
  如下图所示,在 AlfWorld 环境中,房间里摆设了各种物品,要求让智能体给出推理计划以拿到某件物体,下图上半部分由于智能体低效的计划而失败。经过反思后,智能体意识到错误,纠正推理轨迹,给出简洁的轨迹方式(如图下半部分)。
  模型反思有缺陷的搜索策略:
  这篇论文表明,你可以通过要求 GPT-4 反思「你为什么错了?」并为自己生成一个新的提示,将这个错误原因考虑在内,直到结果正确,从而将 GPT-4 的性能提高惊人的 30%。
  网友不禁感叹:人工智能的发展速度已经超过了我们的适应能力。
  方法介绍
  Reflexion 智能体的整体架构如下图 1 所示,其中 Reflexion 利用 ReAct(Yao et al., 2023)。在第一次试验中,智能体从构成初始查询的环境中获得任务,然后智能体执行由 LLM 生成的一系列动作,并从环境中接收观察和奖励。对于提供描述型或持续型奖励的环境,该研究将输出限制为简单的二元成功状态以确保适用性。
  在每个动作 a_t 之后,智能体会计算一个启发性函数 h,如下图所示
  这个启发性函数旨在检测智能体产生信息幻觉(即虚假或错误的信息)或效率低下,并「告诉」智能体何时需要反思(reflexion),其中 t 是 time step,s_t 是当前状态,Ω 表示重复动作循环的次数,ε 表示执行动作的最大总数,[a_o, o_0 . . . , a_(t 1), o_(t 1)] 代表轨迹历史。repeat 是一个简单的函数,用于确定产生相同结果的重复动作循环的次数。
  如果函数 h 告诉智能体需要反思,那么智能体会查询 LLM 以反映其当前任务、轨迹历史和上次奖励,然后智能体在后续试验中会重置环境再重试。如果函数 h 没有告诉智能体需要反思,那么智能体会将 a_t 和 o_t 添加到其轨迹历史记录中,并向 LLM 查询下一个动作。
  如果如果启发式 h 建议在 time step t 时进行反思,则智能体会根据其当前状态 s_t、最后的奖励 r_t、先前的动作和观察 [a_0, o_0, . . . , a_t, o_t],以及智能体现有的工作存储 mem,启动一个反思过程。
  反思的目的是通过反复试验帮助智能体纠正「幻觉」和低效率问题。用于反思的模型是一个使用特定的失败轨迹和理想的反思示例来 prompt 的 LLM。
  智能体会迭代地进行上述反思过程。在实验中,该研究设置在智能体内存中存储的反思最多为 3 次,这是为了避免查询超出 LLM 的限制。以下几种情况,运行会终止:
  超过最大试验次数;
  未能在两次连续试验之间提高性能;
  完成任务。
  实验及结果
  AlfWorld 提供了六种不同的任务和 3000 多个环境,这些任务要求智能体理解目标任务,制定子任务的顺序计划,并在给定环境中执行操作。
  该研究在 134 个 AlfWorld 环境中测试智能体,任务包括寻找隐藏物体(例如,在抽屉里找到水果刀)、移动物体(例如,将刀移到砧板上 ),以及用其他对象来操纵另一个对象(例如,在冰箱中冷藏西红柿)。
  在没有反思的情况下,智能体的准确率为 63%,之后加入 Reflexion 进行对比。结果显示,智能体在 12 次试验中能够处理好 97% 的环境,在 134 项任务中仅有 4 项没有解决。
  接下来的实验是在 HotPotQA 中进行了,它是一个基于维基百科的数据集,包含 113k 个问答对,主要用来挑战智能体解析内容和推理的能力。
  在 HotpotQA 的 100 个问答对测试中,该研究将基础智能体和基于 Reflexion 的智能体进行比较,直到它们在连续的试验中无法提高准确性。结果显示基础智能体并没有性能提高,在第一次试验中,基础智能体准确率为 34%,Reflexion 智能体准确率为 32%,但在 7 次试验后,Reflexion 智能体表现大幅改善,性能提升接近 30%,大大优于基础智能体。
  类似地,在测试模型编写代码的能力时,加入 Reflexion 的 GPT-4 也显著优于常规的 GPT-4:
  参考链接:
  https://nanothoughts.substack.com/p/reflecting-on-reflexion
  https://twitter.com/blader/status/1639728920261201921

女儿花700块爬泰山登上热搜,我看到了令人窒息的家庭教育在阅读此文前,麻烦您点击一下关注,方便您进行讨论和分享,给您带来不一样的参与感,感谢您的支持模拟场景文许士昭编辑许士昭前言好的家庭教育,是陪伴孩子成长的阳光和雨露,能够照亮和滋润他999元IPS4K显示器丨新品卷王科睿P6开箱评测科睿他又又又开始卷了,和之前游戏向的科睿27E1Q系列不同,这次卷的是办公向显示器,在999元这个价位,科睿P6的纸面参数相当唬人,单是4KIPS就足够让很多人冲动下单了。作为一个谁能不爱阔腿裤呢?选它是走进时尚的密码,好搭又不迷路如果让你说出一个你最离不开的单品,那么你内心的答案会是什么?我想我一定会坚定的选择阔腿裤。名列前茅的百搭阔腿裤,绝对是衣橱里不可缺少的万能单品,从简约干净再到酷飒个性,从少年感再到湖人跳出季后赛附加赛机会来了,基本锁定西部前56位置!湖人跳出季后赛附加赛机会来了,基本锁定西部前56位置!NBA今日太阳赢下掘金,锁定西部前四排名,明日背靠背对阵湖人,大概率会轮休主力以保护主力健康。湖人明天对阵太阳二队,最后一场常恩比德哈登35106,怎么打都是76人赢!76人拿捏热火排名北京时间4月7日,NBA常规赛迎来一场强强对话76人主场迎战热火,前者刚刚击败凯尔特人,士气正盛,后者也是两连胜,距离第6的篮网仅差1个胜场,势必想冲到第6,直通季后赛。伤员方面,李楠喜从天降!CBA重罚血布,江苏有望复制福建以下克上神迹?北京时间4月7日,根据CBA官方的公示,马泳和布莱德索的冲突中,布莱德索在对方犯规之后扬肘打到马泳脸上,马泳也立刻回击了一肘,随后双方纠缠到一起,布莱德索在被王哲林抱住的情况下扯住神灯复明!切尔西官宣兰帕德担任临时主帅兰帕德二进宫!从埃弗顿下课两个半月后,神灯有了新工作。昨晚,英超切尔西俱乐部宣布,聘请兰帕德担任球队临时主帅,双方签约至本赛季结束,这是他第二次执掌蓝军教鞭。图说兰帕德新华社图在波收买裁判的罪名巴萨欧冠危机欧足联主席怒了西班牙甲级联赛巴塞罗那队卷入裁判贿赂丑闻,面临被剥夺欧冠席位的危险。西班牙足协5日(韩国时间)宣布,欧足联最早将于6月对涉嫌收买裁判的巴萨实施包括禁止参加欧冠在内的制裁。巴萨上个月威斯布鲁克从被唾弃到可能成为快船队的救星让我们回到20222023NBA赛季的开始。洛杉矶湖人队以2胜10负的战绩糟糕开局。一支拥有勒布朗詹姆斯和安东尼戴维斯的球队,你会认为他们会受到大部分指责。好吧,事实并非如此。大部说说各世界足球强国的后腰位置历史第一人,他们分别是谁?在足球历史上,后腰(防守型中场)一直是非常重要的位置。各个足球强国都有一些在后腰位置上表现卓越的球员。在本文中,我们将探讨以下五个足球强国的历史第一后腰巴西德国意大利法国和阿根廷。湖人6大新援如何续约成为难题,留下拉塞尔不易,范德彪防守好续约难题01拉塞尔27岁的拉塞尔是湖人战术中与浓眉挡拆的组织后卫之一,加盟湖人之后可以拿下17分3篮板6。3助攻。拉塞尔在森林狼的时候,进攻选择和进攻效率饱受诟病,但是交易来湖人之
调整国家法定节假日的建议2取消1增加,网友非常赞同文十夏近日,经国务院批准,国家发展改革委文旅部联合印发了国民旅游休闲发展纲要(2022一2030年),纲要包括发展现代休闲业态,提升旅游休闲体验,促进产品创新升级等内容。其中,保障158的小个子女生,建议不穿这三种连衣裙,显矮显胖还没气质裙子是女生都喜欢的一件单品了,那么我们小个子怎么在穿搭上更显高显气质很有讲究,不妨跟着我一起来瞧一瞧,别让裙子显得你更低。不建议哪三种裙子1。脚踝裙为什么说脚踝裙不能选,到脚踝的设8岁男童因父母过度训斥致抽动症,医生建议为孩子营造轻松愉悦的环境8月22日,据山海视频报道近日,在河北衡水,一8岁男孩因经常无意识的出现眨眼清嗓耸肩等动作到医院就诊,医生诊断后确诊为抽动症,通过治疗症状得到缓解。据了解,孩子这种情况在一年前出现中越小朱婷对战结果揭晓,周页彤独傲群芳助中国女排32险胜越南8月22日下午100,女排亚洲杯迎来小组第二轮比赛,中国女排对阵越南。两队在第一轮比赛中都以30各自战胜对手。在上一场对阵东道主菲律宾队的比赛中,越南女排队长被称为越南小朱婷的身高中年女人穿搭示范,这些ampampquot亮色ampampquot更懂你,减龄不张扬中年女人穿搭示范,这些亮色更懂你,减龄不张扬!一旦女性到了中年,不仅身材和外表会改变,甚至穿衣风格也与年轻时非常不同,像年轻追求时尚,中年越来越喜欢简单和先进,所以在色彩搭配中经常女人,四十岁以后,铺好三条路,晚年会越过越滋润文夏莫01卷首语人生,就像是一辆不知名的列车,不知道它将来会开往怎样的目的地,不知道路途中会有怎样的景色。尽管,在变老的路途中,未来充满了冒险与未知,但是,聪明的人,却善于未雨绸缪为什么缅甸女人都穿筒裙?了解真相后,让人大开眼界缅甸作为一个东南亚国家,全年的气温都是非常热的,所以我们去缅甸旅游,大家会发现,当地人特别是女性都会穿着长长的筒裙。(此处已添加小程序,请到今日头条客户端查看)穿裙子我们都能理解,建议皮肤偏黄偏黑的女人,多穿这4种高级色,衬肤色还洋气时代的审美主流,不再将女性定义为讨好男性,不再追求庸俗的曲线美感。女人穿衣打扮,真正做到了花为悦己者容,无需过多的参考外在的评价标准,遵从内心的选择,做到真正爱自己!穿衣选颜色,也广州队天降喜讯,恭喜郑智黄博文,恭喜韦世豪,许家印可以安心了北京时间8月22日,中国足球传来最新消息,中超联赛第14轮,广州队41击败深圳队,对此,广东媒体广州日报曝出猛料,郑智让广州队充满自信和侵略性,这样的情况对于深处保级漩涡的广州队来父子同台有戏?多位球探预测布朗尼选秀顺位在首轮末和次轮初詹姆斯在下个赛季将迎来职业生涯的第20个赛季,并且,在今年的休赛季,詹姆斯和湖人完成了两年9710万美元的续约,虽然最后一年是球员选项,但是也足够等到他大儿子布朗尼进入NBA了。据进了,又是亚伯拉罕!滑跪喂,醒醒醒醒起来吃早餐啦。什么什么比赛还没结束呢?迷迷糊糊的看着枕头上的口水印,原来是做梦!哎,真的是日有所思夜有所梦,简单的洗漱后,看着老婆准备的牛奶和面包感觉无比的温馨!趁早餐明年春夏Miami游泳周,颜色和款式多样化BeachBunny明年2023春夏Miami游泳周,颜色和款式多样化BeachBunny系列共超过20多款的泳装,在众模特的精彩演绎下尽显时尚性感奢华的法式时尚魅力。图一,蓝色蕾丝的设计,在模特身上微型纯电车,续航210公里,长安Lumin怎么样?试驾感受很直观!随着用车需求不断变化,越来越多消费者都开始选择新能源纯电车,毕竟新能源纯电车绝对是今后汽车发展的趋势,并且对于家用以及城市通勤来说也的确很实用,那么对于当下的新能源纯电车来说,都有苹果曝出严重安全漏洞,涉多款产品8月20日苹果曝出严重安全漏洞冲上热搜第一引发关注据央视财经报道美国苹果公司当地时间本周三发布两份安全报告报告披露公司旗下智能手机iPhone平板电脑iPad和iMac电脑等产品存安卓用户体验iOS16,海外网友真会玩安卓与iOS最大的区别应该是开源与闭环。安卓的开源性导致了非常好玩,用户可以根据自己的喜欢随便更换主题什么的,而且还可以自己DIY。而iOS就不行了,这个系统封闭程度远超大家想象,热搜第一!苹果曝出严重安全漏洞,涉多款产品苹果系统,又双叒出事了?昨晚(20日)苹果曝出严重安全漏洞冲上微博热搜第一引发关注据央视财经报道美国苹果公司当地时间本周三发布两份安全报告报告披露公司旗下智能手机iPhone平板电姆巴佩母亲挑起冲突!指责梅西不懂规矩,巴黎高层警告内马尔8月21日,相信各位球迷也已经听说,巴黎圣日耳曼vs蒙彼利埃队的比赛中,姆巴佩内马尔围绕点球的主罚权产生分歧,引发外界的热议!巴黎圣日耳曼与蒙彼利埃队的比赛中,产生2粒点球,第1粒从图赫尔和孔蒂的赛场冲突到赛后处罚,展现出英超的职业和商业8月20日,英足总官方宣布了上周伦敦德比两位方教练赛后冲突的处罚结果图赫尔禁赛1场缓期执行且罚款3。5万镑,孔蒂罚款1。5万镑但未被禁赛。足总发言人表示图赫尔和孔蒂承认,在2022中国安装600吨鬼粒子探测器结构工程师正在组装有机玻璃球形结构,这是下一代中微子探测器的核心部分。江门地下中微子天文台的有机玻璃球形结构。新结构属于中国广东省江门市的江门地下中微子天文台(JUNO)。它的墙壁厚1部落冲突成就一览成就是啥玩意我想不用介绍了,本文会列出所有成就的描述和完成之后的奖励。当前版本有40个成就,其中村庄守护者和屠龙勇士这两个成就只有一个等级,完成之后直接三星,其他成就都有三个等级。中超今晚再现1大规模冲突前国脚指着外援怒斥场面火爆本赛季中超联赛第14轮迎来了一场重磅较量,本赛季排名中上游的上海海港与浙江队在大连体育中心体育场交手,最终双方战成了1比1平,而在比赛最后时刻,两队更是爆发了大规模冲突,前国脚张佳聊下当下保险销售的底层逻辑以及国内的基本养老保险制度周末跟保险公司的朋友吃饭,聊起各自躺平计划的时候,他分享了下他的一些保险配置。说实话,有意外医疗的配置,没让我特别惊讶的。但是对于他配置了较多的年金险,说实话是有点出乎我意料的。细