专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

当GPT4反思自己错了性能提升近30,编程能力提升21

  机器之心报道
  机器之心编辑部
  GPT4的思考方式,越来越像人了。
  人类在做错事时,会反思自己的行为,避免再次出错,如果让GPT4这类大型语言模型也具备反思能力,性能不知道要提高多少了。
  众所周知,大型语言模型(LLM)在各种任务上已经表现出前所未有的性能。然而,这些SOTA方法通常需要对已定义的状态空间进行模型微调、策略优化等操作。由于缺乏高质量的训练数据、定义良好的状态空间,优化模型实现起来还是比较难的。此外,模型还不具备人类决策过程所固有的某些品质,特别是从错误中学习的能力。
  不过现在好了,在最近的一篇论文中,来自美国东北大学、MIT等机构的研究者提出Reflexion,该方法赋予智能体动态记忆和自我反思的能力。
  为了验证方法的有效性,该研究评估了智能体在AlfWorld环境中完成决策任务的能力,以及在HotPotQA环境中完成知识密集型、基于搜索问答任务的能力,在这两项任务的成功率分别为97和51。
  论文地址:https:arxiv。orgpdf2303。11366。pdf
  项目地址:https:github。comGammaTauAIreflexionhumaneval
  如下图所示,在AlfWorld环境中,房间里摆设了各种物品,要求让智能体给出推理计划以拿到某件物体,下图上半部分由于智能体低效的计划而失败。经过反思后,智能体意识到错误,纠正推理轨迹,给出简洁的轨迹方式(如图下半部分)。
  模型反思有缺陷的搜索策略:
  这篇论文表明,你可以通过要求GPT4反思你为什么错了?并为自己生成一个新的提示,将这个错误原因考虑在内,直到结果正确,从而将GPT4的性能提高惊人的30。
  网友不禁感叹:人工智能的发展速度已经超过了我们的适应能力。
  方法介绍
  Reflexion智能体的整体架构如下图1所示,其中Reflexion利用ReAct(Yaoetal。,2023)。在第一次试验中,智能体从构成初始查询的环境中获得任务,然后智能体执行由LLM生成的一系列动作,并从环境中接收观察和奖励。对于提供描述型或持续型奖励的环境,该研究将输出限制为简单的二元成功状态以确保适用性。
  在每个动作at之后,智能体会计算一个启发性函数h,如下图所示
  这个启发性函数旨在检测智能体产生信息幻觉(即虚假或错误的信息)或效率低下,并告诉智能体何时需要反思(reflexion),其中t是timestep,st是当前状态,表示重复动作循环的次数,表示执行动作的最大总数,〔ao,o0。。。,a(t1),o(t1)〕代表轨迹历史。repeat是一个简单的函数,用于确定产生相同结果的重复动作循环的次数。
  如果函数h告诉智能体需要反思,那么智能体会查询LLM以反映其当前任务、轨迹历史和上次奖励,然后智能体在后续试验中会重置环境再重试。如果函数h没有告诉智能体需要反思,那么智能体会将at和ot添加到其轨迹历史记录中,并向LLM查询下一个动作。
  如果如果启发式h建议在timestept时进行反思,则智能体会根据其当前状态st、最后的奖励rt、先前的动作和观察〔a0,o0,。。。,at,ot〕,以及智能体现有的工作存储mem,启动一个反思过程。
  反思的目的是通过反复试验帮助智能体纠正幻觉和低效率问题。用于反思的模型是一个使用特定的失败轨迹和理想的反思示例来prompt的LLM。
  智能体会迭代地进行上述反思过程。在实验中,该研究设置在智能体内存中存储的反思最多为3次,这是为了避免查询超出LLM的限制。以下几种情况,运行会终止:
  超过最大试验次数;
  未能在两次连续试验之间提高性能;
  完成任务。
  实验及结果
  AlfWorld提供了六种不同的任务和3000多个环境,这些任务要求智能体理解目标任务,制定子任务的顺序计划,并在给定环境中执行操作。
  该研究在134个AlfWorld环境中测试智能体,任务包括寻找隐藏物体(例如,在抽屉里找到水果刀)、移动物体(例如,将刀移到砧板上),以及用其他对象来操纵另一个对象(例如,在冰箱中冷藏西红柿)。
  在没有反思的情况下,智能体的准确率为63,之后加入Reflexion进行对比。结果显示,智能体在12次试验中能够处理好97的环境,在134项任务中仅有4项没有解决。
  接下来的实验是在HotPotQA中进行了,它是一个基于维基百科的数据集,包含113k个问答对,主要用来挑战智能体解析内容和推理的能力。
  在HotpotQA的100个问答对测试中,该研究将基础智能体和基于Reflexion的智能体进行比较,直到它们在连续的试验中无法提高准确性。结果显示基础智能体并没有性能提高,在第一次试验中,基础智能体准确率为34,Reflexion智能体准确率为32,但在7次试验后,Reflexion智能体表现大幅改善,性能提升接近30,大大优于基础智能体。
  类似地,在测试模型编写代码的能力时,加入Reflexion的GPT4也显著优于常规的GPT4:
  参考链接:
  https:nanothoughts。substack。compreflectingonreflexion
  https:twitter。combladerstatus1639728920261201921

工匠汇第六届中原大工匠一手拿着焊把,一手抓着防护面罩,焊花拖着长长的尾巴四处飞溅在这些飞溅的焊花和闪烁的弧光中,映衬出中原大工匠中国一拖集团有限公司能源分公司电焊工陈浩然的美丽人生。焊接看起来是粗活累活内蒙古狼山镇变奔富村年收入翻十倍,县城买别墅是什么撑起牧民的钱袋子?站在草坡向远方看去,云从天空倾泄下来,穿越旷野的风缓慢吹过。这里是内蒙古西部的地级市巴彦淖尔,距离省会城市呼和浩特400多公里。巴彦淖尔,蒙语意为富饶的湖泊。母亲河自西向东横贯全境名单公布!恭喜三明这些老师近日三明市教育局公布2022年市级优秀教师网络学习空间入选名单一起来看看吧三明市教育局办公室关于公布2022年市级优秀教师网络学习空间入选名单的通知县(市区)教育局,局属学校(单位就在今年!河北官宣河北省2023年民生工程实施方案为深入贯彻党的二十大精神和习近平总书记重要指示,认真落实省委十届三次全会部署,聚焦解决人民群众急难愁盼问题,2023年在全省继续实施民生工程,采取更密缝铺贴瓷砖有必要吗?简一和马可波罗哪个好?新家装修,地面需要铺贴瓷砖。我喜欢仿石砖,看中了简一的大理石瓷砖爱人则偏爱木纹砖,选定了马可波罗。简一和马可波罗哪个好?在跟设计师的沟通交流下,我们根据自家的装修风格,选择了简一的覆盖陆海空!春节回家的路,他们特别守护!春节的脚步越来越近相信很多人已归心似箭航路铁路水路总有一条路载你回家为了守护这条平安路幸福路多地气象部门坚守岗位精准把脉从港航航空道路交通等方面全方位护航春运保障人民群众安全出行中多地开展余药共享活动解决基层农村用药问题央广网北京1月18日消息(总台央广记者李杨)近段时间,多地陆续开展余药共享,倡导大家把富余的新冠相关药品带回农村。如何让余药共享的公共价值最大化?春运返乡时节,广东发起平安春运,带排队退卡,关店150家!春节最惨巨头,为何败走中国?过了今天,还有两天就是大年三十。每年春节前,中国人的消费力就能给全世界上一课,全国各地山姆人山人海,购物10分钟,排队一小时起步。河南胖东来新店开业,各地的粉丝把创始人于东来团团围工匠汇2022年河北工匠人物名片曹郁,河北省工艺美术研究院院长,正高级工艺美术师一级美术师,河北省技能大师工作室领办人。他深入工艺美术领域,钟情陶瓷装饰艺术,遍访我国陶都瓷都,与百余位名家大师开展合作实践天蝎座如何快速走出感情阴影?天蝎座如何快速走出感情阴影?首先来问大家一个问题你觉得天蝎座在感情中是一个强者还是弱者?各位可以好好思考一下自己认知里的天蝎座。我个人觉得,感情中的天蝎座是一个不折不扣的强者,甚至新春走基层他们在井下守护万家灯火视频加载中有这么一群人,他们每天都在城市的窨井管道箱涵中穿梭,常年在井下工作,守护这一城灯火。他们就是城市高压电缆运维人员。今天的新春走基层专栏,我们跟随蹲点记者一起走进他们的工作
立在秋的边缘,静观秋叶立在秋的边缘静观秋叶一片一片凋零宛如我的心情也在颓废中当悲凉的殇凝固成劫是谁的背影最终凝固成一个国度中最后的完美不回头不相望不思量不难望绝尘远去徒留一世落花的殇风影阵阵低头触眉一任有人懂你,便是幸福!懂,比爱更重要。爱,不一定懂。Understandingismoreimportantthanlove。Loveisnotnecessarilyunderstood。可懂自己的人不宋庆龄的节日餐桌钱兔无量宏兔大展的兔兔春节意犹未尽您的节日餐桌上,哪道菜才是风光无限的焦点?杯觥交错的欢聚和庆贺,萦绕在您心头的是温馨家宴的白月光,还是名厨珍馐的饕餮大餐?啥也不缺,独缺时间。也许时间定了!贵南高铁,即将通车!2月28日,记者从贵州省政府新闻办召开的新闻发布会上获悉,贵南高铁将于今年6月底开通。贵南高铁开通后,荔波县将步入高铁时代。省委省政府高度重视旅游业发展,明确将荔波打造成为世界级旅楚雄武定文旅融合绘就民族团结进步新画卷近年来,云南省楚雄彝族自治州武定县围绕共同团结奋斗共同繁荣发展主题,紧扣铸牢中华民族共同体意识这一主线,以新一轮全国民族团结进步示范县创建为动力,着力开展文旅融合发展模式,推动文旅中印面临的难题青藏高原湖水剧增,印度已经初尝苦果在中国的地图上,青藏高原的格外显眼。它的身上充满了神秘的色彩,在这里,人人都认为青藏高原直通天界,喜马拉雅山就是阶梯。而且作为喜马拉雅山也被无数攀登者当作挑战的目标,想要前往征服这成都傻傻分不清的2个公园,均3000余亩,一个艺术,一个自然成都这些年的发展真的是日新月异,城市也是一环又一环的向外发展,在城市化发展的途中,城市环境也得到了极大提升,比如新建了很多大型公园,比较著名的就有锦城湖公园桂溪生态公园兴隆湖东安湖读书三两事电子书确实是方便从2022年开始,我几乎都是在用微信读书APP看书了,以前也用过一些其他的读书软件,也有过坚持读纸质书的时期,现在反倒是觉得电子书挺好的,很方便。倒不是说微信读书这个软件改变了我的电商创业拼出精彩人生,残疾小伙吴景走上自立之路多亏高邮电子商务公共服务中心的电商培训班,现在我有抖音号,经常开开直播,介绍我们高邮当地的特色产品。日子一天天变好,体验了一回电商创业的快乐!日前,高邮的吴景,感慨网络时代的直播带张文宏预判第二波感染高峰时间确定,做好这6件事,提前准备张文宏预判第二波感染高峰时间确定,做好这6件事,提前准备。随着第一波疫情的落幕,我们也迎来了疫情后的第一个春天,由于多种奥密克戎变异株的出现,我们也要做好面对第二波疫情的来临,万物永不言弃,绝地反击,中国乒乓演绎非凡竞技人生!如果此刻的你感觉人生坎坷,不知所措,请去电影院看看中国乒乓之绝地反击,相信能够让你重振信心,热血沸腾!影片根据九十年代中国乒坛真实的故事改编而成,电影中角色的名字是虚构的,戴敏佳的
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网