童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

GPT4写代码能力提升21!MIT新方法让LLM学会反思,网

9月9日 飞虹谷投稿
  GPT4再度进化!
  加上一个简单方法,就能让GPT4这类大语言模型学会自我反思,性能直接提升30。
  在此之前,大语言模型回答出错,经常是二话不说,直接先道歉,然后emmmmmm,继续乱猜。
  现在,它不会这样了,有了新方法的加成,GPT4不仅会反思自己哪里错了,还会给出改进策略。
  比如说它会自动分析为什么“陷入循环”:
  或者说反思一下自己有缺陷的搜索策略:
  这是美国东北大学联合MIT发表的最新论文中的方法:Reflexion。
  不仅适用于GPT4,也适用于其他大语言模型,让它们学会人类特有的反思能力。
  目前该论文已经发表在预印平台arxiv上。
  这把直接让网友直呼“AI进化的速度已经超过我们适应的能力了,我们要被毁灭了。”
  甚至有网友为开发人员发来“饭碗警告”:
  利用二元奖励机制实现反思
  正如网友所言,Reflexion赋予GPT4的反思能力和人类的思考过程差不多:
  可以简单用两个字来概括:反馈。
  在这个反馈过程中,又可以分为三大步:
  1、评估:测试当前生成答案的准确性
  2、自我反省的产生:错误识别实现修正
  3、执行一个迭代反馈循环
  在第一步评估的过程中,首先要经历的是LLM(大语言模型)的自我评估。
  也就是说LLM在还没有外部反馈时,首先要自己对答案进行反思。
  那如何进行自我反思?
  研究团队使用了一个二元奖励机制,为LLM在当前状态下执行的操作赋值:
  而之所以采用二元而非多值或连续输出这类更具描述性的奖励机制,原因和没有外部输入有关。
  要在没有外部反馈的条件下进行自我反思,必须将答案限制在二元状态下,只有这样,才能迫使LLM做出有意义的推断。
  在自我评估结束之后,如果二元奖励机制输出为1,则不启动自我反思装置,若为0,LLM则会开启反思模式。
  在反思的过程中,模型会触发一个启发性函数h(如下),类比人类思考过程,h起到的作用就像是监督一样。
  不过,同人类思考一样,LLM在反思的过程中同样也有局限性,这在函数中的和中就能体现。
  表示重复连续动作的次数,一般会将这个数值设置为3,这表示反思过程中若重复一个步骤三次,会直接跳到下一个步骤。
  而则表示在反思的过程中允许执行的最大操作数量。
  既然有监督,那修正也必须执行,修正过程的函数是这样子的:
  其中,自我反思模型是通过“特定领域的失败轨迹和理想反射对”训练而来的,并不允许访问数据集中给定问题的特定领域的解决方案。
  这样一来,LLM在反思的过程中便能够迸发出更多有“创新性”的东西。
  反思之后性能提升近30
  既然GPT4这类LLM都能够进行自我反思了,那具体效果究竟如何?
  研究团队在ALFWorld和HotpotQA基准上对这种方法进行了评估。
  在HotpotQA的100个问答对测试中,使用Reflexion这种方法的LLM显示出了巨大的优势,再经过多轮反思重复提问之后,LLM的性能提升了接近30。
  而没有使用Reflexion,在重复问答之后,性能没有任何变化。
  在HotpotQA的134个问答对测试中,可以看出在Reflexion的加持下,LLM经过多轮反思后,准确率一度达到97。
  在另外一篇博客中,团队成员也晒出了他们这种方法在GPT4上的效果,测试范围是编写代码。
  结果也显而易见,用了Reflexion,GPT4的编程能力直接提升了21。
  关于GPT4已经会“思考”了,你怎(huang)么(le)看(ma)?
  论文地址:
  https:arxiv。orgabs2303。11366
  参考链接:
  〔1〕https:nanothoughts。substack。compreflectingonreflexion
  〔2〕https:www。reddit。comrMachineLearningcomments1215dblrreflexionanautonomousagentwithdynamic
  (举报)
投诉 评论

欧科云链链上天眼智慧助警有效打击元宇宙犯罪行为最近一两个月,全球互联网圈最热的话题无疑是ChatGPT引领的AIGC浪潮,而此前的Web3和元宇宙热,似乎已经少有人提及,降温不少,或者说,曾经追逐元宇宙风口和当下AIGC风……寺庙念起生意经:手串代请,咖啡素斋周一早上八点半,从医院下了夜班的苗苗直奔雍和宫。九点一到,苗苗随着人群穿过红色大门,不烧香、不拜佛,目标明确地冲向法物流通处。排队、选串、交钱、开光,一套流程早已熟稔于心;忙完……ChatGPT的关注重点不只是现阶段的变现!前言从ChatGPT发布到现在几个月过去了,网上关于这方面的讨论非常激烈,但是网赚圈的人士更多关注变现,从而忽略了关于这项技术延伸出来的更多思考。目前看到网上……要流汗不要流泪,脱下“长衫”的年轻人还好吗?3月中旬,湖北一所高校举办的招聘会上,某超市以6500元的底薪招聘管培生,引起不少大学生排队应聘。消息一出,很快引发了热议,当代大学生的求职现状难道已经如此残酷了吗?事实……GPT4写代码能力提升21!MIT新方法让LLM学会反思,网GPT4再度进化!加上一个简单方法,就能让GPT4这类大语言模型学会自我反思,性能直接提升30。在此之前,大语言模型回答出错,经常是二话不说,直接先道歉,然后emm……没有谁能保证你赚钱!各位村民好,我是村长。但凡向你保证可以赚钱的,都是割你韭菜的,总会让你付出代价的。我知道说这句话,会得罪很多人,尤其是各类知识博主。但是事实就是如此,谁承诺你……微软154页研究论文刷屏,对GPT4最全测试曝光,称其初次叩2019年,微软用10亿美元砸进OpenAI,两者展开为期数年的合作。当时两家对外公开的合作内容包括,微软和OpenAI将联合开发新的AzureAI超级计算技术,而Ope……出海时,产品的多语言能力如何设计出海如今成为了很多企业的战略,国内卷不过,国外市场大有可为。和人一样,产品想要出海,得先过语言关。由此带来了IT产品的国际化需求,进而引发了IT产品功能的国际化改造,其中最突出……马云回国,人在杭州马云终于回国了,身处阿里巴巴大本营杭州。这是在国内消失大半年后,马云首次回国亮相。阿里在国内露面,对于阿里巴巴,对于国内民营经济,无疑都是一针强心剂。1:马云……游戏出海内卷时代,海外增长还有哪些“新出路”?2022年全球移动游戏的市场规模同比下滑10,尽管市场规模收缩,过去一年仍有越来越多的中国游戏厂商将产品发行到海外寻求机会。新的一年,更多出海广告主竞争买量的同时,也面临着更大……年轻人宁愿摆摊,也不愿上班01阿甘是一个00后女孩,两年前和男朋友在大理开始摆摊卖冰粉,现在每天稳定收入700多,好的时候超过一千,要知道他俩每天只出摊四个小时左右,从12点多到4点多。当然……AI改变世界,我却可能失业最近,百度文心一言简直快被网友“玩坏了”,比如给它一些菜名,出来了这些:想画一些人物,结果也一样离谱:降低难度,画一些简单的场景、物品看看,结果:不论是手机、……
被马化腾盛赞的这款产品,能够续写QQ秀的传奇吗?这是一款神奇的产品,一款三个月用户上亿的产品,一款堪比王者荣耀的产品,一款马化腾夸奖的产品。1:“我早就说,QQ秀可以在手机上实现的嘛!”这是马化腾第一次知道……9款不同风格韩国女生漂亮卷发图片盘点真正的一见倾心好看卷发图片1清爽的露额发型设计将女生微显圆润的脸型完美的呈现出来,再搭配清新低调的深栗色染发颜色与长发发梢的微烫设计,搭配头顶独特的盘发更添活泼可爱感。好看卷发图……报名即将截止丨腾讯高级产品设计师教你,如何让设计创意落地并收产品设计不仅是界面漂亮,创意多,让用户买单才是终极目标。在产品设计师和产品经理的日常工作中,我们经常会看到他们总是有无数的奇思妙想,一言不合就用Axure哗啦啦的开始画原……新零售,有哪些经典案例值得学习新零售正在突破传统的零售模式,并非只是单一个新奇点,也不是仅仅区分为线上线下的整合,而是糅合优势的互补作用。目前去定义什么是“新零售”,还不具备全面性总结的阶段。我喜欢这……年终总结:饱受争议的共享充电宝,下半场要怎么玩?迎来下半场的共享充电宝,究竟是资本恶战再度打响的牺牲品,还是最终赶上共享经济的沙底金?从河马充电、小宝充电到乐电、PP充电,资本风口下野蛮生长的共享充电宝企业一家家宣告倒……大V迁徙、巨额补贴之后,2018知识问答如何前行?2017年的知识问答,整个知识问答行业的活力再次被激发;而在即将到来的2018年,补贴能否再次掀起狂欢潮,大V是否会再次变心,悟空问答能否再次强势搅局,这些问题的答案终将浮出水……数说共享单车这一年:从疯狂到理性,行业开启转型模式这两年共享经济成了创业圈最火的一个词,其中共享单车更是资本的“宠儿”。这两年共享经济成了创业圈最火的一个词,其中共享单车更是资本的“宠儿”。从2016年9月起,“共享单车……以标会为例,探讨传统的民间社交金融形态本文仅介绍一种传统民间的社交金融形态,并不讨论社交金融是否是伪命题。该金融形态的出现以及它的变化,既体现出了社交金融的价值也体现了社交金融的弊端。当我介绍完这个金融形态(活动)……消费升级有病,电商们有药吗?消费升级并不意味着提供更多选择,而是让消费者在最短最快的时间内做出正确选择即可。消费升级虽然早已是舆论热点,但我升级了吗?我怎么升级?我该怎么升级?我该升级到哪个方向,依……后电商时代的阵痛,与互联网不能承受之轻后电商时代的浪潮中,微商只是一朵浪花,是焦虑和物欲的缩影。1:总有一些公司幸运地,有意识或无意识地站在了技术革命的浪尖之上,也总有一些人在行业的风口以我们意想不到的……起点学院内训与顺丰的第三次邂逅,领悟产品路上的新感受12月1617日,起点学院走进顺丰内部进行《产品经理实战训练营》培训,这已经是第三次走进顺丰内部啦,这一期略有不同的是学员均来自顺丰的五湖四海,他们在继工作日后又不远万里来此学……ICO定性,比特币的疯狂之路还能持续多久比特币作为一个有着类黄金属性、同时兼具货币属性的限量版发行商品,随着其价格的不断飙升,开始变得越来越难被定义。ICO监管的靴子终于落地。前天(9月4日),中国人民银行、中……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界