童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

谷歌最新技术:通过搜索引擎,极大增强ChatGPT等模型的准

8月24日 回头爱投稿
  由于Transformer的出现,使得ChatGPT等大语言模型在处理自然语言任务上的能力得到了大幅度提升。但生成的内容却包含大量错误或过时的信息,同时缺乏事实性评估体系,来验证内容的真伪。
  为了全面评估大语言模型对世界变化的适应能力和内容的真实性,谷歌AI研究团队发布了一篇名为《通过搜索引擎知识增强大语言模型的准确性》的论文。提出了一种FRESHPROMPT的方法,可通过从搜索引擎获取实时信息,来提升ChatGPT、Bard等大型语言模型的准确性。
  研究人员构建了一个新的问答基准测试集FRESHQA,其中包含600个各类真实问题,答案变化频率分为“永不改变”“变化缓慢”“变化频繁”和“错误前提”四大类别。
  同时,还设计了严格模式和宽松模式两种评估方法,前者要求回答中的所有信息必须准确最新,后者仅评估主要回答的正确性。
  实验结果显示,FRESHPROMPT明显提升了大语言模型在FRESHQA上的准确率。例如,GPT4在FRESHPROMPT的严格模式帮助下,比原始GPT4提升了47准确率。
  此外,相比于直接扩大模型的参数,这种融合搜索引擎的方法更加灵活,可以为已有模型提供动态的外部知识源。实验结果也证明FRESHPROMPT可以明显提升大语言模型在需要实时知识的问题上的准确率。
  论文地址:https:arxiv。orgabs2310。03214
  开源地址:https:github。comfresh大语言模型sfreshqa(正在筹备中,将很快开源)
  从谷歌论文内容来看,FRESHPROMPT的方法主要由5大模块组成。
  构建FRESHQA基准测试集
  为了全面评估大语言模型对变化世界的适应能力,研究人员首先构建了FRESHQA基准测试集,其包含600个真实的开放域问题,根据答案变化的频率可以分为“永不改变”“变化缓慢”“变化频繁”和“错误前提”四大类别。
  1)永不改变:答案基本不会改变的问题。
  2)变化缓慢:答案每几年改变一次的问题。
  3)变化频繁:答案每年或更短时间内就可能改变的问题。
  4)错误前提:包含不正确前提的问题。
  这些问题涵盖各种话题,具有不同的难度级别。FRESHQA的关键特点是答案可能会随时间变化,所以模型需要具备对世界变化的敏感认知能力。
  严格模式与宽松模式评估
  研究人员提出了两个评估模式:严格模式要求回答中所有信息必须准确最新,宽松模式仅评估主要答案的正确性。
  这提供了更全面和细致的方式来测量语言模型的事实性。
  基于FRESHQA评估不同大语言模型
  在FRESHQA上,研究人员比较了涵盖不同参数的大语言模型,包括GPT3、GPT4、ChatGPT等。评估采用严格模式(要求无错误)和宽松模式(仅评估主要答案)。
  结果发现,所有模型在需要实时知识的问题上表现较差,尤其是频繁变化和错误前提的问题。这说明当前大语言模型对变化世界的适应力存在局限。
  从搜索引擎中检索相关信息
  为提高大语言模型的事实性,FRESHPROMPT的核心思路是从搜索引擎中检索问题相关的实时信息。
  具体而言,给定一个问题,FRESHPROMPT会将其作为关键词查询谷歌搜索引擎,获取包含答案框、网页结果、“其他用户也问”等多种类型的搜索结果。
  通过稀疏训练整合检索信息
  FRESHPROMPT使用稀疏训练(fewshotlearning)的方式,将检索到的各个证据以统一格式整合到大语言模型的输入提示中,同时提供几个示范,说明如何综合这些证据得出正确回答。
  这样可以教会大语言模型去理解这个任务,并整合不同来源的信息来推理出最新准确的答案。
  谷歌表示,FRESHPROMPT对提升大语言模型的动态适应能力具有重要意义,这也是大语言模型未来技术研究的一个重要方向。
  本文素材来源谷歌论文
  (举报)
投诉 评论

打工人遇见大模型:外面的世界已经这样办公了吗?在办公场景中,制作PPT是最常见的工作之一。工作汇报、产品发布、活动策划、专业讲座等都需要使用PPT。传统的PPT制作过程枯燥琐碎,耗费时间、精力。特别是将word格式的……0。2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福【新智元导读】微调LLM需谨慎,用良性数据、微调后角色扮演等都会破坏LLM对齐性能!学习调大了还会继续提高风险!虽说预训练语言模型可以在零样本(zeroshot)设置下,……门票炒到60000元,周杰伦演唱会的黄牛“集体退票”,但钱没10月12日,为期四天的周杰伦上海站演唱会正式开唱。这原本是杰迷们最翘首以盼的时刻,但有一些早早买了票、定好了行程的粉丝,却没能如愿到场。就在演唱会前一天,大批黄牛集体退……谷歌最新技术:通过搜索引擎,极大增强ChatGPT等模型的准由于Transformer的出现,使得ChatGPT等大语言模型在处理自然语言任务上的能力得到了大幅度提升。但生成的内容却包含大量错误或过时的信息,同时缺乏事实性评估体系,来验……业界领先的这些大模型,都被一家收编了毋庸置疑,GPT4发布是一件足以载入AI史册的大事件。但随着时间的推移,人们也发现,即使是最先进的大模型也还没有强大到可以把所有的事情都做完。比如,如果你把一份很长的文本粘贴到……双11商家已全面应用AI技术!阿里妈妈两大AI投放产品、AI进入2023年双11倒计时,所有的经营者也即将迎来全年最大的“经营力”爆发场。早在9月份m峰会上,阿里妈妈就已经率先拉开双11战役帷幕,发布淘系三中心经营新格局,分享了当……校园年鉴版“妙鸭”横空出世!霸榜56个国家的AppStore最近,又有一款AI照片编辑应用在社交媒体上迅速走红。凭借一个可以让用户生成90年代怀旧风校园“年鉴”照片的模版,EPIK一举登上56个国家AppStore榜首,并连续多天……佛山电翰爆火后回应:没觉得打螺丝或直播不好任何工作都值得尊重近日,视频博主佛山电翰”迅速走红,因其外貌酷似演员张翰,发布在工厂打螺丝的视频,因其特别的甩手动作走红网络,吸引了许多网友的关注。除了外貌撞脸张翰外,视频中洗脑的萨克斯背……佛山电翰爆火后回应:任何工作都值得尊重,暂停直播进行学习站长之家(ChinaZ。com)10月15日消息:近日,视频博主佛山电翰因其外貌酷似演员张翰,发布在工厂打螺丝的视频而迅速走红网络。他的特别的甩手动作吸引了……真人危机:数字人将占据直播半壁江山现在我们看到的主播不一定都是真人了。数字人直播在各个平台已经遍地开花,抖音更是曾在5月的一则倡导中公开提到数字人在抖音内开播的规则,并为数字人直播划上了红线。随着AIGC……魅族HousePlus体验店重庆新光里店开业9周岁魅族重庆粉10月14日,重庆新光里店魅族HousePlus体验店开业仪式和2023魅族王者荣耀冠军杯总决赛在重庆成功举行。同时,重庆魅友家庆祝9周年庆典,为魅友们打造了一场盛大的狂欢活动……Midjourney微调动漫模型NijijourneyAPP站长之家(ChinaZ。com)10月16日消息:Midjourney微调动漫模型NijijourneyAPP已经在AppStore上正式亮相,成为数字艺术家和创意工作者的新创……
当1。9亿90后成为消费支柱,你却没有搞懂他对于大健康生态而言,核心场景和基础设施哪个更重要?万字科普:通信世界发展简史野蛮生长过后,网络文学走向下一站没有抖音快手,国外年轻人都刷什么?小米电视的成功,是做对了什么?链接“角色”与产品:角色化、角色转换ToB拒绝产品捆绑,布局服务地图版权太贵、赚钱太难,音乐行业集体焦虑背后的变现难题冷链物流行业模式及创新发展数字音乐迈向产业互联网为什么711便利店每个产品都能做到爆款?世界十大邮轮排名,全球第一吨位22。6万假如把顶级拳王的大脑装到肥宅的身体里,你猜会取得怎样的成绩?给我一个满足的笑就好了面积单元教学反思杭州拟退还出租车1亿份子钱什么是出租车的份子钱无量造句用无量造句大全令人记忆犹新的凤姐,如今成了美国名校大学生?有网友证实防盗窗钥匙丢了怎么办李子的两种保鲜方法关于小学生环保的作文纪念建党周年党旗映天山主题党日活动总结韩式洋气小卷发淑女范可爱发型

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界