童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

清华等开源工具学习基准ToolBench,微调模型ToolL

8月12日 满月族投稿
  人类具有创造和利用工具的能力,使得我们可以突破身体的限制,探索更广阔的世界。
  人工智能基础模型也类似,如果仅靠训练阶段得到的权重,使用场景就会非常受限,而最近提出的工具学习(toollearning),将特定领域的专用工具与大规模基础模型相结合,可以实现更高的效率、性能。
  不过目前工具学习的相关研究还不够深入,也缺乏相关的开源数据和代码。
  最近,清华大学自然语言处理实验室等支持的开源社区OpenBMB(OpenLabforBigModelBase)发布了ToolBench项目,可以帮助开发者构建开源、大规模、高质量的指令调优数据,促进构建具有通用工具使用能力的大型语言模型。
  仓库链接:https:github。comOpenBMBToolBench
  ToolBench仓库中提供了相关数据集、训练和评估脚本,以及在ToolBench上微调的功能模型ToolLLaMA,具体特点为:
  1。支持单工具和多工具方案
  其中单工具设置遵循LangChain提示风格,多工具设置遵循AutoGPT的提示风格。
  2。模型回复不仅包括最终答案,还包含模型的思维链过程、工具执行和工具执行结果
  3。支持真实世界级别的复杂性,支持多步工具调用
  4。丰富的API,可用于现实世界中的场景,如天气信息、搜索、股票更新和PowerPoint自动化
  5。所有的数据都是由OpenAIAPI自动生成并由开发团队进行过滤,数据的创建过程很容易扩展
  不过需要注意的是,目前发布的数据还不是最终版本,研究人员仍然在对数据进行后处理来提高数据质量,并增加真实世界工具的覆盖范围。
  ToolBench
  ToolBench的总体思路是基于BMTools,在有监督数据中训练大型语言模型。
  仓库中包含31。2万次真实API调用得到的9800条数据,涵盖单工具场景和多工具场景,下面是单工具的统计信息。
  其中每行数据都是一个jsondict,包含数据创建的提示模板、工具使用的人工指令(查询)、中间思维工具执行循环和最终答案。
  ToolDescrition:BMToolsToolname:translationToolaction:gettranslationactioninput:{:targettexts,:targetlanguage}
  GeneratedData:{:Answerthefollowingquestionsasbestyoucan。Specifically,youhaveaccesstothefollowingAPIs:nngettranslation:。Yourinputshouldbeajson(argsjsonschema):{{:string,:string,}}TheActiontotriggerthisAPIshouldbegettranslationandtheinputparametersshouldbeajsondictstring。Payattentiontothetypeofparameters。nnUsethefollowingformat:nnQuestion:theinputquestionyoumustanswernThought:youshouldalwaysthinkaboutwhattodonAction:theactiontotake,shouldbeoneof〔gettranslation〕nActionInput:theinputtotheactionnObservation:theresultoftheactionn。。。(thisThoughtActionActionInputObservationcanrepeatNtimes,max7times)nThought:InowknowthefinalanswernFinalAnswer:thefinalanswertotheoriginalinputquestionnnBegin!Remember:(1)Followtheformat,i。e,nThought:nAction:nActionInput:nObservation:nFinalAnswer:n(2)ProvideasmuchasusefulinformationinyourFinalAnswer。(3)Donotmakeupanything,andifyourObservationhasnolink,DONOThallucihateone。(4)Ifyouhaveenoughinformationandwanttostoptheprocess,pleaseusenThought:IhavegotenoughinformationnFinalAnswer:yourresponse。nTheAction:MUSTbeoneofthefollowing:gettranslationnQuestion:{input}nAgentscratchpad(historyactions):n{agentscratchpad},:MyintentionistoconvertthedataprovidedinintoArabic(ara)。,:〔{:IneedtousethegettranslationAPItoconvertthetextintoArabic。,:,:{:Whatarethethreebranchesofthemilitary?,:},:}〕,:TWhatarethethreebranchesofthemilitary?intoA。}
  模型实验
  机器评估:研究人员对每个工具随机抽取100个链步(chainsteps)来构建机器评估测试平台,平均27个最终步骤和73个中间工具调用步骤,其中最终步骤的评估使用RougeL指标,中间步骤的评估使用ExactMatch指标进行评估。
  人工评估:在天气、地图、股票、翻译、化学和WolframAlpha工具中随机抽取10个query,然后评估工具调用过程的通过率、最终答案以及和ChatGPT最终答案的比较。
  ChatGPT评估:通过ChatGPT对LLaMA和ChatGPT的答案和工具使用链进行自动评估。
  评估结果如下(分数越高越好),可以看到ToolLLaMA在不同场景下与ChatGPT的性能相同或更好。
  工具学习
  在清华大学、人民大学、北京邮电大学等个国内外知名高校和大学联合发布的一篇论文中,对工具学习进行了系统的研究,介绍了工具学习的背景,包括认知起源、基础模型的范式转变,以及工具和模型的互补作用。
  论文链接:https:arxiv。orgpdf2304。08354。pdf
  文中还回顾了现有的工具学习研究,包括工具增强型和工具导向型学习,并制定了一个通用的工具学习框架:从理解用户指令开始,模型应该学会把一个复杂的任务分解成几个子任务,通过推理动态地调整计划,并通过选择合适的工具有效地征服每个子任务。
  文中还讨论了如何训练模型以提高工具使用能力并促进工具学习的普及。
  考虑到之前的工作中缺乏系统的工具学习评估,研究人员用17种有代表性的工具进行了实验,并展示了当前基础模型在熟练利用工具方面的潜力。
  论文最后讨论了几个需要进一步研究的工具学习的开放性问题,例如确保安全和可信赖的工具使用、用基础模型实现工具创建,以及解决个性化的难题。
  参考资料:
  https:github。comOpenBMBToolBench
  (举报)
投诉 评论

7年憋出最强头显,苹果VisionPro一夜封神!售价2万5【新智元导读】终于来了!苹果首款头显VisionPro深夜登场,令人叹为观止的设计、无与伦比的交互,必将引领下一个十年智能终端设备新形态!苹果的头显,终于让我们等到了!……我用AI卖废料,平台上线两年,成交3亿美金对话创始人5月份的一个上午,通过谷歌出海加速器的引荐,我们认识了再生博士的创始人兼CEO谭天、以及此前我们从未了解过的全球废料回收行业。用谭天的话来说,这是一个暴利的冷门行业,很少被人关……四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿toArxiv上所有论文转成Token,加起来不过14。1GB而已。这是最新爆火开源计划亚历山大完成的壮举。事实上,这还只是第一步。他们最终是想要将整个互联网变成……清华等开源工具学习基准ToolBench,微调模型ToolL人类具有创造和利用工具的能力,使得我们可以突破身体的限制,探索更广阔的世界。人工智能基础模型也类似,如果仅靠训练阶段得到的权重,使用场景就会非常受限,而最近提出的工具学习……零推广零买量,莉莉丝近年最低调的新品,DAU悄悄超过了100莉莉丝的第一款射击游戏成了。今日,职场社交平台脉脉上,有标记为莉莉丝游戏员工的用户发表动态,称公司UE4射击游戏《Farlight84》的DAU靠自然量涨到了100万,并……2万5的苹果头显,谁买?XR行业的“iPhone时刻”来了?北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)拉开帷幕。以往,软件更新是WWDC的重头戏。但这次,风头完全被苹果的“o……挤出泡沫、脱虚向实,AI大模型正在回归价值投资?AI概念股价“分道扬镳”,大涨与回调并存市场行情的高景气直观反映在股价上,无论AI公司是否盈利,其股价多呈上升趋势。一些与AI概念有所关联的游戏、传媒等企业,股价也在普涨……长视频平台终于开始和用户站在一起腾爱优等长视频平台,正在从产品、品牌、运营等各个方面,加强面向C端用户的动作,力图将用户心智,从具体的艺人、剧综项目,锚定到平台自身。背后的逻辑和推动力是平台商业模式的重……北上广的年轻人,在深夜蹲点抢剩菜盲盒当代年轻人八点以后的夜生活,目的地或许不是酒吧,而是去取“剩菜盲盒”。原价30元左右的面包、100元左右的寿司或轻食、20元左右的咖啡均可以通过“剩菜盲盒”的相关小程序下……在隐秘的角落,情感导师赚疯了好评返现这种操作,沈垚(化名)原先只在电商网购遇到过,没想到情感咨询也跟进了。沈垚与男友的关系从3月开始恶化,两人激烈地争吵、发疯、崩溃。沈垚跑去豆瓣、小红书发帖,然而还……俞敏洪回应董宇辉直播排场大:景区保安怕出现意外据报道,近日董宇辉回西安被指排场过大,对此俞敏洪在直播中回应称,在直播时有很多游客或粉丝会来,景区保安怕出现意外才这样做,人太多容易出安全问题,请大家不要误会。俞敏洪还表……试试快手吧!真赚钱!各位村民好,我是村长。一提到快手,没有深入了解的人,都是抱着固有思维偏见去看待的。比如觉得快手上都是低端用户,买不起高客单价产品。或是认为快手老铁文化太严重,……
抖音电商删除本地教育培训类目资质禁售记忆棒数码产品站长之家(ChinaZ。com)4月29日消息:日前,抖音电商发布了关于《【本地生活及虚拟】行业管理规范》、《【3c数码家电】行业管理规范》修订的意见征集,意见征集期为2022……壹号优选商城是如何做到消费增值的?随着经济的不断提升,人们的生活品质也在不断得到改善。从曾经的奢望吃饱穿暖,到如今的注重品质与时尚。人们不再简单的追求活着,更看重的是生活。因而,在生活的消费过程中,“消费增值”……抖音电商“春天开阅季”数据:儿童读物销售额环比增长1094月25日,为期14天的抖音电商“春天开阅季”活动落下帷幕。活动正值第27个“世界读书日”前后,抖音电商依托兴趣电商优势,在平台内推出百余场内容丰富、图书品类多样的直播,上线春……快手电商新增《个体工商户店铺入驻资质标准》5月7日生效站长之家(ChinaZ。com)4月29日消息:快手电商发布公告称,为规范快手电商平台运营秩序,保障用户权益。平台现制定《个体工商户店铺入驻资质标准》,规范商户合规入驻及经营。……大厂环伺小红书,抖音淘宝之后,网易也来了互联网领域的明星公司,或多或少都有一两个举足轻重的“友商”,比如拼多多、京东之于淘宝天猫,快手之于抖音,饿了么之于美团。但小红书是一个神奇的存在,在抖音和快手的围剿中,居……拼多多百亿补贴大降价:iPhone13仅4799元直降120恰逢五一小长假,拼多多同步开启百亿补贴五一大促钜惠活动。据悉,从4月30日00:00开始,全品类加码狂补,限时狂撒最高85元的大额券包,全场通用,券后折上折。拼多多……董明珠“接班人”孟羽童否认被解雇据说直播带货能力差:本人称仍近日,网上有消息曝出,董明珠的接班人”孟羽童被解雇了。而孟羽童被解雇的原因,是因为直播带货能力差。同时,有网友发现,孟羽童的个人社交平台账号已经停更41天。对此,孟羽童今……港股阿里巴巴跌幅收窄此前跌超9:股价重回百元5月3日,港股早盘低开低走,阿里巴巴股价一度跌超9,以最低价92。5港元计算,相比上一个交易日收盘价,总市值一度缩水2082亿港元。不过,随后阿里巴巴股价短线拉升,盘中重……京东健康一度跌10此前遭刘强东减持逾884万股凤凰网科技讯5月4日上午消息,港股京东健康跌幅扩大至10,据香港交易所股权披露资料显示,京东健康的大股东刘强东在5月3日以平均每股49港元的价格出售约500万股京东健康股票,于……字节跳动起诉腾讯索赔300万元因公众号存在大量侵权视频站长之家(ChinaZ。com)4月29日消息:据南方都市报报道,因微信公众号存在大量电影《我和我的家乡》的侵权视频,版权方字节跳动将腾讯诉至海南自由贸易港知识产权法院,索赔3……知名男主持入淘直播,主攻母婴品类,单场涨粉超50万雷明的阵地变了,从卫视演播厅的嘉宾席,变成了这一方小小的主播台。晚上六点半之后,他会准时出现在这个主播台前。一台小摄像机、两个收声话筒、几台补光灯、密密麻麻的商品,构成了……给爱优腾支个招:出短视频版、降流量剧权重不久前,芒果TV、咪咕视频、爱优腾等长视频会员涨价引发了大规模的讨论与争议。而争议的核心在于,不少观点认为长视频涨价与平台的内容质量不对等。涨价的背后是长视频平台的……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界