专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

李飞飞高徒指导看懂多模态提示的机器人zeroshot性能提升

  编辑:LRS【新智元导读】李飞飞朝着她的北极星具身智能又前进了一步!
  人工智能领域的下一个发展机会,有可能是给AI模型装上一个身体,与真实世界进行互动来学习。
  相比现有的自然语言处理、计算机视觉等在特定环境下执行的任务来说,开放领域的机器人技术显然更难。
  比如promptbased学习可以让单个语言模型执行任意的自然语言处理任务,比如写代码、做文摘、问答,只需要修改prompt即可。
  但机器人技术中的任务规范种类更多,比如模仿单样本演示、遵照语言指示或者实现某一视觉目标,这些通常都被视为不同的任务,由专门训练后的模型来处理。
  最近来自英伟达、斯坦福大学、玛卡莱斯特学院、加州理工、清华大学和得克萨斯大学奥斯汀分校的研究人员共同提出一个基于Transformer的通用机器人智能体VIMA,利用多模态的prompt,实现极高的泛化性能,能够处理大量的机器人操作任务。
  论文链接:https:arxiv。orgabs2210。03094
  项目链接:https:vimalabs。github。io
  代码链接:https:github。comvimalabsVIMA
  输入prompt为交错使用的文字和视觉符号。
  为了训练和评估VIMA,研究人员提出了一个新的模拟基准数据集,包含上千个由程序生成的带有多模态提示的桌面任务,和60多万条专家轨迹用于模仿学习,以四个等级来评估模型的泛化性能。
  在同等尺寸的模型、等量训练数据的情况下,VIMA在最难的zeroshot的泛化设置下任务成功率为当下sota方法的2。9倍。
  在训练数据减少10倍的情况下,VIMA的表现仍然比其他方法好2。7倍。
  目前所有的代码、预训练模型、数据集和模拟基准都已完全开源。
  论文的第一作者是YunfanJiang,斯坦福大学硕士二年级学生,目前在英伟达研究院实习。2020年本科毕业于爱丁堡大学。他的主要研究方向为具身人工智能(embodiedAI),即通过与环境的互动来学习。具体研究内容为如何利用大规模的基础模型来实现开放式的的具身智能体(embodiedagents)
  论文包含两位导师,均为李飞飞曾经的学生。
  朱玉可,本科毕业于浙江大学,并取得了浙江大学和加拿大西蒙弗雷泽大学的双学位。硕士和博士研究生就读于斯坦福大学,师从李飞飞,并于2019年8月取得博士学位。朱玉可现任UTAustin计算机科学系助理教授,同时是机器人感知和学习实验室的主任,以及英伟达研究院高级研究科学家。
  范麟熙,博士毕业于斯坦福大学,师从李飞飞,目前是NVIDIAAI的研究科学家。主要研究方向为开发通用且强大的自主智能体(generallycapableautonomousagents),具体的研究工作涵盖了基础模型、策略学习、机器人技术、多模式学习和大规模系统。
  机器人与多模态prompt
  Transformer在NLP领域多任务已经实现相当高的性能,仅一个模型就能同时完成问答、机器翻译、文本摘要等。
  实现不同任务的接口就在于输入的文本提示,从而将具体的任务需求传递给通用大模型。
  能不能把这种prompt接口用在通用机器人智能体上呢?
  对于一个家务机器人来说,理想情况下,只需要输入给我拿杯子的图像,机器人就可以按照图片把杯子拿过来。
  当机器人需要学习新技能时,最好可以通过输入视频演示就能学习。如果机器人需要与不熟悉的物体进行互动时,只需要通过图例即可轻松解释。
  同时为了确保安全部署,用户可以进一步指定视觉约束,比如不要进入图像房间
  为了实现这些功能,VIMA模型主要包含三部分:
  1、形式化多模态提示,将机器人操纵任务转化为一个序列建模问题;
  2、一个新的机器人智能体模型,能够进行多任务操作
  3、一个具有不同任务的大规模基准,以系统地评估智能体的可扩展性和通用性
  首先,由多模态提示带来的灵活性可以让开发者指定和构建一个模型即可支持大量的任务规范,这篇论文中主要考虑六类任务:
  1、简单物体操纵(Simpleobjectmanipulation),任务提示形如putinto,其中对应的槽位为物体的图像;
  2、实现视觉目标(Visualgoalreaching),操纵物体实现目标设置,比如重新排列(rearragement);
  3、接纳新概念(Novelconceptgrounding),提示中包含一些不常见的词,例如dax,blicket等,可以通过在提示内的图像进行解释,然后直接在指令中使用,可以测试智能体对新概念的认知速度;
  4、单样本视频模仿(Oneshotvideoimitation),观看视频演示,并学习如何以相同的移动路径对一个特定物体进行复现;
  5、满足视觉限制(Visualconstraintsatisfaction),机器人必须小心地操纵物体,来避免触犯安全性限制;
  6、视觉推理(Visualreasoning),有一些任务要求智能体需要会推理,比如把所有和相同纹理的物体都放到一个容器中,或者要求视觉记忆,如把放到容器中,然后再放回到原位
  需要注意的是,这六类任务并非互斥,比如有的任务可能会通过演示视频(imitation)引入了一个之前没见过的动词(NovelConcept)
  新基准VIMBENCH
  巧妇难为无米之炊,为了训练模型,研究人员同时准备了一些配套数据作为多模态机器人学习基准VIMABENCH。
  在仿真环境(SimulationEnvironment)上,现有的基准一般都是针对特定的任务规范,目前还没有一个基准能够提供丰富的多模态任务套件和全面的测试平台来有针对性地探测代理能力。
  为此,研究人员通过扩展Ravens机器人模拟器来建立VIMABENCH,支持可扩展的物体和纹理集合,以组成多模态提示,并按程序生成大量的任务。
  具体来说,VIMABENCH提供了17个带有多模态提示模板的元任务,可以被实例化为1000个独立的任务。每个元任务属于上述6种任务规范方法中的一种或多种。
  VIMABENCH可以通过脚本化的oracle智能体生成大量的模仿学习数据。
  在观察和行动(ObservationandActions)上,模拟器的观察空间包括从正视图和自上而下视图渲染的RGB图像,基准还提供真实的物体分割和边界框,用于训练以物体为中心的模型。
  VIMBENCH从前人工作中继承了高级动作空间,由最基础的运动技能组成,如取放、擦拭等,具体由终端效果的姿势所决定。
  模拟器还具有脚本化的oracle程序,可以通过使用特权模拟器的状态信息,如所有物体的精确位置,以及多模态指令的基础解释,生成专家示范。
  最终,研究人员通过预编程的oracles生成了一个大型的专家轨迹离线数据集用于模仿学习。数据集包括每个元任务的5万条轨迹,共计65万条成功的轨迹。
  同时保留一个物体模型和纹理的子集方便评估,并将17个元任务中的4个用于zeroshot泛化性测试。
  VIMABENCH的每个任务标准只有成功和失败,不存在中间状态的奖励信号。
  在测试时,研究人员在物理模拟器中执行智能体策略,以计算出成功率,所有评估的元任务的平均成功率为最终报告的指标。
  评估协议包含四个层次以系统地探测智能体的泛化能力,每一级都更多地偏离训练分布,因此严格来说一级比一级难。
  1、放置泛化(Placementgeneralization):在训练过程中,所有的提示都是逐字逐句的,但在测试时,桌面上的物体放置是随机的。
  2、组合泛化(Combinatorialgeneralization):所有的材料(形容词)和三维物体(名词)在训练中都能看到,但在测试中会出现一些新的组合形式。
  3、新物体泛化(Novelobjectgeneralization):测试提示和模拟的工作空间包括新的形容词和物体。
  4、新任务泛化(Noveltaskgeneralization):测试时带有新提示模板的新型元任务
  VIMA模型
  多模态prompt中总共包含三种格式:
  1、文本,使用预训练的T5模型进行分词及获取词向量;
  2、整个桌面的场景,首先使用MaskRCNN识别出所有的独立物体,每个物体由一个boundingbox和裁剪图像表示,然后使用一个boundingbo编码器和ViT分别进行编码。
  3、单个物体的图像,同样使用ViT获得tokens,然后将结果序列输入到预训练的T5编码器模型中。
  机器人控制器(RobotController),即解码器的输入为提示序列上进行多次交叉注意力层后的表示和轨迹历史序列。
  这样的设计可以增强对prompt的连接度;更好地保留且更深地处理原始prompttokens;更好的计算效率。
  在测试阶段的实验设计,主要为了回答三个问题:
  1、VIMA和之前的SOTA基于Transformer的智能体在多模态提示的多种任务上的性能对比;
  2、VIMA在模型容量和数据量上的缩放性(scalingproperties);
  3、不同的视觉分词器,条件提示和条件编码是否会影响到最终的决策。
  对比的基线模型包括Gato,Flamingo和DecisionTransformer(DT)
  首先在模型缩放(Modelscaling)上,研究人员对所有方法从2M到200M参数量进行训练,编码器的尺寸始终保持为T5base,在所有层次的zeroshot泛化性评估上,VIMA都绝对好于其他工作。
  尽管Gato和Flamingo在更大尺寸的模型上性能有所提升,VIMA也仍然好于所有模型。
  在数据缩放(Datascaling)上,研究人员对各个方法的训练数据采取0。1,1,10和全量模仿学习数据集的不同实验,VIMA仅需1的数据,就能实现其他方法用10倍的数据训练的L1和L2泛化性指标。在L4指标上,仅需1的训练数据,VIMA就已经要比其他模型在全量数据上训练效果要好了。
  在渐进泛化(ProgressiveGeneralization)性能对比中,在面向更难的泛化任务中,没有采用任何微调。VIMA模型的性能倒退最少,尤其是从L1到L2和L1到L3,而其他模型退化超过了20,这也意味着VIMA学习到了更泛化的策略,更健壮的表征。
  参考资料:
  https:arxiv。orgabs2210。03094

现在想去职业院校当老师,需要什么条件?去职业学院当老师需要具备的条件一,具备中华人民共和国国籍,遵纪守法,身心健康,品行端正,廉洁奉公,专业技能较强。二,具有良好品行和职业道德,适应岗位的身体条件。三,报考中职院校教师二本分数线能上中国公安大学吗?中国人民公安大学是一所一本院校,在提前批进行录取招生,一般情况下,二本的分数线是无法上一本高校的。因为它招生录取的条件就是考生分数达到当年一本分数以上,才有资格进行填报。但是也有例我去医院检查是否有抑郁症,结果医生叫我先去验血,我不满意走了,你觉得医生对吗?我先给你讲一个我病人的悲惨经历。这个病人到我们医院以前,已经经历了很多次痛苦的就医过程。她被家人当作是精神病,因为他经常会痴痴的发笑,然后喊打喊杀,完全失控状态,不认识人。发作之后乳腺癌化疗不埋管行不?乳腺癌化疗要埋管?是的,通常需要,但也不是一定。估计非癌症患者和家属,对这个不太明白,什么是埋管?先简单地说一下。所谓置管,就是将输液管道置入血管,通过这个管道输入药物,从而实现治牛市买基金合适吗?投资基金大概率盈利的操作方式是熊市阶段分批买入,牛市获利分批止盈。在牛市也可以买基金,但要注意控制风险。一在A股牛短熊长,爆涨爆跌,投机性较重,A股从2015年下跌到2018年共跌农民交的小麦,玉米保险款。遇到天灾,保险公司只赔少部分或者不赔。大家怎么看?农民交的小麦,玉米保险款。遇到天灾,保险公司只陪少部分或者不陪,大家怎么看?关于农作物保险的事,我还是奉劝大家不要交!我们是有亲身体会,17年上半年我们村委会统一安排,让全村都交小怎么让鹿角海棠长的更快一些?你好,我是晨曦,一个多肉大棚主。晨曦愿意分享多年多肉养护经验与知识。希望可以帮助到你。鹿角海棠番杏科鹿角海棠属多肉植物,多年生常绿肉质灌木,原产于非洲西南部,后被世界各地引进栽培。孕妇足月之后生跟差不多足月以及过了预产期生有啥区别?这个问题问的有点意思,其实这三者有很大区别,我家两个宝宝都是在37周足月生产的。身边的朋友也有预产期前后分娩的,都很健康。孕妇足月之后生跟差不多足月以及过了预产期生有啥区别?先说差一岁之后一天的奶量是多少?一岁以后以米饭为主,一天奶量大约600ml左右。以我家宝贝为例,一岁半,每天两次奶,早晚各一次,每次200ml奶,一天奶总量400ml,偶尔一天多吃一次奶。早上6点第一次喝奶,喝完数字货币正成为大国竞逐场数字货币正成为大国竞逐场(冯兴元,中国社会科学院农村发展研究所研究员庄希威,国家开发银行风险管理部)中国经济报告提要政府也要为发展数字货币提供某种通道,因为,数字货币领域在未来会成微软要求法院搁置玩家个人反垄断诉讼遭美国法官驳回周四,美国加州法官驳回了微软提出的冻结个人消费者反垄断诉讼的请求,该诉讼涉及该公司以690亿美元收购动视暴雪公的交易,同时监管机构也在阻挠这一交易。微软要求在FTC诉讼案解决之前,
为什么苹果不拿出突破性的新产品?一年前,科技行业盛传苹果最终将发布期待已久的增强现实(AR)虚拟现实(VR)耳机。一经发布,有望成为自2015年发布AppleWatch以来首款开辟新品类的新品。许多人认为Appl嗓子就像吞刀片?家里常备4种茶,香甜滋润,嗓子清亮肺舒服最近冷空气袭来,气温骤降,很多人都不可避免出现了咳嗽嗓子干痒的问题,小编近期最常听到的一句话,就是嗓子像吞了刀片一样,这种痛苦让人如鲠在喉备受煎熬。光靠多喝热水,未免有些寡淡,这里阳转阴以后,生育要避开这个时期!近日有专家表示新冠会短期影响男性生殖功能,36个月会恢复。那么笔者根据现有的新冠小知识,来分析一下,2023年哪个时间段生孩子比较靠谱?根据资料显示,男性备孕时,每次射精的精子都是车市快速回暖高频数据跟踪2022年12月第3周经济增长车市快速回暖1生产电厂日耗温和上行。(1)电厂日耗温和上行。12月17日,6大发电集团平均日耗为81。8万吨,较上周的78。9万吨上升3。血糖仪测血糖准确吗?选择智优,解锁妊娠糖尿病的控制方案怀孕之后,家里的大小事务都以孕妈为优先,一家人沉浸在迎接新生命的甜蜜氛围中。然而,许多妈妈在过了一段女王式生活后,却在产检中被意外告知患上了妊娠糖尿病,让原本甜蜜的生活中又多了一份EPLAN教程易盼软件钻孔排列样式部件的开孔信息主要包括两种类型,第一种是在门板上进行安装的元件,例如信号灯按钮等。第二种是安装在安装底板上,需要开地脚孔的类型。安装孔是基于3D模型的,所以在制作钻孔排列图之前,我iPhone好软推荐我的主力机一直是安卓,在购买了iPhone13后,我尝试将iPhone作为我的主力机。经历了一段时间各种不适应后渐入佳境,使用越加顺手。这里我总结了一份应用名单,方便有同样经历的朋国货电纸书崛起!薄如纸张仅7。8寸屏,汉王N10mini手写电纸本测评电纸书市场,可能很多人一开始了解并使用这类产品还是从Kindle索尼这些海外巨头的产品开始的,但是,随着国产电纸书品牌的加速崛起,现在电纸书市场已经和过去不一样了,一方面是Kind3Dmapping,打破想象限制,带你走进奇幻世界3DMapping是利用计算机图形学中的平行投影和透视投影技术,将视频投射到建筑物等表面,以创造3D艺术,打破了空间限制,根据投影面积配备相应的投影机,再通过投影仪的位置方向角度等三月流焱太多的或许,太多的抱怨,太多的感慨让该来的来,让该去的去,不欣羡别人,不哀怜自己不留恋过去,不幻想未来,把握现在,播散良种,只问耕耘,不问收获。不强求,不妄取,贵在随缘。Letwhatshouldcome,letw露营充电一扫疲倦带着大唐二次造访李马庄如果说你问今年秋天,郑州哪个地方最火?答案一定是李马庄的潮河区域作为一个郑州人,没有去过潮河的秋天是不完整的秋天!朋友圈里短视频里,到处是潮河潺潺的身影,这是我第二次造访李马庄了,
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网