范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

CoCa多模态图像文本基础模型

  原文:Yu J, Wang Z, Vasudevan V, et al. CoCa: Contrastive Captioners are Image-Text Foundation Models[J]. arXiv preprint arXiv:2205.01917, 2022.
  探索大规模预训练基础模型在计算机视觉中具有重要意义,因为这些模型可以快速迁移到许多下游任务中。本文提出了对比Captioner模型(Contrastive Captioner,简称CoCa),结合对比损失和captioning损失来预训练图像-文本编码器-解码器基础模型,从而兼具了对比方法(如CLIP)和生成方法(如SimVLM)的优点。与标准的编码器-解码器Transformer(所有解码器层都参与编码器输出的处理)不同,CoCa省略了解码器前半部分的交叉注意力来编码纯文本表示,并在后半部分用交叉注意力将图像编码器的输出和多模态解码器级联起来,以学习多模态图像-文本表示。我们在单模态图像和文本嵌入之间应用对比损失,在多模态解码器的输出上应用captioning损失,以自回归的方式预测文本tokens。通过将所有标签简单地视为文本,我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了预训练。从经验上看,CoCa在广泛的下游任务上实现了SOTA性能,包括视觉识别(ImageNet、Kinetics-400/600/700、Moments-in-Time)、跨模态检索(MSCOCO、Flickr30K、MSR-VTT)、多模态理解(VQA、SNLI-VE、NLVR2)和图像描述(MSCOCO、NoCaps)。值得注意的是,CoCa在ImageNet图像分类任务上,采用零样本的方式获得了86.3%的精度,使用冻结编码器获得了90.6%的精度,使用微调编码器获得了91.0%的SOTA精度。
  相关工作  CLIP:从自然语言监督中学习可迁移的视觉模型 ALIGN:基于噪声文本监督的视觉和视觉语言表示学习 ViT:一图胜千言,用于大规模图像识别的Transformer VinVL:视觉语言模型中的视觉表示
  论文故事
  深度学习最近见证了基础语言模型的兴起,如BERT、 T5、 GPT-3,这些模型在大规模数据上进行预训练,并通过零样本、小样本或迁移学习的方式展示了通用的多任务能力。与专业模型相比,针对大规模下游任务的预训练基础模型可以分摊训练成本,为模型达到并超过人类智能提供了契机。
  针对视觉和视觉-语言问题,研究者们已经探索了几种基础模型:(1)开拓性工作表明,在图像分类数据集(如ImageNet)上,使用交叉熵损失预训练的单编码器模型是有效的。图像编码器提供了通用的视觉表示,可用于各种下游任务,包括图像和视频理解。然而,这些模型在很大程度上依赖于图像注释作为标记向量,并且没有吸收人类自然语言的知识,这阻碍了它们在涉及视觉和语言模态的下游任务中的应用。(2)最近,研究者们在大规模含有噪声的图像-文本对上,利用对比损失对两个并行的编码器进行预训练,证明了图像-文本基础模型的可行性。除了仅用于视觉任务的视觉嵌入外,形成的双编码器模型还可以将文本嵌入编码到相同的潜在空间,从而实现新的跨模态对齐功能,如零样本图像分类和图像-文本检索。然而,由于缺少学习图像-文本融合表示的联合组件,这些模型不能直接适用于视觉-语言理解任务,如视觉问答(VQA)。(3)另一项研究探索了使用编码器-解码器模型进行生成式预训练,以学习通用的视觉和多模态表示。在预训练期间,模型从编码器一侧获取图像,并在解码器输出上应用语言建模损失(或PrefixLM)。对于下游任务,解码器的输出可以用作多模态理解任务的联合表示。虽然通过预训练的编码器-解码器模型获得了优异的视觉-语言结果,但它们不会生成与图像嵌入对齐的纯文本表示,因此对于跨模态对齐任务来说,可行性和效率较低。
  在这项工作中,我们统一了单编码器、双编码器和编码器-解码器范式,并训练了一个包含三种方法优点的图像-文本基础模型。我们提出了对比Captioner模型(CoCa),该模型采用经过对比损失和captioning损失训练的编码器-解码器架构。如图1所示,我们将Transformer解码器解耦为两部分,分别是单模态解码器和多模态解码器。我们省略了单模态解码器中的交叉注意力来编码纯文本表示,并用交叉注意力将图像编码器的输出和多模态解码器级联起来,以学习多模态图像-文本表示。我们在图像编码器和单模态文本解码器的输出之间应用对比损失,并在多模态解码器的输出处应用captioning损失。此外,通过将所有标签简单地视为文本,我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了训练。图像注释文本上的生成损失提供了类似于单编码器交叉熵损失的细粒度训练信号,有效地将上述三种预训练范式纳入到统一的方法中。
  图1:经过预训练的CoCa模型能够以零样本、冻结特征或端到端微调的方式应用于下游任务,包括视觉识别、视觉-语言对齐、图像描述和多模态理解。
  CoCa利用对比学习来学习全局表示,并为细粒度的区域级特征添加文本描述,从而有利于图1所示的三类任务。CoCa表明,单一的预训练模型可以在零样本和小样本迁移任务上优于许多专业模型。例如,CoCa在ImageNet上获得了86.3%的零样本图像分类精度,在MSCOCO和Flickr30k上获得了更好的零样本跨模态检索结果。通过冻结编码器,CoCa在ImageNet上的分类精度为90.6%,在Kinetics-400/600/700上的得分分别为88.0%/88.5%/81.1%,在Moments-in-Time上的得分为47.4%。经过微调后,CoCa在ImageNet上的分类精度进一步达到了91.0%,在VQA上的得分达到了82.3%,在NoCaps上的得分达到了120.6。
  模型方法
  图2:CoCa的架构和训练目标。
  表1:CoCa的变体。图像编码器和文本解码器都是Transformer。
  图3:用于视频识别的CoCa。
  实验结果
  图4:CoCa与其他图像-文本基础模型(不针对特定任务定制)和任务专用模型的比较。
  表2:使用冻结编码器或微调编码器进行图像分类和视频动作识别的结果。
  图5:模型大小对图像分类精度的影响。
  表3:在Flickr30K和MSCOCO数据集上的零样本图像-文本检索结果。
  表4:在ImageNet、ImageNet-A、ImageNet-R、ImageNet-V2、ImageNet Sketch和ObjectNet上的零样本图像分类结果。
  表5:在MSR-VTT测试集上的零样本视频-文本检索结果。
  表6:CoCa与其他视觉-语言预训练模型在多模态理解任务上的比较。
  表7:在MSCOCO和NoCaps数据集上的图像描述结果。
  图6:CoCa以NoCaps图像作为输入生成的文本标题示例。
  表8:CoCa的消融实验。默认设置用粗体显示。
  表9:视觉识别实验中使用的超参数。
  表10:多模态实验中使用的超参数。
  总结讨论
  在这项工作中,我们提出了图像-文本基础模型CoCa,将现有的视觉预训练范式和自然语言监督统一起来。CoCa在不同来源的图像-文本数据上进行了预训练,在编码器-解码器模型中有效地结合了对比损失和captioning损失。CoCa在广泛的视觉和视觉-语言问题上获得了一系列最先进的表现。我们的工作弥合了各种预训练方法之间的差距。我们希望CoCa能为图像-文本基础模型的研究提供新的方向。
  多模态人工智能
  欢迎关注"多模态人工智能 "公众号,一起进步^_^

空气净化器清新守护,给宝宝好的空气环境自2016年3月1日正式实施空气净化器新国标以来,空气净化器行业迎来第一次革命,假洋牌黑作坊贴牌生产等市场乱象遭到打击,近千家空气净化器品牌淘汰消失。随着空气净化器行业高速增长,行推荐几款不错的无线路由器1首先申明如果目前的无线路由器WiFi覆盖不错,能满足需求,不要随意更换。解决网速慢的问题?换千兆路由器和使用现在的百兆路由器都是一样的速度。换千兆路由器解决不了上网慢的问题!解决换道场景释放增长潜力!78。1高端用户选卡萨帝洗护场景如果已经做到高端引领,后续还会有新的增长点吗?卡萨帝洗衣机用换道场景为这个问题作出解答。中怡康发布的第34周数据显示,卡萨帝洗衣机在万元以上市场份额为78。1,较上周有所提升,再次安卓端官方WPS,清新无广告,还功能齐全1软件介绍要说PC端哪个办公软件功能最强大,那肯定是office,但要说手机端,那就是咱国产WPS的天下了。毕竟手机并不是编辑的重灾区,多是用来查看文档的,大部分自带的都不如WPSiPhone13系列积极备货,苹果或将加量不加价iPhone13系列积极备货,苹果或将加量不加价为了下个月能够第一时间上架开卖iPhone13系列,据外媒报道,苹果正在全力进行筹备工作,预计在今年秋季的9月份召开第一场发布会,新2021用于3D建模和渲染的笔记本电脑该怎么选?当您查看用于3D工作的专业工作站计算机的成本和尺寸时,很难想象一台笔记本电脑可以做到这一点。嗯,这是因为不存在可以模拟完整3D工作站性能的笔记本电脑。这是因为这将使笔记本电脑与笔记检验屏下镜头实力的时候到了,中兴Axon30自拍测试不可否认,屏下镜头是影响全面屏手机能否进入下一个关键阶段的重要技术。在之前的几款产品中,大家都选择牺牲一部分屏幕显示效果,再牺牲一部分拍照性能,实现前置相机的隐藏,整体的美观性和实企业创新志金蝶软件云业务高质量增长来源深圳商报读创读创深圳商报记者董芳芳金蝶国际软件集团有限公司(股份编号0268。HK)于8月18日公布其截至2021年6月30日之中期业绩。聚焦平台人财税生态战略,集团持续发展和vivoX70系列渲染图再曝光蔡司加持,后摄模组布局变化8月26日消息,近日海外知名爆料人OnLeaks接连向媒体曝光了vivo待发布新机X70Pro以及X70的高清渲染图。其中定位更高阶的X70Pro采用居中打孔曲面屏的设计,机身为深麟先生谈币比特币ATM运营商成立反洗钱协会许多BTM运营商认为,仅仅要求提供手机号码就足以免除他们强制执行的KYC要求。美国的主要比特币(BTC)ATM运营商正在联手打击与比特币ATM相关的非法活动。比特币ATM运营商Di探索黑科技之作!这几台手机有没有让你惊艳近些年,各大厂商纷纷在手机中加入各种黑科技,以求打造出与众不同的产品。120W超级快充1亿像素传感器微云台屏下摄像头等让人叹服的新科技,不仅增加了手机的独特性,也大大提高了用户的使
数据中心变绿能源消耗瘦身数据中心是新型基础设施节能降耗的关键环节,也是促进全社会降碳增效的有力抓手。近年来,我国数据中心规模不断壮大,推进数据中心绿色化转型升级势在必行。通过优化供电架构提高绿电使用比例绿在网贷平台贷款,因银行卡号输错导致资金被银监会冻结了,这种情况该如何处理?前几天我朋友也遇到过同样的问题,当时着急用钱,就在APP上申请了5万,认证需要提交银行卡号,当时的银行卡号是从手机银行的APP上复制过去的,一会儿提示借款成功,然后有客户经理就打电中国手机厂商百亿资金助力印度制造,为何还是被频频刁难?日前,印度扣押了小米公司48亿元资产,这让网民感到惊讶。印度手机市场前五,有四家是中国厂商。这让人担心,它们把从中国赚的钱投入印度,助力印度制造,仍频频被刁难,会不会竹篮打水一场空三星S22Ultra真香!上手体验后,不黑不吹地说说优缺点深深的被三星S22Ultra的外观吸引了,论设计,三星绝对yyds。虽然看上去像是方方正正的,但是边框部分设计了弧度,并不会硌手,反而这种弧面握上去非常的贴合舒适。屏幕素质拉满,什毁约校招生,套路消费者,新势力销冠小鹏正在持续失信凤凰网风暴眼出品文凤凰网财经张沃若5月初理想汽车毁约2022届应届生的热度还没下去,小鹏就立马接棒了鸽掉校招生的毁约新势力。去年还一年增员1。8万人频传薪酬翻倍的蔚小理,已经有两家腾讯起诉手机厂商不正当竞争,南山必胜客这下难了5月18日,腾讯方面发布了2022年的第一季度财报,交出了营收与利润双双不及市场预期的一份成绩,但这份财报并不是腾讯在当天登上热搜榜的原因。就在同一天,腾讯起诉vivo不正当竞争一时评特斯拉招聘为何火?多给一分真诚,少一分套路钱江晚报小时新闻评论员项向荣最近,一则来自特斯拉的招聘新闻火上微博热搜榜。特斯拉此次招聘的是普工,岗位要求高中或者中专以上学历就行,工资待遇在7500元12000元左右。消息一经发全球已发现80例,未来或许会发现更多截止当地时间20日,世卫组织召开技术咨询小组会议,讨论有关猴痘的信息和应对策略。目前全球约有80例猴痘确诊病例,还有50例待确认的病例。随着监测范围的扩大,未来可能会发现更多病例。中国股市元宇宙概念来袭,6家企业位居首位!(附名单)元宇宙的未来发展趋势元宇宙概念是近些年来互联网关注度最高的行业。简单来说元宇宙就是利用互联网科技手段进行链接与创造一个虚拟世界和现实世界映射交互的数字生活空间。元宇宙本身不是一个技想要入华为这样的公司工作,难度有多大?2018java华为面试题送上搞到一份题,分享一下,如果你和我一样看不懂,就立下flag,一起学习Java,第一题题目描述输入任意个字符串,将其中的小写字母变为大写,大写字母变为小写,其他字符不用处理输入描述任免费好用的全平台编辑器,手把手教你做一个Markdown这门简洁的标记语言,让我们写文章有了更方便的途径。macOS上面好用又好看的Markdown编辑器百花齐放,但在Windows上,好用的Markdown编辑器真是少