范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

CoCa多模态图像文本基础模型

  原文:Yu J, Wang Z, Vasudevan V, et al. CoCa: Contrastive Captioners are Image-Text Foundation Models[J]. arXiv preprint arXiv:2205.01917, 2022.
  探索大规模预训练基础模型在计算机视觉中具有重要意义,因为这些模型可以快速迁移到许多下游任务中。本文提出了对比Captioner模型(Contrastive Captioner,简称CoCa),结合对比损失和captioning损失来预训练图像-文本编码器-解码器基础模型,从而兼具了对比方法(如CLIP)和生成方法(如SimVLM)的优点。与标准的编码器-解码器Transformer(所有解码器层都参与编码器输出的处理)不同,CoCa省略了解码器前半部分的交叉注意力来编码纯文本表示,并在后半部分用交叉注意力将图像编码器的输出和多模态解码器级联起来,以学习多模态图像-文本表示。我们在单模态图像和文本嵌入之间应用对比损失,在多模态解码器的输出上应用captioning损失,以自回归的方式预测文本tokens。通过将所有标签简单地视为文本,我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了预训练。从经验上看,CoCa在广泛的下游任务上实现了SOTA性能,包括视觉识别(ImageNet、Kinetics-400/600/700、Moments-in-Time)、跨模态检索(MSCOCO、Flickr30K、MSR-VTT)、多模态理解(VQA、SNLI-VE、NLVR2)和图像描述(MSCOCO、NoCaps)。值得注意的是,CoCa在ImageNet图像分类任务上,采用零样本的方式获得了86.3%的精度,使用冻结编码器获得了90.6%的精度,使用微调编码器获得了91.0%的SOTA精度。
  相关工作  CLIP:从自然语言监督中学习可迁移的视觉模型 ALIGN:基于噪声文本监督的视觉和视觉语言表示学习 ViT:一图胜千言,用于大规模图像识别的Transformer VinVL:视觉语言模型中的视觉表示
  论文故事
  深度学习最近见证了基础语言模型的兴起,如BERT、 T5、 GPT-3,这些模型在大规模数据上进行预训练,并通过零样本、小样本或迁移学习的方式展示了通用的多任务能力。与专业模型相比,针对大规模下游任务的预训练基础模型可以分摊训练成本,为模型达到并超过人类智能提供了契机。
  针对视觉和视觉-语言问题,研究者们已经探索了几种基础模型:(1)开拓性工作表明,在图像分类数据集(如ImageNet)上,使用交叉熵损失预训练的单编码器模型是有效的。图像编码器提供了通用的视觉表示,可用于各种下游任务,包括图像和视频理解。然而,这些模型在很大程度上依赖于图像注释作为标记向量,并且没有吸收人类自然语言的知识,这阻碍了它们在涉及视觉和语言模态的下游任务中的应用。(2)最近,研究者们在大规模含有噪声的图像-文本对上,利用对比损失对两个并行的编码器进行预训练,证明了图像-文本基础模型的可行性。除了仅用于视觉任务的视觉嵌入外,形成的双编码器模型还可以将文本嵌入编码到相同的潜在空间,从而实现新的跨模态对齐功能,如零样本图像分类和图像-文本检索。然而,由于缺少学习图像-文本融合表示的联合组件,这些模型不能直接适用于视觉-语言理解任务,如视觉问答(VQA)。(3)另一项研究探索了使用编码器-解码器模型进行生成式预训练,以学习通用的视觉和多模态表示。在预训练期间,模型从编码器一侧获取图像,并在解码器输出上应用语言建模损失(或PrefixLM)。对于下游任务,解码器的输出可以用作多模态理解任务的联合表示。虽然通过预训练的编码器-解码器模型获得了优异的视觉-语言结果,但它们不会生成与图像嵌入对齐的纯文本表示,因此对于跨模态对齐任务来说,可行性和效率较低。
  在这项工作中,我们统一了单编码器、双编码器和编码器-解码器范式,并训练了一个包含三种方法优点的图像-文本基础模型。我们提出了对比Captioner模型(CoCa),该模型采用经过对比损失和captioning损失训练的编码器-解码器架构。如图1所示,我们将Transformer解码器解耦为两部分,分别是单模态解码器和多模态解码器。我们省略了单模态解码器中的交叉注意力来编码纯文本表示,并用交叉注意力将图像编码器的输出和多模态解码器级联起来,以学习多模态图像-文本表示。我们在图像编码器和单模态文本解码器的输出之间应用对比损失,并在多模态解码器的输出处应用captioning损失。此外,通过将所有标签简单地视为文本,我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了训练。图像注释文本上的生成损失提供了类似于单编码器交叉熵损失的细粒度训练信号,有效地将上述三种预训练范式纳入到统一的方法中。
  图1:经过预训练的CoCa模型能够以零样本、冻结特征或端到端微调的方式应用于下游任务,包括视觉识别、视觉-语言对齐、图像描述和多模态理解。
  CoCa利用对比学习来学习全局表示,并为细粒度的区域级特征添加文本描述,从而有利于图1所示的三类任务。CoCa表明,单一的预训练模型可以在零样本和小样本迁移任务上优于许多专业模型。例如,CoCa在ImageNet上获得了86.3%的零样本图像分类精度,在MSCOCO和Flickr30k上获得了更好的零样本跨模态检索结果。通过冻结编码器,CoCa在ImageNet上的分类精度为90.6%,在Kinetics-400/600/700上的得分分别为88.0%/88.5%/81.1%,在Moments-in-Time上的得分为47.4%。经过微调后,CoCa在ImageNet上的分类精度进一步达到了91.0%,在VQA上的得分达到了82.3%,在NoCaps上的得分达到了120.6。
  模型方法
  图2:CoCa的架构和训练目标。
  表1:CoCa的变体。图像编码器和文本解码器都是Transformer。
  图3:用于视频识别的CoCa。
  实验结果
  图4:CoCa与其他图像-文本基础模型(不针对特定任务定制)和任务专用模型的比较。
  表2:使用冻结编码器或微调编码器进行图像分类和视频动作识别的结果。
  图5:模型大小对图像分类精度的影响。
  表3:在Flickr30K和MSCOCO数据集上的零样本图像-文本检索结果。
  表4:在ImageNet、ImageNet-A、ImageNet-R、ImageNet-V2、ImageNet Sketch和ObjectNet上的零样本图像分类结果。
  表5:在MSR-VTT测试集上的零样本视频-文本检索结果。
  表6:CoCa与其他视觉-语言预训练模型在多模态理解任务上的比较。
  表7:在MSCOCO和NoCaps数据集上的图像描述结果。
  图6:CoCa以NoCaps图像作为输入生成的文本标题示例。
  表8:CoCa的消融实验。默认设置用粗体显示。
  表9:视觉识别实验中使用的超参数。
  表10:多模态实验中使用的超参数。
  总结讨论
  在这项工作中,我们提出了图像-文本基础模型CoCa,将现有的视觉预训练范式和自然语言监督统一起来。CoCa在不同来源的图像-文本数据上进行了预训练,在编码器-解码器模型中有效地结合了对比损失和captioning损失。CoCa在广泛的视觉和视觉-语言问题上获得了一系列最先进的表现。我们的工作弥合了各种预训练方法之间的差距。我们希望CoCa能为图像-文本基础模型的研究提供新的方向。
  多模态人工智能
  欢迎关注"多模态人工智能 "公众号,一起进步^_^

赛力斯华为智选SF5技术带来创新目前新能源市场的竞争是十分激烈的,而在众多车企当中,赛力斯是独树一帜的存在,赛力斯选择了技术研发的道路,一切从零开始到掌握核心技术,背后是赛力斯对于整个行业发展的信心和企业经营的长领克02Hatchback新一批公售11月1日开启,限量1000台中国汽车市场经过20多年的高速发展,已成功跃升为全球最大的产销市场。在汽车产品方面,中国车企通过提升研发水平取长补短,奋起直追,不断缩小着与欧美日车企的差距。与此同时,中国的汽车运赛力斯华为智选SF5开启智能互联驾驶乐趣5G大数据物联网不得不说科技已经大幅改变了我们的生活,就连汽车也不再是一件生活中的独立用品,而是与人与家智慧互联的重要载体。以赛力斯华为智选SF5为例,其装配的HUAWEIHiCa国产车的配置天花板,这些配置让老司机都破防众所周知,年轻新生代已经逐渐成为当下的购车主力军,他们有着光鲜亮丽的外表,特立独行的气质,时刻走在潮流时尚前沿,会享受生活也不辜负生活。因此他们在选车上,不仅看重一辆车的外观设计,LED显示屏板块何故逆市上涨?原来和这起跨国案件有关文章来源自行家说Talk端午节后,A股三大指数集体下跌,而LED显示屏相关板块却逆市上涨。截至15日收盘,在LED显示板块个股中,涨幅最大的前3个股为艾比森报9。33元,涨13。7时隔7年,LED显示行业再现整合潮的背后关注LED显示圈动态的朋友不难发现,近来有关圈内企业间合作的报道越来越多地见诸于报端,让人不由得联想起2014年掀起的那场轰轰烈烈的并购大潮。那么,时隔7年发生的这两次合作大潮,背智慧医疗为何离不开LED显示屏?一段时间以来,国内公共医疗管理系统尚不完善的问题困扰着民生,特别是自去年年初以来发生的新冠疫情,将建立健全公共卫生保健体系推到了民生保障的最前线。为此,十四五规划明确提出,要以改善利亚德发布最新一期投资者调研报告海外业务呈现增量式恢复近日,全球视听科技领创者利亚德正式对外发布最新一期投资者调研报告,就目前广大投资者关心的问题进行逐一介绍和问答,引起了行业的广泛关注。海外业务方面,利亚德透露,目前公司的订单呈现增资讯丨LED显示屏交货周期延长MicroLED透明显示再突破文章来源自高工新型显示洲明科技交货周期因原材料供应问题有所拉长洲明科技近日在调研活动上透露,今年LED行业面临的最大挑战是供应链端的压力,原材料普遍上涨的同时,核心器件驱动IC供应透明显示谁为王四大技术之争渐有结果透明显示的魅力非常突出用的时候是显示屏,不用的时候是透明玻璃。这种特性使得透明显示在商业领域,尤其是零售场景颇有潜力甚至即便在居家彩电新兴科技性装修市场,透明显示也可能成为划时代的这家美国公司,给中国LED圈上了一课文章来源自投影时代2021年6月12日,艾比森胜诉Ultravision的新闻刷爆LED行业圈,伴随这场里程碑式的胜利,这家名为Ultravision的美国公司再次进入我们的视野。
智能汽车如何突破传统移动互联网的藩篱?目之所及,仍是牢笼。文东篱让天下没有难写的软件,让每个人都成为场景的导演。这是上汽零束SOA平台的愿景。而原蔚来汽车数字座舱和软件开发副总裁庄莉所加入的镁佳科技最重要的技术与产品是不再罗里罗气雷柏VT960屏显双模RGB游戏鼠标开箱前言每当雷柏推出新的鼠标均逃不过被许多网友罗里罗气地指点一番终于雷柏设计师发力推出了全新造型的无线旗舰VT960,新的造型是否能能够获得市场的认同还是一起开箱一看一。开箱及外观外包不抱怨第八天每日箴言愤怒是会传染的,即使遇上不顺心的事,也要保持微笑愤怒会传染?是吗?当然会的,这里的说的传染是你身边人的愤怒会影响到你你试想一下,你和别人吵架是不是互相传染,如果你不受他的传不抱怨第七天每日箴言不要抱怨世界怎么怎样,关键在于自己本身我总是过着一种苦行僧一般的生活,感觉这样严格要求自己,世间所有的问题都会离我而去,因为我已经这么自律,那所有的问题都应该是别人的,所以不抱怨第十二天每日箴言上天是公平的,每个看似强大的人,背后都经历了诸多磨难今天我不知道自己算不算抱怨了因为今天有人在聚餐的时候说出了我生病的事情这让我当时手足无措我一时间不知道应该怎么去回答这个如何设置让U盘只能拷进不能拷出?为了数据安全,我们经常需要将usb封了,或者网络限制了,不能发邮箱,不能微信,不能,搞得很神秘。呵呵,其实也就是老板的一句话而已。那么如何不花钱就设置好让U盘只能拷进不能拷出呢,请不抱怨从今天开始第一天每日箴言心想看到世界改变,就先改变自己路过心上的故事有一位国王开到某个偏远的乡间旅行,因为路面崎岖不平,还有很多碎石头,刺的国王的脚又痛又麻。到了王宫后,他下了一道命令,要将不抱怨第二天每日箴言你什么时候放下,什么时候就没有烦恼路过心上的故事有这样一个古寺,寺里的老方丈养了一只狗,取名叫放下于是每天早晚,老方丈都会拿着一只碗,喊放下!放下!叫这只狗吃饭。弟子很奇怪不抱怨第十三天每日箴言乐观者在每次危难中都看到机会,而悲观的人在每个机会中都看到了危难做一个乐观者很难吗?我觉得很难因为我是一个悲观主义者但是悲观和乐观不是先天的这些都是后天的经历和习惯造就的所不抱怨第三天每日箴言宽恕他人,才有治愈的可能今天我没有抄录书上的例句来描述因为我觉得仅仅这个箴言就能表达出很多事情你看这个箴言的理解宽恕他人,才有可能宽恕自己人为什么要和所谓的对手作对呢?这个不抱怨第十一天每日箴言想要从人生的枯井脱困的秘诀就是将泥沙抖落掉,然后站到上面去!你是什么是谁来决定的?朋友?同事?身边的人?都不对,你是什么,是由你来决定的以前你可能觉得是金子总会发光的意思只