范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

达摩院首次将PureTransformer引入目标重识别,论文入选ICCV2021

  机器之心专栏
  作者:罗浩
  阿里达摩院的研究团队首次成功将pure transformer架构应用于目标重识别(ReID)任务,提出了TransReID框架,在6个数据集上都取得了超过SOTA CNN方法的性能。
  Transformer是一种自注意力模型架构,2017年之后在NLP领域取得了很大的成功。2020年,谷歌提出pure transformer结构ViT,在ImageNet分类任务上取得了和CNN可比的性能。之后大量ViT衍生的Pure Transformer架构(下文中简称为Transformer架构/模型)在ImageNet上都取得了成功。此外,在检测、跟踪、分割等下游视觉任务上,pure transformer的架构也不断取得和CNN可比的性能,但是在更加细粒度的图像检索任务上目前还没有将成功的工作。
  TransReID论文地址:https://arxiv.org/pdf/2102.04378 TransReID代码:https://github.com/heshuting555/TransReID
  在这篇论文中,阿里达摩院的研究团队首次成功将pure transformer架构应用于目标重识别(ReID)任务,提出了TransReID框架,在6个数据集上都取得了超过SOTA CNN方法的性能。
  研究背景
  纵观整个CNN-based ReID方法的发展,我们发现很多工作都关注两个重要的点:
  1)挖掘图片中的全局性信息。CNN网络由于卷积核堆叠的原因,所以感受野存在一个高斯核的衰减。例如图1所示,标准CNN的模型通常会关注于图片中某一两个比较有判别性的局部区域,而会忽视一些全局信息。为了解决这个问题,大量方法通过引入注意力机制来扩大模型的有效感受野,从而得到更好的全局性。但是注意力机制仅仅只是缓解了CNN的这个问题,并不能彻底解决有效感受野高斯衰减的问题。但是Transformer中的自注意力模块会使得每一个patch都和图片中的patch都计算一个attention score,所以相比CNN模型在挖掘全局信息上有天然的优势,并且multi-head也可以挖掘多个判别性区域。可以看到,图1中Transformer-based的方法能够挖掘多个具有判别性的局部区域。
  2) 学习细节信息丰富的细粒度特征。CNN网络里面存在下采样操作来获得平移不变性和扩大感受野,但是同时也降低特征图的分辨率,这会丢失图像的一些细节信息。如图2中的这对负样本对(CNN识别错误,Transformer识别正确),两张图片的外观特征是非常相似的,但是从书包的细节可以看出,左边书包侧面有一个杯子,而右边书包侧面则没有杯子,因此可以判断是两个ID。但是因此CNN的下采样操作,在网络最后输出的特征图上已经看不清杯子这个细节了。但是Transformer没有下采样操作,因此特征图能够比较好地保留细节信息,从而识别目标。
  综上所述,Transformer结构是非常适合ReID任务的,但是仅仅用Transformer替换掉CNN backbone并没有充分利用Transformer的特性。本文提出了首个pure transformer的ReID框架TransReID,包含JPM和SIE两个新的模块。之前的ReID工作显示将图片进行切块得到若干个part,然后对每个part提取local特征能够提升性能。我们借鉴了这个设计,将Transformer中的patch embedding分成若干个group,但是这个操作没有充分利用Transformer的全局依赖性。因此我们设计了Jigsaw Patch Module (JPM),将patch embedding随机打乱之后再切分group。Transformer非常擅长encode不同模态的信息,而之前的ReID工作显示相机和姿态信息是有利于ID的识别的,因此我们设计了Side Information Module (SIE) 来利用这些有益的信息。
  TransReID
  1、Transformer-based strong baseline
  我们首先参考CNN的baseline BoT 设计Transformer-based strong baseline。如图图3所示,我们参考ViT将图片分成N个patch,并引入一个额外的cls token共N+1个embedding。经过Transformer layers之后,我们将cls token作为图像的全局特征,之后经过一个BNNeck结构计算triplet loss和分类ID loss。
  由于ImageNet预训练的ViT是使用224*224的图像分辨率,而ReID通常使用的分辨率不会是224*224,这造成了position embedding的维度不一样。因此,我们将position embedding按照空间位置进行插值来加载预训练的position embedding参数。
  此外,还有一个涨点的tricks是对图像进行patch分块的时候可以让相邻的patch之间有一定的overlap。当然这个操作会使得patch数目增加从而使得模型训练的资源消耗增加,但是性能也会有比较稳定提升。
  2、Jigsaw Patch Module
  ReID任务经常会遇到遮挡、不对齐这些问题,一般我们会采用细粒度的局部特征来处理这些问题,水平切块就是非常常用的一种局部特征方法。JPM模块借鉴水平切块思想,将最后一层的patch embedding分成k个group (k=4),然后对于每个group进行transformer encode得到N个cls token,每个cls token就相当于PCB中的striped feature,计算一个loss。但是这么做有一个缺点:每个group只包含了图片中一个局部区域的信息,而transformer的特性是能够挖掘全局关联性。为了扩大每个group的「视野」,我们将所有的patch embedding按照一定规则进行打乱,然后再进行分组。这样每个group就可能包含来自图片不同区域的patch,近似等效于每个group都有比较全局的「视野」。此外,打乱操作也可以看做是给网络增加了一些扰动,使得网络能够学习到更加鲁棒的特征。
  具体打乱操作分为两步:(1)将最后一层输出的patch embedding去除0号位置的cls token可以得到N个patch embedding,之后将它们进行循环平移m步;(2)第二步参照shuffle的group shuffle操作将N个patch的顺序打乱得到新顺序的N各patch embedding,之后将它们按照新顺序分为k个group,每个group都学习一个cls token,最终concat所有cls token作为最终的feature。
  2、Side Information Embeddings
  ReID任务中相机、视角的差异会给图像带来一些外观上的差异,所以不少工作关注怎么抑制这些bias。对于CNN框架,通常需要专门设计结构来处理这个问题,例如设计loss、对数据进行先验处理、改变模型结构等等。这些设计通常比较定制化且比较复杂,推广性并不强。而transformer则比较擅长融合不同模态的信息,因此我们提出了SIE模块来利用相机ID、视角等辅助信息。
  与可学习的position embedding类似,我们使用了可学习的embedding来编码相机ID和方向ID这些Side information,这个模块成为Side Information Embedding (SIE)。假设总共有Nc个相机ID和Nv个方向ID,某张图片的相机ID和方向ID分别是r和q,则他们最终的SIE编码为:
  最终,backbone的输入为patch embeding、position embedding和SIE mathcal{S}_{(C,V)}的加权之和。图4展示了TransReID的完整框架,在ViT的基础上增加了JPM和SIE模块。
  实验结果
  1、不同Backbone的对比
  Table 2给出了不同Backbone的准确度和推理时间的对比,我们将ResNet50作为baseline,同时我们给出了ViT和DeiT的结果。可以看到,DeiT-S/16在速度上与ResNet50是接近的,在准确度上同样也有可比的性能。当我们使用更深的DeiT-B/16和DeiT-V/16时,同样和ResNest50取得了相似的速度和准确度。当我们在pre-patch环节缩小conv的stride时,patch的数目增加,速度下降,但是准确度也会收获稳定的提升。
  2、Ablation Study
  详细的消融实验可以看论文,这里只给出大模块的消融实验,我们以ViT-B/16作为baseline。从Table 5中的结果可以看出,JPM模块和SIE模块都是能稳定带来提升的,TransReID将这两个模块一起用还能进一步提升结果。
  3、和SOTA对比
  Table 6给出了和SOTA方法对比的结果。可以看到,和CNN的方法相比,TransReID在六个ReID数据集上取得了更好的准确度,这显示了pure transformer架构在图像检索任务上同样适用。
  一个有意思的地方是,在ImageNet上取得更好分数的DeiT在下游的ReID任务上并没有超过ViT。这是因为ViT使用了更大的ImageNet22K做预训练,更大的预训练数据使得ViT有更好的迁移性。
  4、一些可视化
  下图给出了CNN和TransReID的注意力可视化结果,可以看出TransReID可以比CNN挖掘到更多判别性区域,同时有更好的全局性特征。
  本文的论文作者包括两位:
  1.何淑婷,浙江大学博士生,阿里巴巴达摩院研究实习生,研究方向为目标重识别,多目标跟踪等。曾在国内外十几项竞赛中取得前三的名次,其中包括六项冠军。
  2.罗浩,2020年博士毕业于浙江大学,毕业后加入阿里巴巴达摩院,从事ReID方向的研究与技术落地工作。累计发表论文20余篇,Google scholar引用累计1000+次,代表作BagTricks Baseline开源代码Star超过1.6K。曾经获得CVPR2021 AICITY Challenge、ECCV2020 VisDA Challenge, IJCAI2020 iQIYI iCartoonFace Challenge等国际比赛冠军。博士期间创立浙大AI学生协会、在B站等平台免费开放《深度学习和目标重识别》课程。

1。2075亿元!石涛山麓听泉图领衔荣宝春拍2021年6月19日,北京荣宝2021春拍在业界藏家的翘首期盼中举槌。作为北京荣宝的品牌专场,本季中国书画荣名为宝专场表现不俗,总成交5。781亿元,成交率达到84。21,石涛山水大道不凿关于朱屺瞻艺术成就的再思考2021年6月5日下午,赤心惟存纪念朱屺瞻诞辰130周年艺术展的第一场对谈活动在朱屺瞻艺术馆举办。首次对谈活动由朱屺瞻艺术馆和宝甄艺术联合推出,以跟着时代变全球化艺术语境中朱屺瞻艺周杰伦首次策展,KAWS包装画250万元拍出6月18日,波场TRON创始人孙宇晨以250万元的价格,在周杰伦与苏富比合作的首届CONTEMPORARYCURATEDASIA艺术策展上,拍得KAWS在2001年创作的包装画系列一汽红旗生而向美旗韵不凡艺术巡礼活动落幕5月7日,一汽红旗联合图虫巨量引擎携手各大美术馆共同打造的生而向美旗韵不凡艺术巡礼活动在红砖美术馆启航,于6月13日在宝龙美术馆完美落幕,为巡礼活动画上圆满的句号,向热爱传统美的大阿迪达斯与UCCALab联合发起重塑蔚蓝展览2021年6月15日,阿迪达斯携手UCCA集团旗下UCCALab,联袂打造的重塑蔚蓝展正式开幕。这是阿迪达斯跑出蔚蓝(RUNFORTHEOCEANS)活动首次联动艺术界青年力量发挥五色端午!图戴五色缕是端午节习俗之一。资料图片还是孩子时,我对端午节并没有太多的印象,只是记得端午前母亲会买一扎新鲜艾叶挂在门上,直挂到一个月后完全变乾才取下,每次出门或回家时总能闻到淡淡的ChooNoble彩铅共享艺术体验店亮相国贸2021年6月18日,世界首创的来自瑞士的ChooNoble彩铅共享艺术体验店在北京国贸商城中区三层正式亮相。咖啡是一种生活,是一种说不出的艺术。你和咖啡有个约定吗?一些触动心弦的朱德群抽象画是有形的诗歌1956年,巴黎市立美术馆为一位名为尼古拉德斯塔埃尔(NicolasdeStael)的抽象艺术家举办了回顾展。这位扛起新巴黎画派大旗的天才艺术家,用有力堆砌的色块向当时过度重视装饰北京华辰2021春拍预展重磅拍品抢先看北京华辰2021春季拍卖会预展现场2021年6月17日,北京华辰2021年春季拍卖会预展在北京亚洲大酒店三层(工体北路新中西街8号)启幕,本季北京华辰2021春拍共呈现中国传统艺术生无界首届当代艺术展亮相晋中瑞艺术馆开幕式现场2021年6月10日下午,生无界首届当代艺术展在山西晋中东瑞创意街的瑞艺术馆拉开帷幕。本次展览由东瑞集团和诺德联行联合主办,崔付利李培培担任策展人,展出了陈金庆丁武高峡胡没有屋顶的诗歌大课堂蒋一谈的诗歌盒子在奥森开启诗人蒋一谈与孩子们谈诗6月26日,盛夏时节,北京奥森公园绿树茵茵,给孩子,给世界蒋一谈的诗歌盒子阅读体验活动在此开启,为孩子们举办了一堂没有屋顶的诗歌大课堂,童话诗人蒋一谈在现场与
分析澳洲古老石盐,发现可能还活着的8。3亿年前微生物在寻找地球上古老微生物时,一般不会想到石盐这些天然矿物质,因为盐不是岩石,不能以同样方式保存有机物质。但随着科学家分析一块澳洲古老石盐样本,发现被困在石盐中的8。3亿年前微生物可能欧洲航天局发布的令人叹为观止的图像中的太阳刺猬科学家们正在调查一种在太阳表面看到的神秘太阳刺猬(solarhedgehog)。欧洲航天局(ESA)公布了其太阳轨道飞行器拍摄的大量图像。NASA和英国航天局也为该项目做出了贡献。银河系上千亿颗恒星中的怪家伙们恒星是宇宙中最主要的成员,仅在我们银河系中就有上千亿颗恒星。当然,它们中多数是泯然大众,或多或少遵循着既定的生命轨迹演化,天文学家也基本掌握它们的演化规律。但我们也会不时遇见一些奇NASA波音星际飞船明早发射执行第二次无人飞行测试财联社5月19日讯(编辑夏军雄)当地时间周三(5月18日),美国国家航空航天局(NASA)表示,波音的星际飞船(Starliner)已准备就绪,将于本周执行第二次对接国际空间站的测不同矿化度盐水在砂岩界面润湿行为研究获进展来源科学网将二氧化碳注入深部咸水层油气藏煤层等地质体进行长期安全存储和隔离,是近期和中期最有希望的减少CO2排放到大气中的解决方案之一,但目前缺乏地层水矿化度对岩石润湿性的影响研究简单聊一聊康普顿效应康普顿效应或者康普顿散射有力的证明了光的粒子性,今天我们就来简单看一看历史上的康普顿效应。康普顿在研究X射线被较轻物质(石墨石蜡等)散射后光的成分时,发现散射谱线中除了有波长与入射石墨烯基面上的各向异性蚀刻效应我们华林科纳研究了一种干法各向异性刻蚀石墨和石墨烯的方法,能够通过调整蚀刻参数,如等离子体强度温度和持续时间,从边缘控制蚀刻,蚀刻过程归因于碳原子的氢化和挥发,蚀刻动力学与甲烷形成为了让外星人了解地球信息,他们拼命想出了这些乱码近日,美国国会就不明飞行物(UFO)现象举行了公开听证会,这是53年来首次。美国国防部称这类现象是不明空中现象(UAP),消息发公布,网友难免将其与外星人联系起来。事实上,大多数现价值191亿元的气体嫦娥五号从太空带回了191亿元的空间材料。这种物质可供全人类使用1年之久氦3。I。氦气的价值3人类已经尽力去探索月球。也有许多关于月亮的传说。起初,工业改革的技术并不发达,人类对月哈勃太空望远镜捕捉到新照片,显示了惊人的星暴效应标志性的哈勃太空望远镜捕捉到了位于人马座的密集恒星区域的闪亮新照片。哈勃太空望远镜拍摄了位于人马座的名为NGC6558的球状星团,它距离地球23,000光年。这群恒星是一个名为NG火星工作一年,祝融号进入冬季休眠模式今日,中国探火工程官方微博向网友发来汇报祝融号已进入冬季休眠模式。全文如下大家好!今天520一早要告诉大家祝融号进入冬季休眠模式啦!天问一号任务团队通过环绕器获取的中分辨率图像,发