专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

NeurIPS2022SlotCon以对象为中心的自监督表征

  Objectdiscovery旨在无监督地发现图像中的物体,而此前该领域中的工作长期局限于合成数据集。在发表于NeurIPS2022的工作SelfSupervisedVisualRepresentationLearningwithSemanticGrouping(SlotCon)中,我们试图传达这样的消息:在大规模真实世界图像数据上,无监督且可学习的objectdiscovery是可行的,并且可以与objectcentric自监督表征学习结合,互利彼此。
  Context:基于场景数据的自监督预训练
  左:objectcentric数据与scenecentric数据对比;右:建立在不同粒度feature上的对比学习范式。
  这篇工作主要面向的问题是基于场景数据的自监督视觉表征学习(预训练)。传统的视觉预训练框架往往局限于类似ImageNet的objectcentric数据集:每张图往往聚焦于一个醒目而单一的物体;而我们希望将这种范式推广到更为general的场景数据上(如COCO):每张图片上可能有多个物体,大小各异,且分布多样。这种推广的好处是显而易见的:对收集数据有更低的要求、预训练数据与下游(检测与分割)数据有更小的gap、单张图片包含的信息更为丰富。然而,直接将先前的图像级对比学习框架应用到场景数据上并不自然,因为现在代表一个图像的vector不再表示一个物体,而是一整个场景。
  在上图右侧我们对比了三种不同的对比学习范式:两个view间对比学习loss的一致性关系建立在图像级、像素级,还是对象级表征之间。图像级表征对于场景数据过于粗糙,而像素级表征又过于精细,这条线的工作往往还要加一个图像级的loss来补充highlevel的信息。最右这种对于每种物体语义单独表示,再在objectlevelrepresentation之间进行对比学习的范式较好地平衡了表征的粒度,也更适合场景数据。然而,这里引出了一个关键问题:如何无监督地找到这些物体(objectdiscovery)?
  ObjectDiscovery
  Objectnesspriors
  往期工作为了获取objectnessprior,往往采用一些handcraftedmethod,例如saliency,selectivesearch,传统分割方法,kmeansclustering等。然而这里有一个concern:手工设计的objectnessprior可能会限制所学representation的upperbound,那么我们是否可以让objectdiscovery这部分也endtoend地学习呢?
  Objectdiscovery其实也是个挺热门的领域(详细的review见paperrelatedwork),但是这方面的工作一直主要局限于合成数据集(如CLEVER),学习范式基本也是autoencoder重建。在真实场景数据work的工作往往基于视频,且依赖motion或depth作为condition。概括来讲,它们的philosophy都是基于bottomup的策略(texture,motion,depth,。。。)去获得objectness,对于合成数据怎么搞都行,但是真实场景中lowlevelcue的组合就太过复杂,难以从单张图像中compose出object。这里我们转而采用topdown的策略,从整个dataset中总结highlevel的共性:如上图右侧所示,我们学习一些含有语义的prototype(每个prototype绑定到不同语义),这样对于featuremap中的每个pixel,只需要assign它最近邻的prototype作为label,单张图中label相同的pixel即构成了一个object(严格意义上应当称为semanticobject)。
  OK,听上去好像不错,那么这些semanticprototype从哪来?我们采用的技巧可以简单概括为pixelleveldeepclustering。Deepclustering旨在于采用可学习的方式得到有意义的prototypes,其核心insight为:同一张图的不同增广版本应当有同样的prototypeassignment(pseudolabel),另外需要一些正则项来保证prototypes的多样性。这个套路应用到pixels上也同样有效,并且在unsupervisedsemanticsegmentation上也有成功的先例(PiCIE)。我们的方法可以理解为综上技巧的有机结合。
  方法概述
  SlotCon整体框架
  我们的框架完全随机初始化,在没有任何label的情况下,endtoend地同时学习解决objectdiscovery以及objectcentricrepresentationlearning两个task。技术上,最最简单的理解可以认为是pixellevelDINOobjectlevelMoCov3。对于objectdiscovery,我们在pixellevelassignmentmaps上将两个view中的overlap区域切出来并在空间上align好,对于每个位置相同的pixelpair,要求其对prototypes的assignment一致;对于representationlearning,我们在featuremap上将语意相同的pixels聚合到一起(称为slot,即objectlevelrepresentation),在不同view间的slots上进行contrastivelearning。两个objective相互促进,共同优化。
  实验
  对representationlearning的评估
  这里和其他做pretrain的工作类似,只取backbone然后在objectdetectioninstancesegmentationsemanticsegmentation任务上做transferlearning来做评估。
  COCOpretrain结果
  我们在场景数据pretrain的基准setting为COCOpretrain800epochs。在不采用multicrop这种trick以及不采用objectnessprior的情况下,我们的方法相对于先前工作在所有下游任务上都体现了显著的提升。
  COCOpretrain结果
  更进一步,我们把COCOunlabeled子集也加进来,构成COCO(大概两倍COCO大小),效果进一步显著提升。
  更为激动人心的是,COCO只有ImageNet1K的15大小,而我们却可以得到和ImageNet1K近似的表现,这说明我们的方法成功利用到了场景数据中蕴含的更为丰富的信息。
  ImageNet1Kpretrain结果
  我们也汇报了在经典的objectcentric数据集ImageNet1K上pretrain的结果。在不针对检测任务做特别设计(带FPNhead一起pretrain),以及不利用objectnessprior的情况下,我们的方法也有着不错的表现。
  对objectdiscovery的评估
  Unsupervisedsemanticsegmentation结果
  需要注意的是我们的框架focus在representationlearning,所以采用了很低的分辨率(7x7)。这里在unsupervisedsemanticsegmentation上的评测只是为了对网络的objectdiscovery能力有定性和定量的认识,而非在该task上提出一个新的SOTA。这里prototype和真实class的匹配采用了hungarianmatching。尽管boundary并不太好,这个质量对于pretraining来说已经完全够用了。
  prototype可视化
  我们进一步可视化了每个prototype的nearestneighbors,如上图,prototypes可以绑定到一系列不同的语义上,它们范围广泛,而且对物体大小或遮挡与否并不敏感。这个结果可以说非常有趣了。
  消融实验
  比较值得注意的消融实验有两个:一是要把prototype的数量设定在一个比较接近pretrain数据集真实语义数量的值(COCO设256);二是dataaugmentation中geometricaugmentation非常重要,如果一直采用两个identicalcrops,模型就学不到objectness,representation质量也会明显下降。更详细的ablationstudy请参见paper。
  其他discussions
  如何学到有意义的objects
  经验上我们总结了3个关键点:
  1。geometriccovariance和photometricinvariance:前者对应resize,flip等变换,后者对应colorjitter,gaussianblur等变换。
  2。避免坍缩:followdeepclustering中避免prototypes坍缩的技巧。
  3。把prototype数量设定在一个比较小,接近数据集真实semantic数量的数值(默认COCO采用256,ImageNet采用2048)。
  模型的bias
  作为一个learnable的方法,总是要有些bias的。我们发现模型对COCO中的头部类别:human相关概念有特别的偏好,会慷慨地分配很多prototype给与人相关的运动以及身体部位。我们分析是网络认为这样会更容易解决pretexttask。而对于更少出现的其他动物,分配一个prototype就好。如何更好的引入类别粒度的先验会是一个值得讨论的问题。
  模型学到的humanrelatedprototypes
  而在更为极端的pretrain数据,例如自动驾驶场景上,模型表现也有一定程度降低。在这种长尾且多样性较差的场景数据上如何进行更有效的pretrain也是值得进一步研究的问题。
  一些关于slots的数据
  我们也统计了一些关于slots的数据。在训练过程中,随着模型表征能力与objectdiscovery能力逐渐增强,每张图上的slot数量逐渐降低,最终收敛到与真实的平均单图物体数(7。3)接近的水平。至于每个prototype被激活的频率,则与真实类别分布类似(因为每个prototype绑定到一种语义)。
  总结
  我们的方法说明:自然场景的分解(scenedecomposition)可以和representation一起learnfromscratch;semanticgrouping的范式让大规模真实场景图像数据中的objectdiscovery成为可能;二者的结合促生了一种在场景数据上进行自监督预训练的有效方法。

文案有人用童年治愈一生,有人用一生治愈童年真的要放下了,更好的再未来,他只是一时兴起,而我却当真了。好像后来一直有一个人在你的心里却没有出现在你生活里。我总是假装什么都不在意,假装走得很着急,假装没回头看,思念却满溢。人与我们曾经爱过的人回忆起,以为是自己生命里的那个人,是如何让自己学会遗忘,强迫自己忘记在一起的美好?在此过程中你用什么来填补他留下的空白?分手后的你是不是还渴望想知道对方的一切。当你的生活以那个人为一个人可以自己过一辈子吗?一个人可以自己过一辈子吗理论上来说,一个人可以独自过一辈子。但要是从实际出发,这种情况相对会比较少,因为人类是社会性动物,我们需要与他人互动和交流来满足我们的心理和生理需求。人是社好心情入睡的条件,要么喜欢的人和你聊天,要么游戏最后一局赢了很多人说生活没那么简单可是生活本就是一餐一饭一生专心做好一件事守着亲人留下的宅院缝缝补补在四季风物的更替里缓缓前进的我们要做的或许只是感谢过去珍惜现在憧憬未来哭给自己听笑给别人看这A股物联价美!未来5年业绩增幅可超3000,物联网第一股?前言某专家认为,物联网领域正向低功耗和低成本的方向发展,多方面都存在广覆盖低功耗低成本等优势,随着5G的演进技术发展,也进一步满足宽带物联对多样化终端的要求,及智能制造连接应用。概珍稀!拍到了近日,湖北十八里长峡国家级自然保护区工作人员在整理红外相机时发现了中华鬃羚亚洲黑熊等一批珍稀野生动物。十八里长峡国家级自然保护区,地处大巴山东段北坡鄂渝交界处。总面积25604。9沈傲君拿200万向聂远求婚被拒,相亲嫁给外交官,如今幸福美满沈傲君和聂远已经恋爱10年,但聂远却迟迟不娶她回家。好多次,沈傲君都有意无意地提起,自己年龄大了,想要生个孩子。聂远却说,两人还年轻,以后结婚也不迟。沈傲君等不及了,她直接取出卡里海曙区甬恒阳光家园开展踏春庆三八活动来源宁波市残联基层动态为庆祝三八国际妇女节,关爱女性学员,促进学员的身心健康,营造家园团结协作的精神,伴随着温暖的春风,3月8日,海曙区甬恒阳光家园携手学员们开展了春之约,庆三八,率土之滨晋阵营喜迎新武将,贾充成奶爸发动机,宝物强化的神将一直以来,率土之滨都非常热衷于开发新武将。尤其是在晋阵营开启后,策划更是有意扩充晋阵营武将。毕竟如今晋阵营武将确实不多,相比其他阵营更是捉襟见肘。也正因为如此,所以此次官方直接上线千寒易除,一湿难去,身体有湿气之后,会有哪些表现呢大家都知道,千寒易除,一湿难去。那湿气作为我们人身体里面的有害垃圾,其实是百病之源。今天给大家总结一下,身体有了湿气之后会有哪些表现?大家可以对号儿入座看看自己有没有中招。第一种就糖葫芦吃多了有哪些坏处?冰糖葫芦又叫糖葫芦,在东北地区被叫作糖梨膏,在天津被叫作糖墩儿,在安徽凤阳被叫作糖球。冰糖葫芦是中国汉族传统小吃,它是将野果用竹签串成串后蘸上麦芽糖稀,糖稀遇风迅速变硬。北方冬天常
你的想象中,新疆是什么模样?一段旅程,一种人生。在你的想象中,新疆是什么模样?满街都是像迪丽热巴那样的美女?大开大合的西域美景?亦或是骑马放羊弯弓射箭的连片蒙古包?其实,都是,也都不是。很难把新疆变成一种贴合图话丨太原新十条发布后的首个周末,重回城市烟火气汾河岸边,感受城市的美好钟楼街上,三五好友相约山西日报新媒体记者卫波报道12月9日,太原发布优化疫情防控新十条。12月10日,疫情防控政策调整后的首个周末,一组图带你感受太原的烟火免单,你来不?本月13岁以内少年儿童可畅游秦岭野生动物园2022年接近尾声,带孩子去一次动物园的小目标有没有实现呢?12月,秦岭野生动物园启动的儿童畅游动物园免单活动帮你完成这个出行小目标。即日起至2022年12月31日,游客通过游陕西山水LIVE桂海晴岚音乐派对山水与摇滚的激情碰撞以宽阔平坦的绿茵为席,以水墨勾勒的山峦为幕,将表演的舞台嵌入山水12月10日和11日,2022桂林艺术节活动之一的山水LIVE桂海晴岚音乐派对在桂林市桂海晴岚景区激情开唱。12月1七公塔川婺源邂逅秋色杭州捕光捉影摄影群,在11月14日,组织部分群员,赴安徽黟县和江西婺源又一次组织五天的秋摄采风活动,大大的活跃了群里的气氛,组织的摄影路线主要是安徽的塔川江西的婺源。这次的拍摄运气世界上被冲上海滩的巨型海怪,神秘未知的巨型海底怪物,恐怖未知你在海滩上见过被冲上海岸的海洋生物吗?你都见过哪些海洋生物因搁浅而死亡的呢?海滩是游客们最喜欢光顾的地方,游客在游玩时经常会发现一些被冲上海岸的海洋生物,其中大部分都是人们闻所未闻这是我国最大的私人住宅,比故宫还厉害,整整耗时三百年才建成三百多年来,王府以其独特而高贵的气质,向世人展示着它的独特之处。晋中,虽是古代建筑林立之地,却也无法遮掩其光辉。没有了历史,没有了建筑,没有了它的独特和宏伟。走在院子里,就像是在一世界上最高的树在哪里?美国115米高的活树将禁止参观美国有线电视新闻网(CNN)报导,高达115。92米被吉尼斯世界纪录认证全世界最高的活树的海岸红杉海柏利昂(Hyperion)将禁止游客接近,违者将重罚5,000美元及最高六个月有空气优良率100!在这里,遇见中国仙本那来源于央视财经202212122356发表于北京12月12日,由中央广播电视总台财经节目中心主办的大型融媒体活动寻百强看中国走进湖北省鹤峰县。湖北省鹤峰县位于鄂西南边陲,林木绿化率适合老两口车内吃住的小房车!电足冷暖都不怕!海南东北随便玩冬季来临,很多退休老人和旅行爱好者都开启了南北冷暖式旅行!有的人选择去海南取暖,品尝热带水果,坐看潮起潮落有的人喜欢去东北欣赏冰雪世界,目睹北极光的神奇。开着房车出游,总能引来一大没想到吧?除了武当山,十堰还可以这么牛!上一期我们介绍了古城荆州。本期我们聊一聊卡车之都十堰。十堰十堰,古称郧阳,别名车城卡车之都,位于湖北省西北部,北系秦岭脉,南接神农架,中怀武当山,可谓是苍山似海莽莽起伏,吞入云霄气
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网