范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

NeurIPS2022SlotCon以对象为中心的自监督表征学习

  Object discovery旨在无监督地发现图像中的物体,而此前该领域中的工作长期局限于合成数据集。在发表于NeurIPS 2022的工作Self-Supervised Visual Representation Learning with Semantic Grouping (SlotCon)中,我们试图传达这样的消息:在大规模真实世界图像数据上,无监督且可学习的object discovery是可行的,并且可以与object-centric自监督表征学习结合,互利彼此。
  Context:基于场景数据的自监督预训练
  左:object-centric数据与scene-centric数据对比;右:建立在不同粒度feature上的对比学习范式。
  这篇工作主要面向的问题是基于场景数据的自监督视觉表征学习(预训练)。传统的视觉预训练框架往往局限于类似ImageNet的object-centric数据集:每张图往往聚焦于一个醒目而单一的物体;而我们希望将这种范式推广到更为general的场景数据上(如COCO):每张图片上可能有多个物体,大小各异,且分布多样。这种推广的好处是显而易见的:对收集数据有更低的要求、预训练数据与下游(检测与分割)数据有更小的gap、单张图片包含的信息更为丰富。然而,直接将先前的图像级对比学习框架应用到场景数据上并不自然,因为现在代表一个图像的vector不再表示一个物体,而是一整个场景。
  在上图右侧我们对比了三种不同的对比学习范式:两个view间对比学习loss的一致性关系建立在图像级、像素级,还是对象级表征之间。图像级表征对于场景数据过于粗糙,而像素级表征又过于精细,这条线的工作往往还要加一个图像级的loss来补充high-level的信息。最右这种对于每种物体/语义单独表示,再在object-level representation之间进行对比学习的范式较好地平衡了表征的粒度,也更适合场景数据。然而,这里引出了一个关键问题:如何无监督地找到这些物体(object discovery)?
  Object Discovery
  Objectness priors
  往期工作为了获取objectness prior,往往采用一些hand-crafted method,例如saliency, selective-search, 传统分割方法, k-means clustering等。然而这里有一个concern:手工设计的objectness prior可能会限制所学representation的upperbound,那么我们是否可以让object discovery这部分也end-to-end地学习呢?
  Object discovery其实也是个挺热门的领域(详细的review见paper related work),但是这方面的工作一直主要局限于合成数据集(如CLEVER),学习范式基本也是autoencoder+重建。在真实场景数据work的工作往往基于视频,且依赖motion或depth作为condition。概括来讲,它们的philosophy都是基于bottom-up的策略(texture, motion, depth, ...)去获得objectness,对于合成数据怎么搞都行,但是真实场景中low-level cue的组合就太过复杂,难以从单张图像中compose出object。这里我们转而采用top-down的策略,从整个dataset中总结high-level的共性:如上图右侧所示,我们学习一些含有语义的prototype(每个prototype绑定到不同语义),这样对于feature map中的每个pixel,只需要assign它最近邻的prototype作为label,单张图中label相同的pixel即构成了一个object(严格意义上应当称为semantic object)。
  OK,听上去好像不错,那么这些semantic prototype从哪来?我们采用的技巧可以简单概括为pixel-level deep clustering。Deep clustering旨在于采用可学习的方式得到有意义的prototypes,其核心insight为:同一张图的不同增广版本应当有同样的prototype assignment(pseudo label),另外需要一些正则项来保证prototypes的多样性。这个套路应用到pixels上也同样有效,并且在unsupervised semantic segmentation上也有成功的先例(PiCIE) 。我们的方法可以理解为综上技巧的有机结合。
  方法概述
  SlotCon整体框架
  我们的框架完全随机初始化,在没有任何label的情况下,end-to-end地同时学习解决object discovery以及object-centric representation learning两个task。技术上,最最简单的理解可以认为是pixel-level DINO+object level MoCo v3。对于object discovery,我们在pixel-level assignment maps上将两个view中的overlap区域切出来并在空间上align好,对于每个位置相同的pixel-pair,要求其对prototypes的assignment一致;对于representation learning,我们在feature map上将语意相同的pixels聚合到一起(称为slot, 即object-level representation),在不同view间的slots上进行contrastive learning。两个objective相互促进,共同优化。
  实验
  对representation learning的评估
  这里和其他做pretrain的工作类似,只取backbone然后在object detection/instance segmentation/semantic segmentation任务上做transfer learning来做评估。
  COCO pretrain结果
  我们在场景数据pretrain的基准setting为COCO pretrain 800 epochs。在不采用multi crop这种trick以及不采用objectness prior的情况下,我们的方法相对于先前工作在所有下游任务上都体现了显著的提升。
  COCO+ pretrain结果
  更进一步,我们把COCO unlabeled子集也加进来,构成COCO+(大概两倍COCO大小),效果进一步显著提升。
  更为激动人心的是,COCO+只有ImageNet-1K的1/5大小,而我们却可以得到和ImageNet-1K近似的表现,这说明我们的方法成功利用到了场景数据中蕴含的更为丰富的信息。
  ImageNet-1K pretrain结果
  我们也汇报了在经典的object-centric数据集ImageNet-1K上pretrain的结果。在不针对检测任务做特别设计(带FPN head一起pretrain),以及不利用objectness prior的情况下,我们的方法也有着不错的表现。
  对object discovery的评估
  Unsupervised semantic segmentation结果
  需要注意的是我们的框架focus在representation learning,所以采用了很低的分辨率(7x7)。这里在unsupervised semantic segmentation上的评测只是为了对网络的object discovery能力有定性和定量的认识,而非在该task上提出一个新的SOTA。这里prototype和真实class的匹配采用了hungarian matching。尽管boundary并不太好,这个质量对于pretraining来说已经完全够用了。
  prototype可视化
  我们进一步可视化了每个prototype的nearest neighbors,如上图,prototypes可以绑定到一系列不同的语义上,它们范围广泛,而且对物体大小或遮挡与否并不敏感。这个结果可以说非常有趣了。
  消融实验
  比较值得注意的消融实验有两个:一是要把prototype的数量设定在一个比较接近pretrain数据集真实语义数量的值(COCO设256);二是data augmentation中geometric augmentation非常重要,如果一直采用两个identical crops,模型就学不到objectness,representation质量也会明显下降。更详细的ablation study请参见paper。
  其他discussions
  如何学到有意义的objects
  经验上我们总结了3个关键点:
  1. geometric covariance和photometric invariance:前者对应resize, flip等变换,后者对应color jitter, gaussian blur等变换。
  2. 避免坍缩:follow deep clustering中避免prototypes坍缩的技巧。
  3. 把prototype数量设定在一个比较小,接近数据集真实semantic数量的数值(默认COCO采用256,ImageNet采用2048)。
  模型的bias
  作为一个learnable的方法,总是要有些bias的。我们发现模型对COCO中的头部类别:human相关概念有特别的偏好,会慷慨地分配很多prototype给与人相关的运动以及身体部位。我们分析是网络认为这样会更容易解决pretext task。而对于更少出现的其他动物,分配一个prototype就好。如何更好的引入类别粒度的先验会是一个值得讨论的问题。
  模型学到的human-related prototypes
  而在更为极端的pretrain数据,例如自动驾驶场景上,模型表现也有一定程度降低。在这种长尾且多样性较差的场景数据上如何进行更有效的pretrain也是值得进一步研究的问题。
  一些关于slots的数据
  我们也统计了一些关于slots的数据。在训练过程中,随着模型表征能力与object discovery能力逐渐增强,每张图上的slot数量逐渐降低,最终收敛到与真实的平均单图物体数(7.3)接近的水平。至于每个prototype被激活的频率,则与真实类别分布类似(因为每个prototype绑定到一种语义)。
  总结
  我们的方法说明:自然场景的分解(scene decomposition)可以和representation一起learn from scratch;semantic grouping的范式让大规模真实场景图像数据中的object discovery成为可能;二者的结合促生了一种在场景数据上进行自监督预训练的有效方法。

电子行业深度报告量价齐升趋势确定,国内汽车电子企业迎来发展(报告出品方作者国泰君安证券,王聪刘堃文紫妍)1。汽车电动化智能化发展加速,单车电子部件量价齐升随着电动汽车从MEV到BEV的不断发展,以及智能化的持续渗透,电动汽车内的单车电子成金融企业是如何支持基建行业发展呢?微众银行怎样做好领头羊?首先,金融企业是指执行业务需要取得金融监管部门授予的金融业务许可证的企业,包括执业需取得银行业务许可证的邮政储蓄银行国有商业银行股份制商业银行信托投资公司金融资产管理公司金融租赁公科技助力解决急难愁盼强化小微权力云监督扫码进入平台小程序后,输入身份证号码,就能查到享受的补贴情况了。近日,浙江省仙居县福应街道县前社区居民朱辉扫了扫村务公开栏的监督一点通码,进入智慧监督查询平台后,很快查到了享受的惠中国电信发布四项科技创新成果12月29日,2022天翼数字科技生态大会在云端开幕。会上,中国电信总经理邵广禄发布天翼云白皮书天翼云紫金DPU星河AI平台以及产数领域8大行业数字平台等四项科技创新成果,充分展现对话时尚买手深耕行业,与中国设计共生长时尚买手是时尚行业的关键人物,他们有着敏锐的时尚眼光和嗅觉,对商品和市场反应具有高敏感度,时刻把握潮流方向,在设计师与市场之间架起沟通的桥梁。本季中国国际时装周与众多买手深度合作,潜江公交浩口充电站正式营运潜江新闻网讯(记者曹以成通讯员胡绪生)12月27日,市公交集团选址于原浩口交通分局驻地的浩口充电站项目正式对外投入运营,此举弥补了潜江境内318国道旁无大型充电设施的空白。为满足新windows1121H222H2开机跳过联网释放系统最新教程现在win11分为win1121h2和win1122h22个版本号,跳过方法不一样如何知道自己电脑的系统是21H2还是22H2呢,很简单,看开机时的动画效果箭头所指的这个转圈的标是慢性支气管炎患者需要养成健康的生活方式慢性支气管炎俗称老慢支,是气管支气管黏膜及其周围组织的慢性炎症。该病会影响患者的生活质量和劳动能力,严重者会发展为慢阻肺,进而可能因呼吸衰竭肺心病而死亡。为了减轻发病时的不适及延缓淘宝账号被授权登录关于手机被入侵之淘宝,之前的文章有详细描述过。我的淘宝app在双十一当天卸载后就没有再使用过,但淘宝账号是没有注销的。我的支付宝绑定了淘宝账号,在12月12日当天我又在应用商店下载娜涟探究彩妆新方式,开启底妆护肤新纪元纵观如今的消费市场,没有永恒不变的黄金法则,坚持品牌力与产品力才是品牌长期主义的必胜之道。国内知名的功效性彩妆品牌娜涟在过去的表现可谓亮眼,不仅倚靠大单品策略成功出圈,更是有着持续数字经济引领时代发展,重构生产生活新方式随着互联网大数据云计算人工智能区块链等技术加速创新,数字经济逐步融入经济社会发展各领域全过程,已然成为社会经济高质量发展的新引擎。12月27日,天眼查发布的2022中国数字经济主题
人死后为何停尸三天?原来并不只是迷信,作用太大了,佩服古人!我国自古以来,都特别的看重一个人的身后事,千百年的发展,也衍生出了许多的风俗习惯。人死后为何要停尸三天?这个看似迷信的做法其实有着深刻的历史和文化背景,其作用也非常重要,令人佩服古突发!云南一国企纪委书记退休7年后被查,涉嫌严重违纪违法反腐倡廉乃立身之本,私心贪欲乃祸害之源。随着两会的结束,反腐力度并没有减弱,纪委的同志依旧在夜以继日的辛勤工作,只要发现有问题的官员,无论国家公职人员,还是国企,一查到底。对于普通等等党又赢了!电池原材料价格暴跌,谁来掀下一波电车降价潮关注新能源汽车的朋友,还记得去年的那一波算锂狠吗?2022年新能源汽车销量快速增长,市场上对动力电池需求量大幅增加。可在口罩以及上游矿山资源被少数贸易商垄断等影响下,市场出现供需失断供副作用出现!任正非公布重要数据,外媒美制裁了什么?多年来,老美通过技术先发优势在全球数字化浪潮中赚得盆满钵满,就以高通为例,依托于2G3G4G时代的大量技术专利,外加上高通在5G基带芯片市场的影响力,高通几乎什么都不用做,许多终端集体狂飙!27款进口游戏获批,新一轮大爆发来了?图源卡乐图片宁颖摄距离上一次2022年进口游戏版号发布不到四个月,2023年的进口游戏版号来了。3月20日,游戏传媒股逆势上涨,个股光线传媒富春股份涨超15,神州泰岳涨超11。体现民航运输市场持续恢复今年2月完成旅客运输量4320万人次视频加载中民航局发布的最新数据显示,今年2月份,民航运输市场持续恢复,全行业完成运输总周转量79。3亿吨公里,同比增长28。6,较1月提高12。7个百分点。2月份,民航客运市场月度2022年营收38。85亿,业绩增速放缓金山办公GPT4技术会颠覆协同办公软件市场每经记者可杨每经编辑董兴生3月21日晚间,金山办公(SH688111,股价325。92元,市值1503。35亿元)正式公布了2022年年报数据营业收入38。85亿元,同比增长18。第二代骁龙7芯片来袭,中端手机市场再次洗牌,2K档用户有福了不知道你们发现没,现在大部分人都喜欢买旗舰机,造成这样的原因有很多,一方面是预算充足可以随便选择,一方面是考虑到旗舰机的芯片性能更强,能一下用个三五年,也算是变相省钱。但事实上,现这两位拿到版号的高水平二游,能在国内市场掀起风云吗?昨天新放的一批版号各位应该也看到了。大家比较在意的应该也和我们一样,是这两位。啊对,就是赛马娘和BA。两个游戏和衍生动画我们都聊过,编辑部内更是训练员(赛马娘游戏中玩家的身份)和S宁夏市场监管厅公布2023年度双随机一公开抽查工作计划本网讯根据国务院宁夏双随机一公开监管工作有关规定,近日,宁夏市场监管厅制定了2023年度市场监管部门随机抽查工作计划,共39个类别80个抽查事项。除重点领域外,全面推行双随机一公开入股泰禾集团?万科回应历时两年半先决条件仍未达成日前,有投资者在深交所互动平台向万科提问2020年7月公司签署了关于受让泰禾集团19。9股权的框架协议,至今已两年半有余。请问,1。随着时间推移和市场情况发生变化,万科对泰禾基本面