范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

SwinTransformer为主干,清华等提MoBY自监督学习方法代码已开源

  作者:Zhenda Xie等
  机器之心编译
  机器之心编辑部
  来自清华大学、西安交大、微软亚研的研究者提出了一种称为 MoBY 的自监督学习方法,其中以 Vision Transformer 作为其主干架构,将 MoCo v2 和 BYOL 结合,并在 ImageNet-1K 线性评估中获得相当高的准确率,性能优于 MoCo v3、DINO 等网络。
  近两年来,计算机视觉领域经历了两次重大转变,第一次是由 MoCo(Momentum Contrast)开创的自监督视觉表征学习,其预训练模型经过微调可以迁移到不同的任务上;第二次是基于 Transformer 的主干架构,近年来在自然语言处理中取得巨大成功的 Transformer 又在计算机视觉领域得到了探索,进而产生了从 CNN 到 Transformer 的建模转变。
  不久前,微软亚研的研究者提出了一种通过移动窗口(shifted windows)计算的分层视觉 Swin Transformer,它可以用作计算机视觉的通用主干网络。在各类回归任务、图像分类、目标检测、语义分割等方面具有极强性能。
  而在近日,来自清华大学、西安交通大学以及微软亚洲研究院的研究者也在计算机视觉领域发力,提出了名为 MoBY 自监督学习方法,以 Vision Transformers 作为其主干架构,将 MoCo v2 和 BYOL 结合在一起,在 ImageNet-1K 线性评估中获得相当高的准确率:通过 300-epoch 训练,分别在 DeiT-S 和 Swin-T 获得 72.8% 和 75.0% 的 top-1 准确率。与使用 DeiT 作为主干的 MoCo v3 和 DINO 相比,性能略好,但trick要轻得多。
  更重要的是,使用 Swin Transformer 作为主干架构,还能够评估下游任务中(目标检测和语义分割等)的学习表征,其与最近的 ViT/DeiT 方法相比,由于 ViT / DeiT 不适合这些密集的预测任务,因此仅在 ImageNet-1K 上报告线性评估结果。研究者希望该结果可以促进对 Transformer 架构设计的自监督学习方法进行更全面的评估。
  论文地址:https://arxiv.org/pdf/2105.04553.pdfGitHub 地址:https://github.com/SwinTransformer/Transformer-SSL
  方法介绍
  自监督学习方法 MoBY 由 MoCo v2 和 BYOL 这两个比较流行的自监督学习方法组成,MoBY 名字的由来是各取了 MoCo v2 和 BYOL 前两个字母。MoBY 继承了 MoCo v2 中的动量设计、键队列、对比损失,此外 MoBY 还继承了 BYOL 中非对称编码器、非对称数据扩充、动量调度(momentum scheduler)。MoBY 架构图如下图 1 所示:
  MoBY 包含两个编码器:在线编码器和目标编码器。这两个编码器都包含一个主干和 projector head(2 层 MLP),在线编码器引入了额外的预测头(2 层 MLP),使得这两个编码器具有非对称性。在线编码器采用梯度更新,目标编码器则是在线编码器在每次训练迭代中通过动量更新得到的移动平均值。对目标编码器采用逐渐增加动量更新策略:训练过程中,动量项值默认起始值为 0.99,并逐渐增加到 1。
  学习表征采用对比损失,具体而言,对于一个在线视图(online view)q,其对比损失计算公式如下所示:
  式中,κ_+ 为同一幅图像的另一个视图(view)的目标特征;κ_i 是键队列( key queue )中的目标特性;τ是 temperature 项;Κ是键队列的大小(默认为 4096)。
  在训练中,与大多数基于 Transformer 的方法一样,研究者还采用了 AdamW 优化器。
  MoBY 伪代码如下所示:
  实验
  在 ImageNet-1K 上的线性评估
  在 ImageNet-1K 数据集上进行线性评估是一种常用的评估学得的表征质量的方式。在该方式中,线性分类器被用于主干,主干权重被冻结,仅训练线性分类器。训练完线性分类器之后,使用中心裁剪(center crop)在验证集上取得了 top-1 准确率。
  表 1 给出了使用各种自监督学习方法和主干网络架构的预训练模型的主要性能结果。
  1.与使用 Transformer 架构的其他 SSL 方法进行比较
  MoCo v3、DINO 等方法采用 ViT/DeiT 作为主干网络架构,该研究首先给出了使用 DeiT-S 的 MoBY 的性能结果,以便与该研究的方法进行合理比较。经过了 300 个 epoch 的训练,MoBY 达到了 72.8% top-1 的准确率,这比 MoCo v3 和 DINO(不含多次裁剪(multi-crop))略胜一筹,结果如表 1 所示。
  2.Swin-T VS DeiT-S
  研究者还比较了在自监督学习中各种 Transformer 架构的使用情况。如表 1 所示,Swin-T 达到了 75.0% top-1 的准确率,比 DeiT-S 高出 2.2%。值得一提的是,这一性能差距比使用监督学习还大(+1.5%)。
  该研究进行的初步探索表明,固定 patch 嵌入对 MoBY 没有用,并且在 MLP 块之前用批归一化代替层归一化层可以让 top-1 准确率提升 1.1%(训练 epoch 为 100),如表 2 所示。
  在下游任务上的迁移性能
  研究者评估了学得的表征在 COCO 目标检测 / 实例分割和 ADE20K 语义分割的下游任务上的迁移性能。
  1.COCO 目标检测和实例分割
  评估中采用了两个检测器:Mask R-CNN 和 Cascade Mask R-CNN。表 3 给出了在 1x 和 3x 设置下由 MoBY 学得的表征和预训练监督方法的比较结果。
  2.ADE20K 语义分割
  研究者采用 UPerNet 方法和 ADE20K 数据集进行评估。表 4 给出了监督和自监督预训练模型的比较结果。这表明 MoBY 的性能比监督方法稍差一点,这意味着使用 Transformer 架构进行自监督学习具有改进空间。
  消融实验
  研究者又进一步使用 ImageNet-1K 线性评估进行了消融实验,其中 Swin-T 为主干网络架构。
  1.不对称的 drop path rate 是有益的
  对于使用图像分类任务和 Transformer 架构的监督表征学习来说,drop path 是一种有效的正则化方法。研究者通过消融实验探究了该正则化方法的影响,实验结果如下表 5 所示。
  2.其他超参数
  第一组消融实验探究了键队列大小 K 从 1024 到 16384 的影响,实验结果如表 6(a) 所示。该方法在不同 K(从 1024 到 16384)下都能够稳定执行,其中采用 4096 作为默认值。
  第二组消融实验探究了温度(temperature)τ的影响,实验结果如表 6(b) 所示。其中τ为 0.2 时性能最佳,0.2 也是默认值。
  第三组消融实验探究了目标编码器的初始动量值的影响,实验结果如表 6(c) 所示。其中值为 0.99 时性能最佳,并被设为默认值。

砥砺奋进开新局开拓创新谋实绩知行合一,全力服务新发展格局本报讯(记者赵修彬)黑龙江信保始终秉承履职政策性职能,服务高水平开放的发展理念,聚焦产品创新与服务支持,推出多项增值服务创新建立信用经理制度,开展信用经理培训,有效弥补黑龙江地区企内蒙古银保监局出台推进银行业保险业清廉金融文化建设指导意见为贯彻落实中国银保监会党委和驻会纪检监察组关于深入推进全面从严治党和党风廉政建设部署要求,一体推进构建不敢腐不能腐不想腐体制机制,加强清廉金融文化建设,提高行业廉洁风险防控水平,提齐齐哈尔市分行明理增信铸根基崇德力行开新局党史学习教育开展以来,齐齐哈尔市分行认真贯彻落实党中央部署和上级行党委安排部署,坚定信仰铸牢忠诚汲取力量,把党史学习教育成效转化为许党报国履职支农的强大动力,以实际行动践行五个坚持苏荷春晓董事长姜玉忠荣膺中国紫檀文化研究会副会长近日,中国紫檀文化研究会在京成立,紫翔龙苏荷春晓董事长姜玉忠获评中国紫檀文化研究贡献人物,并被聘为中国紫檀文化研究会副会长!此次活动标志着中华文化促进会木作文化工作委员会领导的中国安北网成立十二周年纪念大会暨志愿服务文化宣讲活动成功举办2019年6月15日下午,安北网成立十二周年纪念大会暨志愿服务文化宣讲在龙脉温泉成功举办。来自安北网的乡友代表及京徽志愿服务总队志愿者代表共计近五百人参加了本次活动。北京市志愿服务中国太保寿险鸡西中支开展ampampquot慰问光荣在党50年老党员ampampquot党建活动为庆祝建党百年,进一步加强公司党内关怀帮扶工作,中国太保寿险鸡西中支党支部于6月30日组织开展走访慰问老党员活动。关爱老党员从健康开始,慰问同志为老党员送去豆油果蔬盐太保专属N95中国太保寿险黑龙江分公司举办庆祝建党100周年主题党日活动近日,中国太保寿险黑龙江分公司党委隆重举办庆祝中国共产党成立100周年主题党日活动,分公司全体党员现场参会,中心支公司全体党员视频参会,热烈庆祝中国共产党百年华诞!会议由分公司党委中国太保寿险牡丹江中支开展ampampquot保险五进入团险进企业ampampquot7。8主题活动中国太保寿险牡丹江中支以7。8全国保险公众宣传日为契机,于2021年7月2日集中开展保险五进入团险进企业主题活动。公司走进企业中燃城市燃气发展有限公司进行保险宣传,向该公司员工普及中国太保寿险齐齐哈尔中支开展7。8主题活动为深入开展7。8保险公众宣传日分公司创新活动,中国太保寿险齐齐哈尔中支于6月25至27日开展了不忘初心,守护美好,向守护者致敬的主题活动。齐齐哈尔中支组织爱心小分队,在齐齐哈尔市北中国太保寿险鸡西中支开展ampampquot慰问光荣在党50年老党员ampampquot主题党建活动为庆祝建党百年,进一步加强公司党内关怀帮扶工作,中国太保寿险鸡西中支党支部于6月30日组织开展走访慰问老党员活动。关爱老党员从健康开始,慰问同志为老党员送去豆油果蔬盐太保专属N95中国太保寿险鸡西中支开展阳光送暖,情满校园7。8主题活动在7。8全国保险公众日来临之际,6月18日,中国太保寿险鸡西中支周顺鑫总马力经理李秋林主任来到平岗学校,为同学们捐赠图书儿童心理沙盘和沙具。一本书,传递一份爱一份爱,成就一个梦想一
学党史丨中央电视台正式开播百年瞬间1958年5月1日,中央电视台前身北京电视台第一天节目试验播出。1958年9月2日,中央电视台的前身北京电视台正式开播,标志着中国电视事业开始起步。您现在听到的是新中国第一区镇人大代表换届选举选民名单已陆续张榜公布,请及时查看核实人大换届选举知多D区镇人大代表换届选举选民名单将于8月18日和19日陆续张榜公布,各选区的选民应该去哪里查看核实?本期人大换届选举知多D栏目,记者带大家一起了解。Q区镇人大代表换届选举选民名单在哪里注意!区镇两级人大代表选举日调整为2021年9月23日人大换届选举知多D8月23日,禅城区四届人大常委会召开四十八次会议,会议审议通过了佛山市禅城区第四届人民代表大会常务委员会关于调整区镇人民代表大会换届选举时间的决定。根据佛山市人大常委会有关精神,会区镇人大代表选举需遵循哪些原则人大换届选举知多D选举是我国人民代表大会制度的基础,也是人民群众行使国家权力的一个主要体现。我国选举制度有哪些基本原则需要遵循?本期人大换届选举知多D栏目,记者带大家一起了解。Q区镇人大代表选举需遵霸王龙在恐龙时期真无敌了?在这辆活坦克面前,它还不敢造次人类通过考古发现了一个截然不同的史前世界,那个世界里海洋陆地和天空都存在着各种各样的庞然大物,根据古生物学家的推测,现如今一只蜻蜓在上亿年前相当于一架航天模型。而在大约2。5亿年前营造和谐劳动关系,用心维护工人权益总有那么一群人忧民所忧,急民所急,认认真真贯彻上级保障农民工工资支付相关指示精神,全力维护农民工合法权益,不辞辛劳连续加班到凌晨进行劳资调解,那就是可敬的南庄劳动保障监察中队工作人家校冲突原因辨析这次两会,教育无疑成了讨论的热点,前段时间,天津市咸水沽某中学的肖老师和扶风县某小学的赵老师都因与学生或家长发生冲突引起全国热议,老师成了全民鞭挞的对象,教育这一行业也迅速成为民众给残奥会英雄们最好的礼物竟然是9月5日,第16届夏季残疾人奥林匹克运动会闭幕式在日本东京举行。闭幕式上的焰火表演来源新华社在这届残奥会上中国队以96金60银51铜的成绩收官雄踞金牌榜和奖牌榜榜首中国连续5届残奥宇宙扩张到达一定的程度时,会停止扩张或者收缩向内收缩吗?宇宙是一个无法想像的空间,它可以是无穷大的。在宇宙里,我们默认的一些常识不一定适用。本质上,最大容积的概念是不存在的。因为宇宙并不是靠占领新的空间来扩张范围,而是一直在同一个地方原印刚称印度不可能与华全面冲突!新消息T90就距中印边境40公里随着中印关系愈加紧张,不少印媒也开始时不时渲染和鼓噪中印之间的对立情绪,使得印度国内不少民众对中国有反感情绪。这不,印度空军参谋长巴达乌里亚表示,印度不可能与中国之间发生全面的冲突中国登顶!美首次被挤出顶级科学论文垄断地位,不小心助攻?目前中美博弈已经涉及各个领域,尤其是科学领域,这是一块绝对不能丢的阵地,中国正迅速在尖端科学领域攻城略地。据日本朝日新闻援引日本文部科学省日本科学技术指标2021报告显示,中国将美