范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

DETR在目标检测一样能打!DINO让目标检测拥抱Transformer

  作者丨李峰@知乎(已授权)
  来源丨https://zhuanlan.zhihu.com/p/540786844
  编辑丨极市平台
  最近刷榜COCO的目标检测模型, DINO ( D ETR with I mproved de N oising anch O r boxes),从三月初霸榜至今(7月),该模型第一次让DETR ( DE tection  TR ansformer)类型的检测器取得了目标检测的SOTA性能,在COCO上取得了 63.3  AP的性能,相比之前的SOTA检测器将模型参数和训练数据减少了十倍以上!
  论文:https://arxiv.org/abs/2203.03605
  代码:https://github.com/IDEACVR/DINO ,现已开源! 主要特性:SOTA性能 :在大模型上以相对较小的数据和模型(  1/10相比之前SwinV2 )取得了最好的检测结果。在ResNet-50的标准setting下取得了 51.3  AP。 End2end(端到端可学习)  :DINO属于DETR类型的检测器,是端到端可学习的,避免了传统检测器许多需要手工设计的模块(如NMS)。 Fast converging(收敛快)  : 在标准的ResNet-50 setting下,使用 5 个尺度特征(5-scale)的 DINO 在 12 个 epoch 中达到  49.4  AP,在 24 个 epoch 中达到  51.3  AP。使用4个尺度特征(4-scale)的DINO达到了了类似的性能并可以以  23  FPS 运行。
  效果展示
  La La Land, trained on COCOLa La Land, trained on COCO
  007, trained on COCO Motivation 出发点
  Transformer如今被广泛应用于自然语言处理和计算机视觉,并在很多主流的任务上都取得了最好的性能。然而,在目标检测领域,DETR这种基于Transformer的检测器虽然作为一种很有新意的检测器,但却没有作为一种主流的检测器得到广泛运用。例如,几乎所有的模型在PaperWithCode(https://paperswithcode.com/sota/object-detection-on-coco)的榜单上都是使用传统的CNN检测头 (如HTC[1])。
  因此,我们很感兴趣的事就是,DETR这种简洁、端到端可学习的目标检测器,同时还有更强的模型Transformer的加持, 能否无法取得更好的表现 ?
  答案是肯定的。 Background 背景简介
  在做DINO之前,我们实验室的几个同学完成了DAB-DETR[2] 和DN-DETR[3] ,DINO也是我们几个同学一起接着这两篇工作的一个延续,沿用了这些设计。
  DAB-DETR是在思考DETR query理解的问题。它直接把DETR的positional query显示地建模为四维的框 ,同时每一层decoder中都会去预测相对偏移量 并去更新检测框,得到一个更加精确的检测框预测 ,动态更新这个检测框并用它来帮助decoder cross-attention来抽取feature。
  DN-DETR是在思考DETR中的二分图匹配问题,或者说标签分配问题。我们发现DETR中的二分匹配在早期十分不稳定,这会导致优化目标不一致引起收敛缓慢的问题。因此,我们使用一个denoising task直接把带有噪声的真实框输入到decoder中,作为一个shortcut来学习相对偏移,它跳过了匹配过程直接进行学习 (详细理解在我之前的文章:https://www.zhihu.com/question/517340666/answer/2381304399)。
  这两篇文章让我们对DETR的理解加深了很多,同时也把DETR类型模型的效果做到了和传统CNN模型在收敛速度和结果上comparable。如何进一步提高检测器性能和收敛速度?我们可以沿着DAB和DN去进一步思考: DAB让我们意识到query的重要性,那么如何学到更好的或者初始化更好的query? DN引入了去噪训练来稳定标签分配,如何进一步优化标签分配? Method 方法简介
  Framework
  为了解决上面提到的问题,DINO进一步提出了3个改进来进行优化,模型架构如上图所示。 1.Contrastive denoising(DN)
  DN的去噪训练里面引入的噪声样本都是正样本来进行学习,然而模型不仅需要学习到如何回归出正样本,还需要意识到 如何区分负样本 。例如,DINO的decoder中用了900个query,而一张图中一般只会有几个物体,因此绝大部分都负样本。
  因此,我们设计了训练模型识别负样本的方法,如上图所示,我们对DN进行了改进,不仅要回归真实框,还需要辨别负样本。对于DN的输入当对真实框加入了较大噪声时,我们就认为其为负样本,在去噪训练中会被监督不预测物体。同时,这些负样本恰好是在真实框附近的,因此是相对很难区分难的负样本,让模型得以学习的正负样本的区分问题。 2. Mix query selection
  在大部分detr模型中,query是从数据集中学习出来的,并不和输入图片相关。为了更好得初始化decoder query,deformable detr[4]提出用encoder的dense feature中预测出类别和框,并从这些密集预测中选出一些有意义的来初始化decoder feature。
  然而,这种方式并没有在后来的工作中得到广泛运用,我们对这种方式进行了一些改进并重新强调其重要性。在query中,我们实际更关心position query,也就是框。同时,从encoder feature中选取的feature作为content query对于检测来说并不是最好的,因为这些feature都是很粗糙的没有经过优化,可能有歧义性。例如对"人"这个类别,选出的feature可能只包含人的一部分或者人周围的物体,并不准确,因为它是grid feature。
  因此,我们对此进行了改进,让query selection只选择position query,而利用可学习的content query。 3. Look forward twice
  这个方法对decoder的梯度传播进行了一些优化,这里就不展开讲了,可以到我们的paper进一步阅读。 总结
  我们希望DINO能给大家带来一些启示,它具有SOTA的性能,端到端优化的简洁,以及快速收敛、训练和 inference快等多个优点。
  同时也希望DETR类型的检测器得到更多人的运用,让大家意识到DETR类型的检测器不仅是一种novel的方法,同时也具拥有强健的性能。
  参考 ^HTC https://arxiv.org/abs/1901.07518 ^DAB-DETR https://arxiv.org/abs/2201.12329 ^DN-DETR https://arxiv.org/pdf/2203.01305.pdf ^https://arxiv.org/abs/2010.0415

欧盟将统一使用TypeC接口!苹果Lightning接口为何被时代抛弃?2024年起欧盟将统一使用TypeC充电接口。苹果引以为傲的Lightning接口为何被吐槽龟速?此次改变将会为国产化替代提供哪些机会?撰文记者赵天宇编辑刘昭采访专家王燕(清华大学顶不住了?国产芯粒技术实现5nm突破,收到美芯大厂5年长期合同国际大环境正在发生逆转,一场芯片战正在打响,这场没有硝烟的战争却不输于任何一场热战,赢家将取得未来包括AI人工智能无人驾驶万物互联元宇宙等产业的领先优势。中国目前在战斗中处于劣势,接口之争落下帷幕,苹果妥协了苹果向欧盟让步了。10月26日,苹果全球营销副总裁GregJoswiak表示,为了遵守欧盟新规,苹果将不得不在iPhone等采用Lightning接口的设备上转向USBC。Ligh广东男篮输球夜,胡明轩4罚不中羞辱杜锋,国家队后卫成最大笑话目前20222023赛季CBA常规赛第一阶段的9轮比赛全部战罢,浙江稠州金租成为全联盟唯一一支9战全胜的队伍,独占鳌头暂列积分榜首。而就在10月30日晚间,常规赛第九轮的一场焦点战班凯罗不确定何时正式为意大利队效力已经等不及要去意大利了直播吧10月31日讯今年的状元秀班凯罗近日做客队友RJ汉普顿的播客节目,谈到了为意大利男篮效力的相关话题。我16岁的时候,意大利篮协联系了我的父亲,询问我有没有意大利血统,能不能取客场三连败,库里放下豪言!格林科尔公开指责,勇士创下尴尬纪录114128,勇士客场败给了活塞,面对此前遭遇了五连败,并且排名东部垫底的活塞,作为卫冕冠军,勇士没有打出他们应有的实力。本场比赛虽然是背靠背的第二战,不过除了克莱汤普森之外,勇士习惯养成习惯养成养成好习惯戒除坏习惯为什么沾染不良习惯那么容易,培养好习惯却如此之难?我觉得可以从以下几点做出行动改变习惯的最有效的方法不是关注你想要达到的目标,而是你想要成为谁你的身份来小个子,穿九分裤还是拖地裤更显高?素人街拍告诉你答案我们都知道小个子穿起衣服来,要比很多高个子都有难度,因为小个子不仅要考虑身高的不足,还要结合自身体型的各方面特点,才能找到最适合自己的服装,尤其是下半身的延长感,一定要谨慎选择才能罗森在上海开了一家无人便利店,消费者能习惯拿了就走吗?记者佘晓晨编辑沉寂几年之后,无人便利店依然获得了巨头的关注。10月,上海罗森便利店在晶耀前滩落地了首家无感支付智能门店,让消费者可以拿了就走。这家便利店引入的是上海云拿科技的AI无李父回应李宇春病情春春没有那么严重,已经正常参加演出李宇春患上强直性脊柱炎,病情加重,只能坐轮椅出行的新闻,刷屏各大网络平台。同时网上还传出一段疑似李宇春住院后的感慨世界上最贵的车就停在我的车库了,但是我现在必须坐在轮椅上。我的房子王思聪被封号,秦奋动态不更新,那些神隐的富二代们为何都退场了国内的富二代正在离场张康阳被全球追债,京城四少狼狈淡圈引言。富二代不少人都在说现在的内娱正在走下坡路,这倒也不是空穴来风,如今的内娱远没有当年的繁华盛景,不说疫情下的影视寒冬,让很
人间锦鲤杨超越,从女工逆袭成爱豆,唱跳双废却被老板力捧文娱趣追星记编辑娱趣追星记干啥啥不行,会哭第一名的杨超越,为何会在创造101里高调成团?2018年,鹅厂播出了一档选秀节目创造101,来自世界各地的101位女孩,努力的想要争夺那1逆水寒锦鲤第二次喜提全款房,结果被大量网友围攻请你务必折现不得不说现在提升关注最好的办法就是送福利,可你见过送钱送礼物的,见没见过送房子的?最近网易逆水寒在4周年之际就准备了一套祖国湿都鹤岗不低于89平的全款房,在短短数日内就吸引了几十万不丹7月1日全面开放这5处一生必须去的雪域胜景您到过几个?来源世界风情画(IDfinkeeper)作者妤妤姐进入6月下旬,气温渐升,公共卫生事件逐步成为过去,不丹旅游又迎来了新的旺季。更可喜的是,不丹最近宣布,从今年7月起,全面放开该国入国内航线燃油费5连涨!7月5日起,航空燃油费再次上涨,800公里以上将收200元6月30日,红星新闻记者从同程旅行平台获悉,同程旅行接到多家航司通知,自2022年7月5日起,燃油附加费收取标准上调。国内航线燃油收取标准为800公里(含)以下航段,每位旅客收取人行程卡摘星黎明的开始!但还需警惕还需注意想浪?为什么,行程卡摘星后,想浪?还需警惕还需注意。我们看到6月29日,工信部宣布,即日起取消通信行程卡星号标记。这一消息一出瞬间刷屏!在暑期迎来时,恰好这一消息震撼袭来,使得出行旅游需行程卡都摘星了,何时能摘口罩?自由行?我迷茫了已经很久没出去旅游了,朋友圈的游客照日期都是几年前了。最近想出去玩,找到以前带团的导游,想找她咨询一下有没有好的团推荐,她跟我说,公司已经倒闭很久了,为了养家糊口,她早已转行送外卖红色背篓致富路两日游喜迎党的生日走进房山看新貌庆祝中国共产党百年华诞,回顾党的光辉历程,讴歌党的光辉业绩,发扬党的光荣传统北京市房山区文化和旅游局特推出以,喜迎党的生日,走进房山看新貌为主题的红色旅游北京一处工业旅游示范点,首家葡萄酒博物馆,门票30值得一游提到中国白酒文化,很多人会想到纯粮酒。毕竟中国很多名酒都是纯粮酒。在一些古装剧和影视作品中,生产的酒基本都是纯粮酒。白酒在中国已经有很长一段时间了,很多老年人都喜欢它。说到节日,他除了露营,户外电源还有很多宝藏用法,你知道几个?很多人觉得户外电源只是露营专供,其实,它是个不折不扣的斜杠青年。来看看它的这些隐藏身份露营焦虑抚平师这是最多人熟知的它。电量不足,一直是户外露营的焦虑来源。这也导致很久以来,只能吃伊利与葡萄牙国家足球队达成合作6月29日,伊利集团与葡萄牙国家足球队合作发布会在北京举行。伊利宣布与葡萄牙国家足球队达成合作。这是继成功牵手阿根廷国家足球队后,伊利再次签约国际足坛代表力量。伊利在重大体育事业方葡萄酒如何分类,都有什么特点?迅速学起来很多人以为红酒就是葡萄酒其实红酒只是葡萄酒中的一种除此之外还有白葡萄酒和桃红葡萄酒葡萄酒种类多样复杂这些葡萄酒是怎么分类的呢?01按酒的颜色分类1白葡萄白葡萄酒顾名思义通常由白葡萄