范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

目标检测干货多级特征重复使用大幅度提升检测精度(文末附论文下载)

  计算机视觉研究院专栏
  作者:Edison_G
  近年来,在利用深度卷积网络检测目标方面取得了显著进展。然而,很少有目标检测器实现高精度和低计算成本。
  公众号ID|ComputerVisionGzq
  一、简要
  近年来,在利用深度卷积网络检测目标方面取得了显著进展。然而,很少有目标检测器实现高精度和低计算成本。今天分享的干货,就有研究者提出了一种新的轻量级框架,即多级特性重用检测器(MFRDet),它可以比两阶段的方法达到更好的精度。它还可以保持单阶段方法的高效率,而且不使用非常深的卷积神经网络。该框架适用于深度和浅层特征图中包含的信息的重复利用,具有较高的检测精度。
  二、背景
  (a)仅使用单尺度特征进行预测,(b)整合来自高级和低级特征图的信息,(c)从不同尺度的特征图生成预测,(d)就是今天分享的多层特征重用模块可以获得不同尺度的特征图。
  Shot learning
  在深度学习领域,特别是目标检测领域,数据集的建设是至关重要的。进行了许多优秀和有价值的研究,改进了多元数据集的理论和实践。有研究者创建了一种有效的从Web学习方法来解决问题的数据集偏差,没有手动注释。这可能提供了一种帮助zero-shot学习的方法。zero-shot学习研究的主要问题是目标分类问题和目标检测问题。目前,在zero-shot学习中仍存在一些需要解决的问题,如domain shift problem, hubness problem和semantic gap问题。zero-shot学习通常将视觉特征嵌入其他模态空间,或将多个模型空间映射到一个共同的潜在空间,使用最近邻思想对看不见目标进行分类,这对目标检测器有很高的需求。
  One-shot学习的目的是从一个或只有少数的训练图像中学习有关目标类别的信息。与zero-shot学习不同,One-shot学习依赖于先验知识,比如物体识别,它需要对形状和外观的先验知识。
  三、新框架
  SSD分析
  SSD和Yolo一样都是采用一个CNN网络来进行检测,但是却采用了多尺度的特征图,其基本架构如下图所示。下面将SSD核心设计理念总结为以下三点:
  (1)采用多尺度特征图用于检测
  所谓多尺度采用大小不同的特征图,CNN网络一般前面的特征图比较大,后面会逐渐采用stride=2的卷积或者pool来降低特征图大小,这正如上图所示,一个比较大的特征图和一个比较小的特征图,它们都用来做检测。这样做的好处是比较大的特征图来用来检测相对较小的目标,而小的特征图负责检测大目标,如下图所示,8x8的特征图可以划分更多的单元,但是其每个单元的先验框尺度比较小。
  (2)采用卷积进行检测
  与Yolo最后采用全连接层不同,SSD直接采用卷积对不同的特征图来进行提取检测结果。对于形状为 的特征图,只需要采用 这样比较小的卷积核得到检测值。
  (3)设置先验框
  在Yolo中,每个单元预测多个边界框,但是其都是相对这个单元本身(正方块),但是真实目标的形状是多变的,Yolo需要在训练过程中自适应目标的形状。而SSD借鉴了Faster R-CNN中anchor的理念,每个单元设置尺度或者长宽比不同的先验框,预测的边界框(bounding boxes)是以这些先验框为基准的,在一定程度上减少训练难度。一般情况下,每个单元会设置多个先验框,其尺度和长宽比存在差异,如图5所示,可以看到每个单元使用了4个不同的先验框,图片中猫和狗分别采用最适合它们形状的先验框来进行训练,后面会详细讲解训练过程中的先验框匹配原则。
  SSD的检测值也与Yolo不太一样。对于每个单元的每个先验框,其都输出一套独立的检测值,对应一个边界框,主要分为两个部分。第一部分是各个类别的置信度或者评分,值得注意的是SSD将背景也当做了一个特殊的类别,如果检测目标共有 个类别,SSD其实需要预测 个置信度值,其中第一个置信度指的是不含目标或者属于背景的评分。后面当我们说 个类别置信度时,请记住里面包含背景那个特殊的类别,即真实的检测类别只有 个。在预测过程中,置信度最高的那个类别就是边界框所属的类别,特别地,当第一个置信度值最高时,表示边界框中并不包含目标。第二部分就是边界框的location,包含4个值 ,分别表示边界框的中心坐标以及宽高。但是真实预测值其实只是边界框相对于先验框的转换值(paper里面说是offset,但是觉得transformation更合适,参见R-CNN)。先验框位置用 表示,其对应边界框用 $表示,那么边界框的预测值 其实是 相对于 的转换值:
  习惯上,我们称上面这个过程为边界框的编码(encode),预测时,你需要反向这个过程,即进行解码(decode),从预测值 中得到边界框的真实位置 :
  然而,在SSD的Caffe源码实现中还有trick,那就是设置variance超参数来调整检测值,通过bool参数variance_encoded_in_target来控制两种模式,当其为True时,表示variance被包含在预测值中,就是上面那种情况。但是如果是False(大部分采用这种方式,训练更容易?),就需要手动设置超参数variance,用来对 的4个值进行放缩,此时边界框需要这样解码:
  综上所述,对于一个大小 的特征图,共有 个单元,每个单元设置的先验框数目记为 ,那么每个单元共需要 个预测值,所有的单元共需要 个预测值,由于SSD采用卷积做检测,所以就需要 个卷积核完成这个特征图的检测过程。
  新框架(MFRDet)
  如上面所述,有许多利用尝试观察和充分利用金字塔特征。图(b)显示了最常见的模式之一。这种类型经过了历史验证,大大提高了传统检测器的性能。但是这种设计需要多个特征合并过程,从而导致大量额外的计算。
  今天分享的框架提出了一种轻量级、高效的多级特征重用(MFR)模块(如图(d)所示)。该模块能够充分利用不同尺度的特征图,集成了深、浅层的特征,提高了检测性能。特征重用模块可简要说明如下:
  S的选择:
  在初步设计它们时,需要考虑以下几个关键因素。首先,应该选择要重用的图层。在传统的SSD中,作者部署了conv4_3、fc7和另外四个SSD层进行预测。6个选定的特征地图的比例表包括38×38、19×19、10×10、5×5和1×1。在不同的SSD中,这些层是独立的,今天这个研究者不同意。研究者相信,小尺度特征图中存在的语义信息在尺度变换后的检测中仍然有效。选择了六个预测层和conv5_3层作为框架要重用的源层。从下表中,可以得出一个明确的结论,即重用conv3_3将降低检测精度。高分辨率特征图没有足够的高级语义信息,因此放弃了对其信息的重用。
  Ti的转换策略:
  在传统的SSD中,规模为38×38、语义信息很少的浅层conv4_3负责小目标识别。conv4_3层被设置为需要包含更深层语义信息的基本层。策略因特征图的标准而不同。首先,对每个源层应用Conv1×1来减小特征尺寸。然后,在Conv1×1层后,通过双线性插值,将尺度小于38×38的层(四个SSD_layers和fc7层)放入相同大小的38×38中。这样,所有的源特性都会转换为相同的大小。
  Ψt的选择:
  在转换策略Ti的过程完成后,创建了新的变换特征图。它们是conv4_3、conv5_3、fc7、conv8_2、conv9_2、conv10_2和conv11_2。有两种方法可以将新转换的特征映射合并在一起。通过实验验证,这两种方法都能得到良好的结果。从上表中,可以了解到连接似乎更适合我们的模型。
  四、实验
  在coco数据集上的检测可视化结果
  © THE END
  转载请联系本公众号获得授权
  计算机视觉研究院学习群等你加入!
  计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重"研究"。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
  计算机视觉研究院
  公众号ID|ComputerVisionGzq
  论文下载| 回复"MFR"获取论文下载

一起来捉妖游戏里有哪些内测玩家才知道的实用冷知识?欢迎诸位小伙伴们来到本期游戏君开讲的一起来捉妖捉妖那些年本期呢,游戏君将与诸位小伙伴们聊聊5个高手进阶的冷知识,不仅有捉妖的次数档次,而且呢还有无视规则的神奇道具等多个游戏发现哦得当年我们玩过的FC游戏中,有哪些比较经典的双人合作游戏?当年我们玩到的FC游戏中有不少都是可以双人玩的,不过不知道大家有没有这种感觉,双人玩的难度明显比单人玩要大很多。其实这并不是游戏难度提升了,或者是敌兵更多了,而是和队友的配合达不到姚明职业生涯有没有获得过周最佳提名,如果有,共获得过几次提名?在谈到一位球员的荣誉时,我们会谈到总冠军MVP全明星最佳阵容和最佳防守阵容,很少提及周最佳球员和月最佳球员这两项荣誉,可见这两项荣誉并不是特别重要,不过既然NBA设立了这两个奖项,6000到8000元左右的预算,游戏本有什么推荐的吗?我推荐OPPOr11,使用高通骁龙660超级处理器,秒杀835,最主要是,能稳定运行GTA5。看门狗2等超大型游戏,LOLcf更是不在话下,可全开特效运行steam上的所有游戏,如街机游戏拳皇中红丸的雷电能力是怎么来的?我们都知道,草薙京能打出火,这是因为他是草薙流古武术的继承者,拥有赤炎能力。也就是,只要是草薙家族的人都可以打出火,包括草薙柴舟和草薙苍司。矢吹真吾没有这方面血统,即使学习了草薙京如果真的存在魔兽世界,你想住在什么地方?黑暗神殿后花园,你懂的我会选择纳格兰!白天赶着猎蹄牛,塔布羊出去吃吃草,傍晚骑着风翼猫头鹰遨游整个纳格兰。晚上天歌湖里洗个澡。睡觉的时候眼望着星空,听着隔壁赞加沼泽娜迦和小鱼人的窃吃鸡新游尼尔岛大逃杀,相比同类游戏有什么特别之处?大家好,我是X博士,很高兴又和大家见面。无论端游还是手游,吃鸡类大逃杀玩法的游戏竞争早已到了白热化阶段,相比之下玩家的时间和耐心却越来越少。揽件半小时战斗三分钟的游戏体验是留不住玩网上那么多人给网友讲炒股绝招,真的有用吗?肯定没用,试想如果你有炒股绝招并能挣钱,你会将绝招在网上公布吗?你还有时间管别人吗?你还有时间上PT泄露天机吗?真正能挣钱的人,是不会轻易传给他人的。关于绝招,撇开那些骗流量的不提有些人不建议孩子睡在父母中间,为什么?题主您好,我想任何事情不能绝对化,孩子能不能睡在父母中间,要视情况而定。如果孩子年龄太小,还处在婴儿期,孩子的自我调整能力很弱,睡在中间,容易被大人无意识挤压,有一定的安全隐患。同你是父母打击教育的受害者吗?我的父母,就是典型的打击教育的奉行者。是的,不仅仅是拿我和别人家的孩子对比,可是不管我做什么,做好做坏都会被他们习惯性打击。造成在我以后的社交中变得不自信,经常自我怀疑。小时候他们宝宝打喷嚏是怎么回事?宝宝打喷嚏是怎么回事?宝宝打喷嚏可能为异物刺激,也可能是普通感冒或慢性鼻炎所致。打喷嚏属于一种无意识反射,灰尘细菌或者花粉等异物进入鼻腔后,鼻腔黏膜部的三叉神经支配肺部呼吸肌,呼吸
220年,曹操刚咽气,34岁曹丕就偷溜到,父亲小妾面前你们归我226年,曹丕病重,母亲卞夫人赶来探望。岂料,一群莺燕环绕在榻前,她一看竟是老相识,卞夫人指着儿子怒骂狗鼠不如,该死!是什么原因,让一个母亲对着病重的儿子,竟说出如此狠毒之话?原来成语背后的故事2历史开讲指鹿为马拼音zhlwim出处司马迁史记秦始皇本纪赵高欲为乱,恐群臣不听,乃先设验,持鹿献于二世,曰马也。二世笑曰丞相误邪?谓鹿为马。问左右,左右或默,或言马以阿顺赵高。或言孙中山先生在建国方略中规划的东方大港,现在发展的怎样了?连云港港是孙中山先生建国方略中规划建设的东方大港。1933年7月开港,2005年货物吞吐量突破5000万吨,2008年货物吞吐量突破亿吨,成为亿吨大港。2013年货物吞吐量突破2亿周末这件事对A股影响大,后面能否调整到位要考虑这一信号!周末消息面主要有央行银保监会支持发放住房租赁经营性贷款科技部将把人工智能作为战略性新兴产业,继续给予大力支持国内首个算力交易平台上线,东数西算夯实AI底座美股周五全线收跌,道指跌1市面上最全的2千元档性价比平板电脑选购指南,跟着买不吃亏如果您喜欢,可以点击上面的关注二字。后续会为您提供更多有价值的内容。第一款OPPOPad参考价格1919元6128GB一款高颜值的办公利器,搭载高通骁龙870处理器,屏幕方面采用1宜昌交通宜路来电奔向交通强国建设的新征程宜昌交通202302262139发表于湖北各位新能源车主们您还在为旅途中充电烦恼吗?里程焦虑一桩难求一动不动好消息,好消息,好消息重要的事情说三遍2月23日,宜昌交通和国家电网宜昌WebRTC成为HTML5标准!是时候学习了!大家好,很高兴又见面了,我是高级前端进阶,由我带着大家一起关注前端前沿深入前端底层技术,大家一起进步,也欢迎大家关注点赞收藏转发!高级前端进阶今天带着大家一起了解下WebRTC,话VO荣米新格局下,为什么头雁是vivo?在全球经济大衰退疫情反复降低消费欲望等众多因素的相互交织下,智能手机市场在2022年迎来至暗时刻。IDC数据显示,2022年全球智能手机市场整体出货量跌落至12。1亿部,同比下滑1巽风科技突然宕机,大批玩家虚耗数小时无果!2023年2月26日晚8点左右,巽风科技突然宕机,系统服务器全网停服!安卓系统显示图片苹果系统显示图片据网友截图显示,系统提示晚十点恢复正常,然将近十一点,依然无人能登陆!因今日中砸出100亿,京东砍了拼多多一刀刘强东最近手笔很大。继拿出31亿买地,说要给兄弟们盖房子后,近期又计划于3月初正式上线百亿补贴频道,直接对标拼多多。目前已进入商品池选定以及竞价系统上线前的冲刺阶段。与以往不同的是chatGPT说我来替你去京东抓点商品数据让你瞅瞅中不中前些日子注册了一个openAI,然后开启了一段时间的编码和日常的新闻训练,眼瞅着已经调教听话了,突然被openAI给封禁了,仔细分析了一下发现了原因,因为我电脑开了定位,这就是op