范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

超越全系列YOLOAnchorfree技巧组合,旷视开源更强的YOLOX

  机器之心报道
  编辑:杜伟、陈萍
  在本文中,来自旷视的研究者提出高性能检测器 YOLOX,并对 YOLO 系列进行了经验性改进,将 Anchor-free、数据增强等目标检测领域先进技术引入 YOLO。获得了超越 YOLOv3、YOLOv4 和 YOLOv5 的 AP,而且取得了极具竞争力的推理速度。
  随着目标检测技术的发展,YOLO 系列始终追寻可以实时应用的最佳速度和准确率权衡。学界人士不断提取当时最先进的检测技术(如 YOLOv2 的 anchor、YOLOv3 的残差网络),并对这些检测技术进行优化以实现最佳性能。目前,YOLOv5 在速度和准确率上有最好的权衡,在 COCO 数据集上以 13.7ms 的速度获得 48.2% AP。
  然而,过去两年时间里,目标检测领域的主要进展集中在无锚点(anchor-free)检测器、先进的标签分配策略以及端到端的(NMS-free)检测器。但是,这些技术还没有集成到 YOLO 系列模型中,YOLOv4 、 YOLOv5 仍然还是基于 anchor 的检测器,使用手工分配策略进行训练。
  近日,旷视的研究者将解耦头、数据增强、无锚点以及标签分类等目标检测领域的优秀进展与 YOLO 进行了巧妙地集成组合,提出了 YOLOX,不仅实现了超越 YOLOv3、YOLOv4 和 YOLOv5 的 AP,而且取得了极具竞争力的推理速度。
  论文地址:https://arxiv.org/abs/2107.08430 项目地址:https://github.com/Megvii-BaseDetection/YOLOX
  考虑到 YOLOv4、YOLOv5 在基于 anchor pipeline 中可能会出现一些过拟合,研究者选择 YOLOv3 作为起点(将 YOLOv3-SPP 设置为默认的 YOLOv3)。事实上,由于计算资源有限,以及在实际应用中软件支持不足,YOLOv3 仍然是业界应用最广泛的检测器之一。
  如下图 1 所示,通过将目标检测领域优秀进展与 YOLO 进行组合,研究者在图像分辨率为 640 × 640 的 COCO 数据集上将 YOLOv3 提升到 47.3% AP(YOLOX-DarkNet53),大大超过了目前 YOLOv3(44.3% AP,ultralytics version2)的最佳实践。
  此外,当将网络切换到先进的 YOLOv5 架构,该架构采用先进的 CSPNet 骨干以及一个额外的 PAN 头,YOLOX-L 在 COCO 数据集、图像分辨率为 640 × 640 获得 50.0% AP,比 YOLOv5-L 高出 1.8% AP。研究者还在小尺寸上测试所设计的策略,YOLOX-Tiny 和 YOLOX-Nano(仅 0.91M 参数和 1.08G FLOPs)分别比对应的 YOLOv4-Tiny 和 NanoDet3 高出 10% AP 和 1.8% AP。
  在 CVPR 2021 WAD 挑战赛的 Streaming Perception Challenge 赛道上,旷视提出的基于 YOLOX 模型(YOLOX-L)的 2D 实时目标检测系统在 Argoverse-HD 数据集上实现了 41.1 的 streaming AP。此外,研究者在推理时用到了 TensorRT 优化器,使得模型在高分辨输入(即 1440×2304)时实现了 30 fps 的推理速度。
  图源:https://eval.ai/web/challenges/challenge-page/800/overview
  YOLOX-DarkNet53
  研究者选择将 YOLOv3+Darknet53 作为基线模型,并基于它详细介绍了 YOLOX 的整个系统设计。
  实现细节
  从基线模型到最终模型,研究者的训练设置基本保持一致。他们在 COCO train2017 数据集上训练了 300 个 epoch 的模型并进行 5 个 epoch 的 warmup,使用随机梯度下降(SGD)来训练,学习率为 lr×BatchSize/64 ,初始学习率为 0.01,并使用了余弦(cosine)学习机制。权重衰减为 0.0005,SGD momentum 为 0.9。批大小默认为 128(8 个 GPU),其他批大小使用单个 GPU 训练也运行良好。输入大小以 32 步长从 448 均匀过渡到 832。FPS 和延迟在单个 Tesla V100 上使用 FP16-precision 和 batch=1 进行测量。
  YOLOv3 基线模型
  基线采用了 DarkNet53 骨干和 SPP 层的架构(在一些论文中被称作 YOLOv3-SPP)。与初始实现相比,研究者稍微改变了一些训练策略,添加了 EMA 权重更新、余弦学习机制、IoU 损失和 IoU 感知分支。他们使用 BCE 损失训练 cls 和 obj 分支,使用 IoU 损失训练 reg 分支。这些通用的训练技巧对于 YOLOX 的关键改进呈正交,因此将它们应用于基线上。此外,研究者还添加了 RandomHorizontalFlip、ColorJitter 和多尺度数据增强,移除了 RandomResizedCrop 策略。
  通过这些增强技巧,YOLOv3 基线模型在 COCO val 数据集上实现了 38.5% 的 AP,具体如下表 2 所示:
  解耦头
  在目标检测中,分类与回归任务之间的冲突是一个众所周知的难题,因此用于分类和定位的解耦头被广泛用于大多数单阶段和双阶段检测器中。但是,随着 YOLO 系列模型骨干和特征金字塔(如 FPN 和 PAN)持续进化,它们的检测头依然处于耦合状态,YOLOv3 头与本文提出的解耦头之间的架构差异如下图 2 所示:
  下图 3 为使用 YOLOv3 头和解耦头时的检测器训练曲线:
  从下表 1 可以看到,使用耦合头时端到端性能降低了 4.2% 的 AP,而使用解耦头时仅仅降低了 0.8% AP。因此,研究者将 YOLO 检测头替换为一个轻量(lite)解耦头,由此极大地提升了收敛速度。
  具体地,这个轻量解耦头包含一个 1 × 1 卷积层以减少通道维度,之后紧接着两个 3 × 3 卷积层的并行分支,具体架构参见上图 2。
  研究者给出了在单个 Tesla V100 上,使用 batch=1 时的推理时间。如上表 2 所示,轻量解耦头可以带来 1.1 ms 的推理延时。
  强(strong)数据增强策略
  研究者在增强策略中加入了 Mosaic 和 MixUp 以提升 YOLOX 的性能,他们在模型中采用 MixUp 和 Mosaic 实现,并在最后 15 个 epoch 的训练中关闭。如上表 2 所示,基线模型实现了 42.0% 的 AP。在使用强数据增强策略之后,研究者发现 ImageNet 预训练不再具有更多增益,因此所有模型都从头开始训练。
  无锚点(anchor-free)
  YOLOv4 和 YOLOv5 都遵循 YOLOv3 的基于锚的初始 pipeline,然而锚机制存在许多已知的问题。过去两年,无锚检测器发展迅速。相关研究表明,无锚检测器的性能可以媲美基于锚的检测器。无锚点机制显著减少了实现良好性能所需的启发式调整和技巧(如 Anchor Clustering、Grid Sensitive)的设计参数数量,从而使得检测器变得更简单,尤其是在训练和解码阶段。
  将 YOLO 转变为无锚点模式也非常简单。研究者将每个位置的预测从 3 降至 1,并使它们直接预测四个值,即两个 offset 以及预测框的高宽值。他们将每个目标的中心位置指令为正样本,并预定义一个尺度范围,以确定每个目标的 FPN 水平。这种改进减少了检测器的参数量和 GFLOP,并使其速度更快,与此同时获得了更好的性能,即 42.9% AP(具体如上表 2 所示)。
  多个正样本
  为了确保与 YOLOv3 的分配规则一致,上述无锚点版本仅为每个目标分配一个正样本(中心位置),同时忽略了其他高质量的预测。研究者将中心 3×3 区域分配为正样本,并命名为「中心采样」。如上表 2 示,检测器的性能提升至 45.0% AP,已经超越了当前 SOTA ultralytics/yolov3 版本的 44.3%AP。
  SimOTA
  先进标签分配(Advanced label assignment )是近年来目标检测领域中另一个重要进展。该研究将其作为候选标签分配策略。
  但是在实践中,该研究发现通过 Sinkhorn-Knopp 算法解决 OT 问题会带来 25% 额外训练时间,这对于 300 epoch 来说代价非常高。因此,该研究将其简化为动态 top-k 策略,命名为 SimOTA,以获得近似解。
  SimOTA 不仅减少了训练时间,同时避免了 SinkhornKnopp 算法中额外超参数问题。如表 2 所示,SimOTA 将检测器的 AP 从 45.0% 提高到 47.3%,比 SOTA ultralytics-YOLOv3 高出 3.0%。
  端到端的 YOLO
  该研究参考 PSS 添加了两个额外的卷基层、一对一的标签分配、stop gradient。这些使得检测器能够以端到端方式执行,但会略微降低性能和推理速度,如表 2 所示。该研究将其作为一个可选模块,但在最终的模型中并没有涉及。
  在其他骨干网络的实验结果
  除了 DarkNet53,该研究还在其他不同大小的骨干上测试了 YOLOX,结果表明 YOLOX 都实现了性能提升。
  改进 YOLOv5 中的 CSPNet
  为了公平的进行比较,该研究采用 YOLOv5 骨干,包括改进的 CSPNet、SiLU 激活函数、PAN 头。此外,该研究还遵循扩展规则来生成 YOLOXS、YOLOX-M、 YOLOX-L、YOLOX-X 模型。与 YOLOv5 在表 3 的结果相比,该模型在仅需非常少的额外推理耗时,取得了 3.0%~1.0% 的性能提升。
  Tiny 和 Nano 检测器
  该研究进一步将模型缩小为 YOLOX-Tiny,并与 YOLOv4-Tiny 进行比较。对于移动端设备,研究者采用深度卷积构建 YOLOX-Nano 模型,模型仅有 0.91M 参数量以及 1.08G FLOP。如表 4 所示,YOLOX 在更小的模型尺寸下表现良好。
  模型大小与数据增强
  在实验中,所有模型都保持了几乎相同的学习进度和优化参数。然而,研究发现适当的数据增强策略因模型大小而异。如表 5 所示,YOLOX-L 采用 MixUp 能提高 0.9%AP,对于诸如 YOLOX-Nano 这种小型模型来说,最好是弱化增强。
  具体来说,当训练诸如 YOLOX-S、 YOLOX-Tiny、YOLOX-Nano 这种小模型时,需要去除混合增强并弱化 mosaic(将扩展范围从 [0.1, 2.0] 降到 [0.5, 1.5])。这种改进将 YOLOX-Nano 的 AP 从 24.0% 提高到 25.3%。
  与 SOTA 结果对比
  下表 6 为 YOLOX 与 SOTA 检测器的对比结果。在 COCO 2017 test-dev 数据集上进行了不同物体检测器的速度和准确率比较。研究者选择在 300 epoch 上训练所有模型并进行了公平比较。由结果可得,与 YOLOv3、YOLOv4、YOLOv5 系列进行比较,该研究所提出的 YOLOX 取得了最佳性能,获得 51.2%AP,高于其他模型,同时具有极具竞争力的推理速度。

炒股的朋友醒醒吧,你以为你看得准?别天真了,背后真相吓人所有人,不管什么时候问我能不能投资股票,我的回答都只有一个,你玩一下是可以的,但是千万别认真!对于散户来说,千万别把买股票当成真正的投资理财了,因为本质上,你在中国股市上赚钱和去澳老虎吃人后为什么一定要被击毙?科学家不杀掉后患无穷老虎,有着百兽之王之称,是现如今体型最庞大的猫科动物,也是处于食物链最顶端的食肉动物。它们分布范围广泛,适应能力极强,喜欢独居,在寒冷的西伯利亚山林开阔的非洲草原热带沼泽丛林等地都衡水中学学生演讲土猪进城拱白菜被批评,吓着了谁?早上起来啊,看到一个衡水中学的孩子的一个演讲,他说我要努力,我要做一头土猪,去城里拱白菜。这一下城里的文明人们都着急啦,各种批判呐,说这个衡水中学的学生什么格局,一点家国情怀都没有外来入侵植物蓖麻,蕴含致命毒素,很多人小时候玩过也吃过蓖(b)麻这种植物,想必很多70后80后的小伙伴都不陌生,在农村地区随处可见,在上世纪五六十年代,几乎家家户户都抢着种植。蓖麻茎长叶大,结出的果实布满软刺,里面的蓖麻子光滑发亮且坚你根本买不到70年产权的房子你!我说的就是你,你根本买不到70年产权的房子!不是我在危言耸听啊,还有,当这个产权到期以后,我们到底应该怎么办?是不是真的像房产中介说的那样无所谓呀,反正到时候都会自动续期呀。看晴天霹雳!又一次,赵薇夫妇摊上大事了!行业开始地震中国资本圈突然传出重磅大新闻,赵薇夫妇这次又摊上大事儿了!情况大家可能都已经知道了,就在不久前,赵薇名下272。6万股权全部被冻结,中国娱乐圈一片哗然!很多人可能会说,这赵薇又出事痛心疾首,一代伟人袁隆平先生因病逝世,盘点他一生三大转折就在2021年5月22号下午1307,我国的杂交水稻之父袁隆平先生与世长辞,享年91岁,刹那间令全中国人不胜悲痛。先生是属于中国的,也是属于全世界的,他驾鹤西行,但是整个中华民族依一张发人深省的图片疯传,北大博士后送外卖半年引发人性思考前几天,下面这张发人深省的图片在网上疯传。与此同时,一名北大博士后为了写论文,卧底当外卖小哥半年的新闻也引起了广泛热议。作者在文中说到,技术没有带来解放,反而是压榨,而且变得更隐秘指纹是如何形成的?为什么世界上不会有2个一模一样的指纹?智能手机诞生以来,指纹一直是最常见的解锁方式,直到面部识别的出现。同时,它还被用在刑侦方面,通过一枚小小的指纹,就能够锁定犯罪嫌疑人。指纹被认为是每个人身上最独特的标志,先简单了解中国人什么都敢吃,为何很少吃猫肉?仅仅是因为猫肉发酸?猫,乖巧可爱,在这个快节奏的时代,既丰富了人们的情感需求,也彰显出多元化的现实意义。我国古代没有动物保护法,在以前饥荒的时代,通常都是物尽其用,为了生存见什么吃什么,各种动物几乎都风滚草在美国泛滥成灾,堵公路埋房子,为何在我国很难长大?风滚草,生命力极强,被称作植物中的奇迹,不少人都喜欢将风滚草与生命哲学联系在一起,顽强坚持随遇而安等词常用来赞叹风滚草。然而,在美国人眼中,风滚草是一种令人极其讨厌的入侵植物,19
炸掉月球四季如春?没了月球人类能生存吗?失去月亮的地球很危险你想过吗?如果月球被炸掉,地球会有什么后果呢?当月球被炸得四分五裂,失去月球的地球会不会从此变得黯淡无光?科学家曾提出这样一个假说,说月球原本只是太阳系的一颗小行星,后来飞行到地球恐龙也有戏水高手?自然期刊论文介绍新发现来源环球时报环球时报综合报道一项最新研究发现,棘龙类恐龙主要以水生为主。该结果发表于国际著名学术期刊自然23日出版的最新一期,颠覆了此前恐龙都是陆生动物的认知假设。论文介绍称,早在4。9万度的高温火墙,旅行者2号轻松突破,人类能走出太阳系?1977年8月20日,美国NASA将旅行者2号探测器成功发射升空,这是飞往太阳系外的第二艘探测器。旅行者2号自发射成功以来,依次探测过了土星天王星海王星。2018年,它渐渐飞离了太不稳定的双星系统,或会导致Ia型超新星产生科幻网5月18日讯(王子钰)双星系统是指两颗恒星位置看起来非常靠近,各自在轨道上环绕着共同质量中心的恒星系统。在银河系中,双星系统很常见,但也包含一些由三颗四颗甚至六颗恒星的多星系四维空间被德国数学家证明真实存在?他到底是什么样子呢?现在很多关于四维空间的存在的理论,其实在爱因斯坦提出相对论的时候,已经提出了广义的思维空间的设想。他在自己相对论的基础之上提出了人类生存的宇宙是由空间跟时间共同形成的,这一广义四维(科技)中国科学家研制新材料有望助力双碳和太空探测新华社合肥5月19日电(记者徐海涛周畅)白天可比环境温度高170摄氏度,夜晚可比环境温度低20摄氏度,无需外部能源消耗近期,中国科学技术大学教授裴刚研究员邹崇文等人研制出一种分别以停滞100年的物理学,终于有重大突破?W玻色子超重意味着什么?2022年4月,美国费米加速实验室公布了2001年到2011年十年间对W玻色子的测量数据。发现w玻色子比标准模型预言的质量,超重了将近0。1。这0。1的差距说严重一点,可能会导致整天文学家发现一颗充满包括黄金在内的65种元素的恒星虽然大多数恒星主要由氢和氦元素组成,但它们也含有其它元素,天体物理学家称之为恒星的金属丰度。太阳本身具有很高的金属丰度,因为它有67种元素和2。5万亿吨黄金。但在遥远空间的某个地方哈勃捕捉到一个精致的隐藏星系IC342螺旋星系IC342也被称为Caldwell5,距离地球约1100万光年。哈勃捕捉到了这个星系中心闪闪发光的正面视图。在图片可以看到交织的灰尘卷轴,另外,一个由热气和恒星组成的明亮核天文学家发现神秘环形天体,或为星际间产物超新星SN1987A爆发后形成的环状天体结构。(NASACXCA。Hobart)天文学家在银河系和旁边的大麦哲伦星系(LMC)之间的星际空间内,发现一个奇怪的环状天体。位于澳大利亚日往则月来,月往则日来日,即太阳(Sun),是太阳系的中心天体,占有太阳系总体质量的99。86。其直径大约是1392000(1。39210)千米,相当于地球直径的109倍体积大约是地球的130万倍其质量