范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

无需额外数据,首次实现ImageNet87。1精度,颜水成团队开源VOLO

  机器之心发布
  Sea AI Lab (SAIL) 团队
  VOLO 是第一个在 ImageNet 上无需额外数据达到 87.1% top-1 准确率的模型,进一步拉近了视觉 Transformer 与最顶级 CNN 模型的性能距离。
  近十年来,计算机视觉识别任务一直由卷积神经网络 (CNN) 主导。尽管最近流行的视觉 Transformer 在基于 self-attention 的模型中显示出巨大的潜力,但是在没有提供额外数据的情况下,比如在 ImageNet 上的分类任务,它们的性能仍然不如最新的 SOTA CNNs。目前,在无额外数据集时,ImageNet 上的最高性能依旧是由 Google DeepMind 提出的 NFNet (Normalizer-Free Network)所获得。
  ImageNet 分类性能实时排行榜(无额外数据集),来源 https://paperswithcode.com/
  Cityscapes validation 实时排行榜,来源 https://paperswithcode.com/
  在一篇最近发表的论文中,来自新加坡 Sea 集团旗下、颜水成教授领导的 Sea AI Lab (SAIL) 团队提出了一种新的深度学习网络模型结构——Vision Outlooker (VOLO),用于高性能视觉识别任务。它是一个简单且通用的结构,在不使用任何额外数据的情况下,实现了在 ImageNet 上图像分类任务 87.1% 的精度目标;同时,实现了在分割数据集 CityScapes Validation 上 84.3% 的性能,创下 ImageNet-1K 分类任务和 CityScapes 分割任务的两项新纪录。
  VOLO 模型与 SOTA CNN 模型(NFNet)和 Transformer 模型(CaiT)的 ImageNet top-1 准确率比较。在使用更少参数的情况下,VOLO-D5 优于 CaiT-M48 和 NFNet-F6,并首次在不使用额外训练数据时达到了 87% 以上的 top-1 准确率。
  颜水成教授认为,以 Transformer 为代表,「Graph Representation + Attentive Propagation」以其灵活性和普适性已展现出成为各领域统一框架的潜能,VOLO 算法表明了在视觉领域 Attention 机制也可以超越 CNN, 佐证了各领域走向模型统一的可行性。
  论文地址:https://arxiv.org/pdf/2106.13112.pdf GitHub 地址:https://github.com/sail-sg/volo
  方法概述
  这项工作旨在缩小性能差距,并证明在无额外数据的情况下,基于注意力的模型优于 CNN。
  具体来说,作者发现限制 self-attention 模型在图像分类中的性能的主要因素是在将精细级特征编码到 token 表征中的效率低下。
  为了解决这个问题,作者提出了一种新颖的 outlook attention,并提出了一个简单而通用的架构——Vision OutLOoker (VOLO)。
  与专注于粗略全局依赖建模的 self-attention 不同,outlook attention 旨在将更精细的特征和上下文有效地编码为 token,这些 token 对识别性能至关重要,但在很大程度上被自注意力所忽略。
  Outlooker
  VOLO 框架分为两个阶段,或者说由两个大的 block 构成: 第一个阶段由多层 outlooker 构成,旨在用于生成精细级别的数据表征; 第二个阶段部署一系列 transformer 层来聚合全局信息。在每个阶段的开始,使用 patch 嵌入模块将输入映射到相应大小的数据表示。
  第一个 stage 由多层 outlooker 构成,outlooker 是本文提出的特殊的 attention 层,每一层 outlooker 由一层 outlook attention 层和 MLP 构成,如下所示为一层 outlooker 的实现方式。
  其中,核心操作为 Outlook attention,如下图所示:
  具体来说,outlook attention 的操作如下所示:
  总体而言,outlook attention 具有如下优点: 较低的复杂度:相对于普通 self-attention 的时间复杂度是 O(H^2xW^2),而 outlook attention 只有 O(HW x k2 x k2)=O(HW x k4),而窗口大小 k 一般只有 3 或者 5,远小于图片尺寸 H 和 W。因此可用于具有更高分辨率的特征图(例如,28x28 标记),这是提高 ViT 的有效方法; 更好建模局部细节:适用于下游视觉应用,如语义分割; Key and Query free: outlook attention 中无 Key 和 Query,attention map 可以直接由线性生成,去掉 MatMul(Query, Key),节省计算量; 灵活性:可以很容易地构成一个带有 self-attention 的混合网络。
  作者也提供了 Outlook attention 实现的伪代码,如下图所示:
  基于提出的 Outlooker 和传统的 Transformer, 该工作提出了 VOLO 架构,同时包含五个大小变体,从小到大依次为 VOLO-D1 到 D5,架构示意如下图所示:
  实验
  研究者在 ImageNet 数据集上对 VOLO 进行了评估,在训练阶段没有使用任何额外训练数据,并将带有 Token Labeling 的 LV-ViT-S 模型作为基线。他们在配有 8 块英伟达 V100 或 A100 GPU 的单个节点机上训练除 VOLO-D5 之外所有的 VOLO 模型,VOLO-D5 需要在双节点机上训练。
  V0LO-D1 到 VOLO-D5 模型的设置如下表 3 所示:
  主要结果
  下表 4 中,研究者将 VOLO 模型与 SOTA 模型进行了比较,所有的结果都基于纯(pure)ImageNet-1k 数据集,没有使用额外训练数据。结果表明,VOLO 模型优于 CNN、Transformer 等以往 SOTA 模型。
  具体来说,该工作在图像分类和分割中验证了所提方法有效性,下图为 VOLO 在 ImageNet 上的实验结果,可以看出,仅凭 27M 参数,VOLO-D1 就可以实现 85.2% 的准确率,远超以往所有模型。同时 VOLO-D5 实现了 87.1% 的准确率,这也是当前在无额外数据集下 ImageNet 最好结果,比以往 SOTA 模型 NFNet-F6 有 0.5% 以上的提升。
  Outlooker 的性能
  研究者展示了 Outlooker 在 VOLO 模型中的重要性,他们将最近的 SOTA 视觉 transformer 模型 LV-ViT-S 作为基线。LV-ViT-S 及 VOLO-D1 模型的实验设置和相应结果如下表 5 所示:
  研究者还对 Outlooker 与局部自注意力(local self-attention)和空间卷积进行了比较,结果如下表 6 所示。结果表明,在训练方法和架构相同的情况下,Outlooker 优于局部自注意力和空间卷积。
  消融实验
  研究者将 VOLO-D1 模型扩展至 4 个不同的模型,即 VOLO-D2 到 VOLO-D5,具体的规格如上表 2 所示,相应的结果如下表 7 所示。结果表明,当增加训练模型大小和测试分辨率时,VOLO 模型都可以实现性能提升。
  研究者还发现,VOLO 模型中 Outlooker 的数量对分类性能产生影响。下表 8 中,研究者在展示了不同数量的 Outlooker 在 VOLO 模型中的影响。
  结果表明,在不使用 Outlooker 时,具有 16 个 transformer 的基线模型取得了 83.3% 的准确率。增加 Outlooker 的数量可以提升准确率,但使用 4 个 Outlooker 时即达到了性能饱和,之后增加再多的数量也无法带来任何性能增益。
  下游语义分割任务上的性能
  同时,该框架在下游任务上也取得了极大的提升,比如语义分割任务上,VOLO-d4 在 CityScapes 上实现 84.3 mIoU,在 ADE20k 上实现了 54.3 mIoU。
  总体来说,实验表明 VOLO 在 ImageNet-1K 分类上达到了 87.1% 的 top-1 准确率,在无额外数据集的情况下,首次在 ImageNet 上超过 87% 准确率的模型。
  同时将该框架用于下游任务,比如语义分割 (Semantic Segmentation) 上,在 Cityscapes 和 ADE20k 上也实现了非常高的性能表现,VOLO-D5 模型在 Cityscapes 上实现 84.3% mIoU,目前位居 Cityscapes validation 首位。
  工作总结
  这个工作提出了一个全新的视觉模型,并取得了 SOTA 的效果。首次在无额外数据集下,让 attention 主导的模型超越了 CNN 主导的模型精度。在证明了视觉 attention 的重要性的同时,为研究社区引入新的的模型框架和训练策略。
  感兴趣的读者可以阅读英文原文,了解更多研究细节。

一个人可能拥有不止一组基因?美国新研究推翻RNA世界学说作者栖梧引言美国一研究所的一项新发现表明,地球上的生命起源可能与我们所想象的大不同相同,按照这项研究的结论,之前被许多科学家接受的RNA世界学说是个错误。注RNA世界学说(RNAw重毒区,消防员把面罩给了小孩,记2002山东聊城液氨泄漏事故作者小钳时间2002年7月8日地点山东省聊城市莘县化肥厂液氮储罐区题记重毒区内,一个小孩让烟气呛得趴在地上大哭不止,脸色逐渐青紫,嘴巴里不停往外呕口水。已经在重毒区内不知道跑了多少有根把人绑在机舱外的皮带,瞧瞧阿帕奇直升机生存包里都有啥作者丁尹近日,NATO(北约,或者叫做北大西洋公约组织)在油管上放出了一段新的视频,该视频介绍了英国陆军现役的WAH64型阿帕奇直升机上所准备的生存包(SurvivalKit)套装美媒指中国空有航母却没有舰载机飞行员,海军正转向美国模式作者云断近日,美国媒体小报指出中国尽管在海空武器装备的增长方面取得了长足的进步,但是实际上还是存在一个非常关键的问题那就是缺乏足够多的优秀飞行员,其中以航母舰载战斗机飞行员尤甚。该德国人消极怠工,他主动请缨创造中国第一个氢气球,记清朝气球队作者云断题记最近翻看中国民航历史,发现中国航空发轫之起点实比想象得要来得更早,其中清朝航空业的发展对于后世颇有积极意义,因成数文(此为第一篇),与诸君共赏。1885年,中法战争正酣没关好釜盖引爆炸,当场炸死7人,记2001广西容县蒸压釜事故作者小钳时间2001年12月29日下午4点15分地点广西容县石寨平梨砂砖厂2号蒸压釜容器编号F9304题记李某(化名)刚忙完蒸压釜的操作,想去喝口水,忽然大伙就听到沙沙沙的声音从蒸你家附近的行道树多吗?研究发现城市树木会影响你的心理健康作者弦予郁郁葱葱的行道树谁不喜欢呢?当然,如果南京的大量的法国梧桐春天不飘絮,秋天不掉毛的话,我可能也会成为这群百年梧桐的粉丝,可惜掉毛时节的梧桐实在是太恼人了,光戴口罩还不够,墨房屋下沉压断煤气管,女士误点火引爆,记1989年上海煤气事故作者小钳时间1989年1月11日地点上海市长宁区安顺路在现代城市中,燃气管道大多数都埋设于地下,其使用期限一般都是相当长的,而且这些管路很难再次挖开检查。因此,在地下燃气管路的设计太阳晒爆液氨钢瓶,致百余人中毒,记2005年上海气瓶爆裂事故作者小钳时间2005年7月4日中午地点上海市南汇区惠南镇惠东路148号附近烈日暴晒下的三无货车七月份的上海,白天的气温已经很高了,大中午的日头更是相当毒,上海南汇区惠南镇的行人们大共轴高速直升机如何巧妙借用常规直升机的气动分析模型?作者丁尹RefJuhasz,O。,H。Xin和M。B。Tischler。InflowbasedflightdynamicsmodelingimprovementsfortheSik小小闪爆撕碎油库消防防护,记2010大连大孤山油库溢油事故作者小钳中石油国储公司大孤山油库火灾(图源中国经济和信息化)时间2010年7月16日地点辽宁省大连市大孤山新港中石油国储公司原油罐区题记2010年7月份的大连,日均气温已经在20摄
地球最响亮的声音,等于1。3万颗原子弹爆炸,足以震碎人的内脏笔者小文人类听觉对于声音的承受能力在90分贝以下,超出这个数值就会给听力带来损伤,而且有些损伤还是永久性的。而随着人类的发展,各种声音早就超出了人类的承受能力了,比如人类使用的枪支人类为什么没有尾巴,如果有尾巴,你会用来做什么笔者小文尾巴几乎是自然界动物的标配了,鱼类鸟类爬行动物甚至是人类的近亲都拥有尾巴,并且,对于壁虎会利用断尾的方式来诱惑敌人,为自己争取更多的逃跑时间,鱼类则通过摆动尾巴来获得前进的一角鲸才是独角兽,它的角已被人类盯上,命运和大象一样凄惨笔者小文在西方传说中,独角兽这种生物象征着高贵神圣,迷信独角兽存在的人不在少数,而从外形看来,独角兽和白马非常相似,只不过独角兽的头上多了一根螺旋的犄角。而迷信独角兽的人则相信这根奇瑞捷途豪礼来袭!惊喜福利等你来拿在奇瑞捷途即将迎来上市3周年和第400000车主家人之际,为盛夏的车市,再添一把热情之火,为回馈粉丝及用户的厚爱,于7月1日8月31日诚意推出购车0负担,养车0压力粉丝狂欢季活动,全系整车终身!奇瑞捷途推重磅质保福利近日,奇瑞捷途宣布正式推出全系车型整车终身质保,成为中国品牌中第一个为用户提供全系车型整车终身质保的车企,再次彰显了以用户为中心的理念,具体福利如下12021年3月1日12月31日液相干货提炼流动相的配制和使用流动相的配制是我们日常实验最普通的一环,也是做实验的第一步,所以流动相配制的质量直接影响到实验的结果成功与否。如果配制不规范,就会造成像系统堵塞压力波动保留时间重复性差和鬼峰等诸多如何准备GMP检查GMP检查的前台和后台GMP检查的前台和后台检查在台前和台后都需要进行准备。准备室是用来培训和指导员工的。这种互动保证了良好的沟通和强烈的团队归属感。检查是一项团队运动,每个团队成员都要付出100的努力给制药新人的建议让每一天都变得独特而富有挑战性你是如何在你的企业起步的呢?IstartedinthePharmaceuticalindustryrightaftercompletingmyMastersofScienceDegECD越污染灵敏度越高吗?同学们,大家好!我们对于气相检测器污染的认识通常是污染会直接导致出峰变小,灵敏度降低。但是,有人却说,没关系,电子捕获检测器越污染信号越高。那真实的情况是怎样的呢?正是由于ECD检韩国人又开始偷我们的筷子和勺子说起韩国这个国家在我个人第一印象就是无耻,自卑且自大,小偷,毫无竞技精神。这不,这个弹丸小国又开始作妖了,在油管的视频疯狂宣传筷子和勺子是他们发明的,偷完汉服偷中餐,现在又开始盯上GB5749饮用水强制性国标修订,水质指标由106项调整为97项近日,国家卫生健康标准委员会环境健康标准专业委员会发布了强制性国家标准生活饮用水卫生标准的征求意见稿(报批稿)饮用水是一种重要的制药用水,亦是纯化水注射用水的重要原水,2010版G