范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

44种模型,RobustART评测CNNTransformerMLPMixer谁最鲁棒?

  机器之心专栏
  北京航空航天大学、商汤科技、京东探索研究院等
  来自北航、商汤科技和京东探索研究院等机构的研究者提出了第一个在大规模数据集 ImageNet 上面向模型结构和训练技巧且针对多种噪音类型的模型鲁棒性评测基准——RobustART。该 benchmark 全面评测了 44 种经典的手工设计和 1200 种 NAS 采样得到的模型架构以及 10 余种模型训练技巧对于鲁棒性的影响。
  以深度学习为代表的人工智能技术,在计算机视觉、语音识别、自然语言处理等方向上已经取得了巨大进展,在我们生活中的多个领域得到了广泛的应用并发挥了极其关键的作用。然而,由于现实应用场景的开放性,以大数据训练和经验性规则为基础的传统人工智能(如深度学习)方法面临着输入样本含有噪音的挑战,如:自然噪音、对抗噪音等。这些微小的噪音对于深度学习模型的鲁棒性和安全性产生了很大的挑战,其对于社会稳定甚至是公共安全都可能产生极大的影响。
  哪种模型对于噪音更加鲁棒?哪些模型架构和组件对于噪音有更强的抵御能力?对于这些问题的研究能够帮助我们更好地认识和理解模型鲁棒性的本质,从而帮助研究人员进行更加鲁棒的模型架构设计。进一步,这对于推进工业级鲁棒模型的评测和落地应用、并最终服务于国家相关智能模型鲁棒评测标准的推进和开展具有十分重大的意义!因此,来自北京航空航天大学、商汤科技和京东探索研究院的研究人员联合加州大学伯克利分校、牛津大学以及约翰斯 · 霍普金斯大学提出了第一个在大规模数据集 ImageNet 上面向模型结构(ARchitecture Design)和训练技巧(Training Technique)且针对多种噪音类型的模型鲁棒性评测基准——RobustART。
  该 benchmark 全面评测了 44 种经典的手工设计和 1200 种 NAS 采样得到的模型架构以及 10 余种模型训练技巧对于鲁棒性(对抗噪音、自然噪音、系统噪音等)的影响。并通过海量且深入的实验探究,得出了大量的有价值实验结果和众多启发性的结论,如:
  (1)对于 Transformer 和 MLP-Mixer,对抗训练可以全面提升其全部噪音鲁棒性和任务本身的效果;
  (2)在模型大小一致的前提下,对于自然噪音和系统噪音鲁棒性:CNN>Transformer>MLP-Mixer,对于对抗噪音鲁棒性,Transformer>MLP-Mixer>CNN;
  (3)对于一些轻量化的模型族,增加其模型大小或者增加训练数据并不能提升其鲁棒性等。这些分析和结论将对人们认识模型鲁棒性机理并设计安全稳固的模型架构产生重要的意义。
  RobustART benchmark(1)提供了一个包含 leaderboard、数据集、源码等详实信息在内的开源平台;(2)开放了 80 余种使用不同模型结构和训练技巧的预训练模型,以便于研究人员进行鲁棒性评估;(3)贡献了崭新的视角和大量的分析结论,让研究人员更好地理解鲁棒模型背后的内在机制。
  RobustART 将作为核心组成部分,整合到北航团队先前研发的人工智能算法与模型安全评测环境「重明」 系统当中,并发布「重明」2.0 版本(「重明」 是国内领先的智能安全评测环境,曾受邀在国家新一代人工智能开源社区 OpenI 启智开源开放平台发布,并荣获 OpenI 社区优秀开源项目)。在未来,RobustART 将持续为整个社区提供更加完善、易用的开源鲁棒性评估和研究框架。同时也将助力于工业级模型的评测和鲁棒模型的落地应用,最终也希望能够服务于国家相关智能模型鲁棒评测标准的推进和任务的开展。
  论文地址:https://arxiv.org/pdf/2109.05211.pdf RobustART 开源平台网址:http://robust.art/ 重明平台网址:https://github.com/DIG-Beihang/AISafety
  一、概要
  目前的鲁棒性 benchmark 主要聚焦于评估对抗防御方法的效果,而忽略了模型结构和训练技巧对于鲁棒性的影响。而这些因素对模型鲁棒性十分重要,一些细微的差别(如训练使用的数据增强方法的不同)就可能掩盖防御方法带来的鲁棒性影响,从而造成对模型鲁棒性的错误评估和认识。因此,该论文提出了 RobustART 来全面地评测不同模型结构和训练技巧对于鲁棒性的影响,并在对抗噪音(AutoAttack、PGD 等)、自然噪音(如 ImageNet-A, -O, -C, -P)和系统噪音(如 ImageNet-S)下进行了全面评估。下表给出了在研究的 44 种经典网络模型中,在不同噪音下鲁棒性前五名的模型(为了公平比较,所有模型的训练设置都已对齐):
  二、考虑模型结构和训练技巧的鲁棒性 benchmark
  为了更好地探究模型鲁棒性的内在本质,该研究将影响模型鲁棒性的原因划分成模型结构和训练技巧这两个正交因素,进而构建了一套完整的 benchmark 设置,即(1)对不同网络结构的模型,使用同样的训练技巧进行训练(2)对于同一种网络结构的模型,使用不同的训练技巧进行训练。这种细分的消融研究更有助于人们理解某些具体的模型结构或者训练技巧对于鲁棒性的影响。下表分别展示了研究中用到的模型结构、训练技巧、以及噪音类型。
  针对模型结构这一因素,该研究尽可能多地覆盖了常用的神经网络模型。对于 CNNs,有经典的大型结构如 ResNet、ResNeXt、WideResNet、DenseNet;轻量化网络如 ShuffleNetV2、MobileNetV2;重参数化的结构 RepVGG;基于神经架构搜索(NAS)的模型如 RegNet、EfficientNet、MobileNetV3 以及使用 BigNAS 超网采样得到的子网络;对于非 CNN 网络,有 ViT 和 DeiT,以及最近的基于 MLP 结构的 MLP-Mixer。总计 44 种典型的手工设计的网络模型和 1200 种超网采样出的子网模型,在实验中它们的训练设置都将被对齐。
  针对训练技巧这一因素,该研究选取了较为主流的一些技巧进行探究,有知识蒸馏、自监督训练、权重平均、权重重参数化、标签平滑、Dropout、数据增强、大规模预训练、对抗训练、不同的优化器等。在实验中选取部分模型结构,通过比较使用某训练技巧进行训练和不使用该技巧训练对模型鲁棒性的影响来探究该训练技巧对鲁棒性起到的作用。
  为了全面完整地对模型鲁棒性进行评估,该研究选用了三种不同类型的噪音来对模型进行测试:对抗噪音、自然噪音、系统噪音。其中,对于对抗噪音选用了 8 种主流的对抗攻击方法,覆盖了不同的攻击强度和黑白盒攻击:FGSM、PGD-
  、AutoAttack-
  、
  、以及基于迁移的对抗攻击;对于自然噪音选用了 4 种主流的数据集:ImageNet-C、ImageNet-P、ImageNet-A、ImageNet-O;对于系统噪音选用了 ImageNet-S 数据集。此外,对于每种噪音都选择了相应的评估指标进行测评。
  RobustART 整体采用了层次化和模块化的框架设计,如下图所示,底层使用了 Pytorch 作为深度学习框架,并使用了 FoolBox、ART 等对抗工具库,且提供了多种数据集的支持。用户接口层次主要分为 Models、Training、Noises、Evaluation 这四大模块,每个模块提供了可调用的 API 供用户使用。通过使用 RobustART 的开源框架,用户可以(1)方便地使用提供的代码复现结果以及进行更加深入的分析;(2)通过提供的 API 添加新模型、训练技巧、噪音、评估指标等来进行更多的实验;(3)使用提供的预训练模型和研究结果进行下游的应用或者作为比较的基线。
  三、实验结果与分析
  3.1 模型结构对于鲁棒性的影响
  该研究首先选用了来自 13 个模型族的共 44 个典型的网络模型,使用对齐的实验设置对它们进行训练,然后对它们进行鲁棒性评估。下面两张图分别展示了所有模型在各种噪音下模型大小与鲁棒性的关系以及在面对迁移性对抗攻击时的热力图:
  通过图中各模型间鲁棒性的对比,可以看到: 对于几乎所有模型族(除了 MobileNetV2 等轻量化的模型族),增大模型大小能够同时提高泛化性以及对于对抗、自然、以及系统噪音的鲁棒性。 在模型大小类似的情况下,不同的模型结构可能有着截然不同的鲁棒性,这也意味着模型结构对于鲁棒性是非常重要的。具体的,ViT、MLP-Mixer 这类非 CNN 的模型在对抗噪音下表现更为优秀,而传统的 CNN 模型(如 ResNet、ResNeXt)则对于自然噪音和系统噪音更加鲁棒。 不同的噪音对于最终鲁棒性的评估结果影响很大,对于同一类型的噪音(如对抗噪音),不同的攻击方法可能导致不同的模型鲁棒性结果;甚至对于同一种对抗攻击,不同的噪音大小也可能会导致鲁棒性评估结果的不同。
  除了 44 个典型的网络模型,该研究还从 BigNAS 超网中采样了 1200 个子网,探究子网模型参数(如模型大小、输入图片大小、深度、卷积核大小等)对于鲁棒性的影响,如下图所示:
  可以看出模型大小、卷积核大小、模型最后一个 stage 的深度对于对抗鲁棒性有着正向的影响,而输入图片的大小则对对抗鲁棒性有负面的影响。
  3.2 训练技巧对于鲁棒性的影响
  该研究针对 10 余种特定的训练技巧,选取部分模型来评估有 / 无这些技巧对于模型的鲁棒性影响,部分结果如下图所示:
  从实验结果可以得出较多有意义的结论,如: 对抗训练:对于 CNNs,对抗训练提升了模型的对抗鲁棒性,然而降低了 Clean 数据集上的泛化性以及对于自然噪音和系统噪音的鲁棒性;该研究还首次发现了对于 ViTs 和 MLP-Mixer,对抗训练显著提升了 Clean 数据集上的泛化性以及对于所有三种噪音的鲁棒性,这对于对抗训练在真实场景中的实际应用有重大意义。 ImageNet-21K 预训练:该技巧提升了模型对于自然噪音的鲁棒性,却降低了对于对抗噪音和系统噪音的鲁棒性。 数据增强:该技巧降低了模型在对抗噪音上的鲁棒性,并在大多数情况下提升了模型对于自然噪音的鲁棒性。 AdamW 优化器:相比于基础的 SGD 优化器,该技巧略微降低了 ResNet、RegNetX 等大型模型的鲁棒性,却明显提升了 MobileNetV3 和 ShuffleNetV2 等轻量化模型在 Clean 数据集上的泛化性以及对于所有三种噪音的鲁棒性。
  四、展望
  在深度学习模型大量应用于人脸识别、自动驾驶等关键领域的今天,人们越发意识到人工智能安全的重大意义,而人工智能安全相关的研究和标准也亟待进一步推进和落实。本研究所提出的 RobustART 为我们带来了一个全面、标准的模型鲁棒性评估的开源平台和框架,并在此基础上进行了大量的实验研究,得出了大量有启发性的结论。这将帮助我们进一步认识和理解模型鲁棒性与结构、训练技巧之间的关系,让我们对鲁棒性有了更加全面深入的认识。该研究将与现有的面向防御的鲁棒性 benchmark 互补,共同构建完善的鲁棒性基准,推动鲁棒性研究生态系统在机器学习社区中的长远发展。

流浪地球中的BUG地球已经不再自转,流浪还有什么用?我们大多数人都经历过搬家,拿走自己的东西就好了,没见过还要把房子一起搬走的。流浪地球就犯了一个这样的错误。一旦离开了太阳系的稳定环境,地球就将一文不值。当太阳面临氦闪的时候,人类竟祝融号火星车具体有多大,跟美国毅力号放一块比一比就知道了天问一号探测器已经把祝融号火星车送到火星了,如今祝融号也已经发回了第一组照片,这比国外预想的时间要早很多,证明我国技术的过硬。其实在我国之前美国早就把毅力号登上火星了,两者都是本国5月26日将迎来一场月全食这是2021年5月26日19时18分40秒,月全食食甚时的模拟图。图源NASASVS5月26日将迎来一场月全食,天气良好的话,除了中国新疆极西部,西藏极西部极小区域外,全国绝大多数如何能在月球上窥探地球?NOM4D计划的第二阶段内容,是探索在月球安装100米直径射频反射天线。射频反射天线,广泛应用于雷达和通信领域,而天基射频天线一般用于通信卫星数据通信中继卫星上。在各国已有的登月行我国天文学家新发现135颗O型星近日,中国科学院国家天文台研究团队在LAMOST(郭守敬望远镜)光谱数据中筛选出209颗O型星,其中135颗是最新发现的。这是迄今为止利用单一光谱数据库,一次性新发现银河系O型星数倒计时2天!2021首次月食即将到来,你准备好了吗?我是一名星空探索者,致力于和广大天文爱好者一起,探索星空的奥秘。5月26日,一场天宇奇观将在夜空上演。届时,众多天文爱好者可以一睹本年度首次月全食的佳容。让我们一起来了解一下月全食我来解密三星堆我来揭秘三星堆秘题1三星堆文明是外星文明吗?认为三星堆是外星文明,主要是因为三星堆出土的铜像看上去不像是地球人。其实,之所以不像地球人,是因为他们并不是人的外貌。在铜像外还有一层脸宇宙中最快的光速,并非无法超越?我们生活的宇宙中,有一些必须遵守的物理法则。爱因斯坦的相对论,规定了一个全新的法则存在质量的物体,都无法到达光速。然而宇宙的尺度过于浩瀚,即使人类可以到达光速,想到横穿银河系也需要法媒文章中国埋头苦干实现太空雄心法国回声报网站5月22日发表题为中国如何在两年内确立为空间大国的文章,作者为弗洛里安莫雄。全文摘编如下中国在太空探索史上迈出了一大步。5月15日,该国几乎是悄悄地宣布,其探测器携祝金星应该被锁定,一侧面向太阳,那为什么实际不是这样?当太空中的两个物体靠得足够近时,它们的重力会起到刹车的作用,使它们减速,直到一个人的旋转锁定以匹配它的轨道。这种潮汐锁定意味着较小天体的一侧永久面向较大天体这就是为什么我们只能从地Peregrine月球登陆器或将成为美国自阿波罗计划以来重返月球的第一步Astrobotic终于公布了其Peregrine月球登陆器的飞行模型。这家专注于太空的公司在2022年4月20日周三公布了该登陆器。这是今年晚些时候将真正飞往月球的模型。Astr
梦想和奋斗你只是看起来很努力看起来每天熬夜,却只是拿着手机点了无数个赞看起来起那么早去上课,却只是在课堂里补昨天晚上的觉看起来在图书馆坐了一天,却真的只是坐了一天看起来去了健身房,却只是在和帅哥美女搭讪。你只原则极简孟子什么样的人生01人生要达到一定的高度善是德行的高度,信是人际关系的高度,美是情感与精神的高度,大是人格与智慧的高度,神是超拔超越的高度。人生在世之要务,就是达到一定的高度。可欲之谓善,有诸己之要不,换个老婆试试?最近,前世界首富比尔盖茨的离婚事件传播太热,今天几个朋友吃饭的时候就说到这个话题。其实我们并非关注比尔盖茨离婚了,仅仅是他世界首富的名头。说白了,茶余饭后的谈资罢了。同样的,网络上10个时刻,给你脸上带来真正的笑容人类一直在寻求和平,只有在内心得到满足时,他才会感到快乐。每个人都有不同的幸福标准。对一些人来说,即使是很小的事情也意味着很多,而对一些人来说,幸福的质量是独一无二的。非常特别的事徐静蕾越磨砺,越青春她是演员,与章子怡赵薇周迅并称中国四大花旦。她是导演,先后执导过5部电影,获得国内外电影节大奖。她是博客女王,被誉为中国博客第一人。她还是徐主编,创办电子杂志,用行动证明腹有诗书气王健林再坚持一会儿他是敢为天下先的地产大亨他是与马云对赌一个亿的冒险家他是中国的房地产首富,三年内两次荣登胡润房地产富豪榜榜首他更是以集团形式捐款超过28亿的慈善家。他胆识过人,霸气外露,是血气方刚李亚鹏心有所愿,行而成力1998年夏天的一个夜晚,一个年轻人走进了一个叫奥林匹克饭店的地方,参加一部电视剧的试镜,导演告诉他说我们这部戏是一个青春偶像剧,讲的是一群大学生,他们有着最牢固的友情,有着最美好520特辑明天,今天将变成昨天昨天是过去,明天是未来,但今天是一件礼物。这就是为什么它被称为现在。昨天他看见她从美术馆大楼的后面走出来,然后转向他。再走100米左右,她就会像往常一样热情地拥抱他。此刻,他就站在从早茫到晚1你住在这里。2好吧,再确切一点。3这是短暂的半梦半醒之间。你不确定这是哪一天,不确定自己到底是谁。你处在幸福的未知之中,不用去管白天的责任和问题。你甚至还没有变成醒来后的自己然后俞敏洪相信奋斗的力量他不是高富帅,却意外地娶到了系花他两次高考落榜,被北大踹出校门,却成为今天年轻人最热爱的万能导师他是一介农民穷小子,却成为今天全中国最富有的老师他不是天才,甚至自诩为蠢笨的蜗牛,却赖声川走别人不走的路他是华语世界最著名的舞台剧导演,29年前创立的表演工作坊不仅挽救了濒临灭绝的台湾相声,更创造了舞台剧的奇迹。他编导的舞台剧暗恋桃花源从台湾地区到大陆,27年传承演绎经久不衰。在创作