模型难复现不一定是作者的错,最新研究发现模型架构要背锅
在不同初始化条件下,同一神经网络经过两次训练可以得到相同的结果吗?CVPR2022的一篇研究通过将决策边界(DecisionBoundary)可视化的方法,给出了答案有的容易,有的很难。
例如,从下面这张图来看,研究人员就发现,ViT比ResNet要更难复现(两次训练过后,显然ViT决策边界的差异更大):
研究人员还发现,模型的可复现性和模型本身的宽度也有很大关联。同样,他们利用这种方法,对2019年机器学习最重要的理论之一双下降(DoubleDescent)现象进行了可视化,最终也发现了一些很有意思的现象。
来看看他们具体是怎么做的。更宽的CNN模型,可复现性更高
深度学习中的决策边界,可以用来最小化误差。简单来说,分类器会通过决策边界,把线内线外的点归为不同类。在这项研究中,作者从CIFAR10训练集中选择了三幅随机图像,然后使用三次不同的随机初始化配置在7种不同架构上训练,绘制出各自的决策区域。
从中我们可以发现:左边三个和右边四个差异很大,也就是说不同架构之间的相似性很低。再进一步观察,左边的全连接网络、ViT和MLPMixer之间的决策边界图又不太一样,而右边CNN模型的则很相似。在CNN模型中,我们还可以观察到不同随机数种子之间明显的的重复性趋势,这说明不同初始化配置的模型可以产生一样的结果。
作者设计了一种更直观的度量方法来衡量各架构的可复现性得分,结果确实验证了我们的直观感受:
并发现更宽的CNN模型似乎在其决策区域具有更高的可复现性,比如WideRN30。以及采用残差连接结构的CNN模型(ResNet和DenseNet)的可复现性得分比无此连接的模型要略高(VGG)。此外,优化器的选择也会带来影响。在下表中,我们可以看到SAM比标准优化器(如SGD和Adam)产生了更多可重复的决策边界。不过对于MLPMixer和ViT,SAM的使用不能总是保证模型达到最高的测试精度。
有网友表示好奇,如果通过改善模型本身的设计,能改变这种现象吗?对此作者回应称,他们已经试着调整过ViT的学习率,但得到的结果仍然比ResNet差。
可视化ResNet18的双下降现象
双下降(DoubleDescent)是一个有趣的概念,描述是测试训练误差与模型大小的关系。在此之前,大家普遍认为参数太少的模型泛化能力差因为欠拟合;参数太多的模型泛化能力也差因为过拟合。
而它证明,两者的关系没有那么简单。具体来说:误差会先随着模型的增大而减小,然后经过模型过拟合,误差又增大,但随着模型大小或训练时间的进一步增加,误差又会再次减小。
作者则继续使用决策边界方法,可视化了ResNet18的双下降现象。他们通过宽度参数(k:164)的改变来增加模型容量。训练出的两组模型,其中一组使用无噪声标签(labelnoise)的训练集,另一组则带有20的噪声标签。最终,在第二组模型中观察到了明显的双下降现象。
对此作者表示:线性模型预测的模型不稳定性也适用于神经网络,不过这种不稳定性表现为决策区域的大量碎片。
也就说,双下降现象是由噪声标签情况下决策区域的过度碎片引起的。具体来说,当k接近达到10(也就是插值阈值)时,由于模型此时拟合了大部分训练数据,决策区域被分割成很多小块,变得混乱和破碎,并不具备可重复性;此时模型的分类功能存在明显的不稳定性。而在模型宽度很窄(k4)和很宽(k64)时,决策区域碎片较少,有高水平的可重复性。为了进一步证明该结果,作者又设计了一个碎片分数计算方法,最终再次验证上图的观察结果。
模型的可复现性得分如下:
同样可以看到,在参数化不足和过参数化的情况下,整个训练过程的可复现性很高,但在插值阈值处会出现故障。有趣的是,即使没有噪声标签,研究人员发现他们设计的量化方法也足够敏感,可以检测到可复现性的细微下降(上图蓝线部分)。
目前代码已经开源,要不要来试试你的模型是否容易复现?
论文地址:
https:arxiv。orgabs2203。08124
GitHub链接:
https:github。comsomepagodbViz
学生制订暑期规划工作计划计划一星期打两次球。增加运动,提高体能。也可以听音乐等,做自己有兴趣的事。一、计划实施的目标:1。提高自己在语文、数学等方面的学习能力。2。提高身体素质。加强……
陈睿卸任动画公司哆啦哔梦法定代表人,B站回应称属正常公司行为IT之家12月16日消息天眼查数据显示,12月11日,B站的运营主体上海幻电信息科技有限公司控股的哆啦哔梦(上海)文化传播有限公司(哆啦哔梦)发生工商变更,B站董事长陈睿卸任公……
关于朝花夕拾读书心得400字7篇《朝花夕拾》是伟大的作家鲁迅的一部经典作品,读过后让每位读者感触很多,耐人寻味。下面小编为大家带来朝花夕拾读书心得400字,欢迎大家阅读!朝花夕拾读书心得400字篇1……
称水印宝去水印行为侵权,快手公司起诉不正当竞争据海淀法院网官方消息,因认为北京鹏图助梦科技有限公司开发并运营的水印宝App中去水印行为构成侵权,北京快手科技有限公司以不正当竞争为由将该公司诉至法院,要求停止侵权、消除影响并……
食品安全调查报告范本基本情况调查报告、典型经济调查报告、新生事物调查报告、揭露问题调查报告。下面是挑选较好的关于食品安全调查报告范本,供大家参考。一、食品安全基本状况(1)食品安全监管……
海贼王被抓,全国最大制售微信外挂软件案破获据微信110消息,近日广州市公安机关开展净网11号专案收网行动,在微信团队的配合下,成功打掉一个制作、倒卖、使用微信外挂软件,从事微信帐号买卖、养号业务的特大新型黑客犯罪团伙。……
高三学生上学期期末评语高中学生正处于生理心理发育阶段、世界观人生观价值观等认知系统还未定型的阶段,写好学生的评语很重要;下面是有高三学生上学期期末评语,欢迎参阅。高三学生上学期期末评语1。你思……
特斯拉市值已超过760亿美元,腾讯大赚一笔12月25日消息,据国外媒体报道,电动汽车厂商特斯拉的股价从上周三开始接连创下新高,目前市值已超过750亿美元,其CEO马斯克的身家也因股价上涨而增至268亿美元。而特斯……
央视曝光金融App投资骗局小心!这类支付平台不靠谱IT之家12月24日消息随着区块链等新兴概念的出现,越来越多的不法分子开始将目光投向了金融App诈骗。据央视媒体报道,近日广东省警方便捣毁了两个非法第四方支付平台,一起来看一下……
企业微信3。0降临,腾讯阿里巴巴ToB战事升级2019年是企业微信动作频繁的一年,在C端增长见顶的背景下,产业互联网的企业服务赛道,硝烟升级。12月23日,企业微信在广州发布3。0版本和新的产品战略。新版本主要有两个核心变……
2019,东南亚创业游戏规则巨变去东南亚买房!月月欣喜的说道,我买了芭提雅的公寓,现在就在走手续了。像月月一样去东南亚买房的人不在少数,基本上都是朋友带朋友。月月是个上海土生土长的小姑娘,之前一直在创投……
司法部门心得体会以人为本、执法为民、公正司法,维护好人民权益是审判工作的根本出发点和落脚点。接下来就跟品学网小编一起去了解一下关于司法部门心得体会吧!司法部门心得体会篇【1】20x……