范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

ResNet假说被推翻?Reddit小哥这么多年都没人搞懂Ta的原理

  来源:Reddit
  编辑:LRS  【新智元导读】ResNet 发布至今已经有六年多了,但它的工作原理至今仍然是个迷。最近Reddit 上一个网友发帖表示,是否ResNet的创新出发点就有问题?
  2015年,一个里程碑的神经网络模型ResNet发布。因为在过深的网络训练会产生梯度消失和梯度爆炸,并且训练过深的网络中会出现准确率下降的问题,而RestNet 采用残差连接很容易让研究人员训练出上百层甚至上千层的网络。
  在ResNet论文观察到的退化问题(degradation problem),即34层的网络在整个训练过程中比18层的网络具有更高的训练误差,但18层网络的解空间显然是34层网络的子空间。
  一个很自然的假设是这个问题和RNN 网络中观察到的梯度消失问题(Vanishing Gradient Problem)相同,也是长短时记忆网络(Long-Short Term Memory Networks, LSTM)主要改进的问题。
  但论文的作者Kaiming 大神当时并不这么认为,他在论文中写道
  「我们认为这种优化困难不太可能是由梯度消失引起的,因为这些普通神经网络使用 BN 进行训练,确保前向传播的信号具有非零方差可以缓解这个问题。我们还验证了反向传播的梯度,结果可以看到表现出 BN 的结果也很正常。因此,前向或后向的信号都不会消失。事实上,34 层的普通网络仍然能够达到有竞争力的精度,这表明这个解决方法在一定程度上是有效的。我们推测普通神经网络的收敛速度可能呈指数级低,这会影响训练误差的减少。未来将研究这种优化困难的原因。」
  这个论点也被网友称为「ResNet 假说」,而关于ResNet 假说的正确性最近又在Reddit 上引起了热议。
  提问者认为,最近的许多论文和教程似乎都假设 ResNet 假设是错误的,论文的作者大多添加了跳跃连接以「改进梯度传播流」,并引用了原始的 ResNet 论文来支持这一主张。虽然添加跳跃连接会改善梯度流是很有道理的,但首先是什么导致了退化问题依然没有答案。
  跳过连接通过改进梯度流来解决退化问题的想法似乎与 ResNet 假设明显矛盾;那么这个想法是从哪里来的呢?ResNet 假说是否被证伪了?
  有网友从技术角度认为并没有完整的分析,关于 ResNets 的工作原理主要存在三种相互竞争的假说,并且给出了相关的论文:
  1、进行了迭代细化(iterative refinement)
  这篇论文从分析和实证两方面研究了resnet。研究人员通过显示残差连接自然地鼓励残差块的特征在从一个块到下一个块的过程中沿着损失的负梯度移动,从而在resnet中形式化了迭代细化的概念。
  此外,实证分析表明,resnet能够进行表征学习和迭代优化。通常,Resnet块倾向于将表示学习行为集中在前几层,而更高层执行特征的迭代细化。
  最后,研究人员观察到共享残差层会导致表示爆炸和反直觉的过拟合,文中提出了一个简单的策略可以帮助缓解这个问题。
  2、指数级的集成模型
  这项工作中对残差网络提出了一种新颖的解释:这个模型可以被视为许多不同长度路径的模型的集成。此外,残差网络似乎通过在训练期间仅利用短路径来实现非常深的网络。为了支持这一观察,研究人员将残差网络重写为一个显式的路径集合。
  研究结果表明,这些路径表现出类似整体的行为并不强烈地相互依赖。并且大多数路径都比人们预期的要短,在训练期间也只需要短路径,因为较长的路径不会产生任何梯度。
  例如,具有 110 层的残差网络中的大部分梯度来自仅 10-34 层深的路径。这篇论文的结果认为Resnet 能够训练非常深的网络的关键特征之一是残差网络通过引入可以在非常深的网络范围内携带梯度的短路径来避免梯度消失问题。
  3、原始论文中提到的,梯度传播过程被改进了
  答主也看过一些神经切线内核(neural tangent kernel stuff)的东西,但他仍然不明白其中的原理,并且他也认为没有人真正坐下来试图弄清楚真正的解释是什么。
  不过他有一个想法,可以通过考虑具有重叠跳过连接(overlapping skip connections)的网络来测试集成理论(ensemble theory),这些网络具有集成论文中定义的最大多样性(maximal multiplicity)。并且可以改变跳过连接长度的同时保持多重性不变,但还没有人这样做过任何与此有关的实验。
  还可以尝试的另一件事是使 Resnets 的梯度流保证完美而无需跳过连接的情况,但是当用户添加残差连接时,大多数此类事情都无法达到完美的情况,因此必须考虑新的方式来达成完美梯度传播。
  另一个高赞网友表示,捷径连接(shortcut connections)改善了损失情况,能够使优化变得更加容易,有很多研究结果都支持这一点。
  The Shattered Gradients Problem: If resnets are the answer, then what is the question? (ICML 2017) 表明 ResNet 具有更稳定的梯度。
  Visualizing the Loss Landscape of Neural Nets (NeurIPS 2018) 再次表明 ResNets 具有更平滑的损失表面。
  并且也有研究表示,可以不需要捷径来学习有效的表示,但优化会更难。例如,Fixup Initialization: Residual Learning without Normalization (ICLR 2019) 表明,如果你对初始化结果进行多次调整,那你可以在没有残差连接的情况下训练 ResNets 以获得不错的结果。
  RepVGG:Making VGG-style ConvNets Great Again (CVPR 2021) 表明可以在训练后移除捷径并仍然拥有性能不错的网络。
  但这仍然符合 ResNet 的原始想法:将每个块初始化为一个identify function,因此最初看起来好像参数实际上并不存在,也对网络训练没有产生任何影响,然后逐渐让块的效果发挥作用。
  也有网友认为标题的用词实在不准确,因为debunked 相当于直接给Resnet判定为错误,提问者也表示自己确实是标题党了,但标题无法更改了。
  参考资料:
  https://www.reddit.com/r/MachineLearning/comments/px3hzd/d_has_the_resnet_hypothesis_been_debunked/

这不是小说,妻子一首歌唱千遍唤醒失忆8年丈夫,诠释爱之坚这不是小说,妻子一首歌唱千遍唤醒失忆8年丈夫,诠释爱之坚山东桓台,一位叫高庆美的女子本来拥有一个幸福美满的小家庭,可是8年前一场突如其来的车祸,让这个幸福的小家庭步入了苦海。高庆美终于找到你!!这不就是,我记忆里的,那首歌专辑Time图片来自网易云截图专辑介绍MySoul,也就是网上流传的忧伤还是快乐,是July最有名的音乐,夹带着淡淡的悲伤缓缓道来,然后节奏开始逐渐变得欢快,纵使几个重复的音乐也丝国乒队奇奇怪怪的团魂,错位图搞笑,马龙许昕孙颖莎太可爱了许昕发微博说你们笑够了吗,哈哈,当然没有,许昕这个错位图太好笑了。张继科许昕配合默契男团获得冠军后本来是手指张开庆祝,因为马龙做了一个握拳的手势,许昕和樊振东以及教练全部改成握拳姿文章独自开车就医,当众痛到呲牙咧嘴,现状有些可怜提起文章,大部分人对他的第一印象就是出轨。最近几天,有媒体拍到文章独自开车就医,前往上海某医院看病。37岁的文章穿着简单白色T恤,戴着棒球帽和墨镜遮挡面容超低调。他停下车后,一瘸一哭晕在影院,他走下神坛,我双手赞成今天周六,肉叔没睡懒觉。起个大早走进久违的电影院,看了广州疫情后的第一场电影。需要补的片子太多,但我选了刚上映的中国医生。对于疫情刚解封的广州居民来说,它有着特殊意义。今天是片子上读史记之八从刎颈之交到你死我活张耳和陈馀的故事从淮阴侯韩信起,汉初重臣名将萧何张良曹参陈平周勃周亚夫已一一致敬,本来想写写刘邦项羽和吕雉的故事,但这三位汉初大咖每个人的人生都精彩无比,可因为担心写不好,最终决定还是先易后难吧,照搬陈芊芊?在舒适圈疯狂踩雷?这次她演甜妹,观众不买账了前几天肉叔聊过赵露思。评论区里大家对她褒贬不一,但有一点倒是出奇地一致她的新剧,是真的看不下去目前播了三分之二,豆瓣4。1分,努把力可以冲年度烂剧的程度。抱着我不入地狱谁入地狱的心车速120,今年最离谱综艺,不打码没法看说到国内的相亲节目。或许你能想起来的就是非诚勿扰恋梦空间心动的信号?这些基本都被诟病有剧本太套路。说白了,就是满足不了观众的猎奇心理。而网飞刚上线的一档恋爱真人秀,肉叔直呼好家伙让这新恋爱综艺,表面是相亲,实际上还搞选妃操作?婚恋这流量密码,基本被芒果荔枝俩水果台玩透。但B站也加入这场混战,是我万万没料到的。这档首发恋综,要用组团相亲试恋闯关的形式,帮助年轻人寻找90分爱情。老实说,多少分,Idontc事情发生了快半个月阿里CEO张勇震惊气愤羞愧的回应细思极恐震惊气愤羞愧张勇在阿里内网帖子里为此事中各级主管的冷漠和没有及时处理道歉。尽管警方仍在调查阶段,但阿里内部认为,事情在员工反馈后没有得到迅速的响应处理,存在重大问题。张勇称,从我开TVB最新网红综艺,一出手就引起热烈反响!更有新晋流量丁真出镜你能想象吗?世界上有这么一种神奇的交通工具天梯。在几乎九十度垂直的悬崖上,用藤绳弄了一条简陋的梯子。要上山顶,就要这么垂直着爬个一千米左右现在,这里已经建了新的天梯。但依然令人惊心
新晋00后晶女郎,酷似邱淑贞关之琳合体,翻拍经典会火吗?对于目前圈内的著名导演来说,值得称赞的不仅仅是拍摄出许多知名的影视作品,另外很重要的是这些导演也捧红了如今许多一线女星,娱乐圈内的顶流明星都把导演当做是自己的恩人,自然地位就提高了64岁陈道明看到84岁牛犇,立马屈膝弯腰,细节彰显涵养和品质陈道明是很优秀的演员,在中国演艺圈中,陈道明的地位是很高的,因为从他开始拍戏时,就没有拍过烂片,有他在的地方就是品质保障,之所以能够保持这样的状态几十年,不仅仅是有精湛的演技,还在东方卫视官宣德云社郭德纲于谦正式加盟东方卫视春晚德云社与天津卫视联合举办津云相声春晚,正彩排录制,农历大年二十九在天津卫视播出,引起大家关注。在节目录制过程中,相声圈大伽神秘李伯祥等多名退为幕后老演员加入,闪亮登场,给这台晚会增山东四胞胎冰清玉洁12岁集体离家学艺,上同所大学住同间宿舍山东有个四胞胎,四个女生不仅长相一致,还都能歌善舞,只要上街,必定收获百分百的回头率不仅如此,四人还考上同一所学校,住在同一个宿舍,成为学校一抹亮丽的风景。这四胞胎就是申家的冰清玉7次提名6次败北,周星驰到底差在哪?看他当年的对手你就明白了人们常说喜剧是生活的调味剂,足见这类型的影视作品在业内确实是有着极高的地位。而且,娱乐圈的许多明星大咖也都曾不止一次地表示过,喜剧的确是各类影视中最难演的一种。因此,凡是能够在喜剧侯耀文曾蒙冤替相声同行背黑锅!没想到却意外得侯宝林口传心授侯宝林,推动相声走向文明的语言学家。新中国成立后,他成为相声改进小组的重要成员,提倡净化相声语言改良传统相声提高演员的政治文化水平,为中国相声艺术的发展做出了卓越贡献。同时,他又是徐洋直言郑爽性格随意,一见面就被她吐槽,像是个行走的段子手转眼小年已过,大年夜也是近在眼前。定档大年初一的春节档电影们也是马不停蹄地在各地路演宣传中,毕竟在往年的传统里,每个年度的最高票房电影通常就是出现在春节档。所以各部电影为了春节档里评大片智取威虎山徐克如何讲述革命往事?徐克版的智取威虎山取得了口碑票房双丰收,无形中让同期上映的姜文的一步之遥黯然失色,个中滋味,姜文恐怕如鱼饮水,冷暖自知。因为和在香港及海外长大的徐克不同,姜文是在智取威虎山及其他红徐峥致歉能否挽回口碑?54岁的巩俐还行吗?大年三十要见分晓了撰文妙人编辑部老赫贺岁档临近,硝烟四起。先是唐探3预售破纪录,姜子牙凭借拜年海报上热搜,紧接着大热影片囧妈夺冠(原名中国女排)突然宣布提档。囧妈的导演兼主演徐峥先发的微博,宣布提档杨澜带着富豪丈夫现身,头发花白很显老近日,杨澜带着自己的富豪丈夫一同现身,参加了赵忠祥的遗体告别仪式。此次亮相的杨澜上身穿一件黑色大衣,脖子里围着一条灰色围巾,看上去非常正式。而杨澜的富豪老公此次也罕见露面,上身同样孙俪李易峰新剧敲定34月轮番上档,东方卫视春季剧单太豪华关于2019年的爆剧剧单盘点已经出炉,小欢喜我的真朋友带着爸爸去留学等作品悉数上榜也让东方卫视的剧场成为关注焦点。2020年伊始,各大卫视的备播剧单悉数开始曝光,又一轮的角逐即将开