二值化网络如何训练？这篇ICML2021论文给你答案

　　机器之心专栏
　　机器之心编辑部
　　这篇来自 CMU 和 HKUST 科研团队的 ICML 论文，仅通过调整训练算法，在 ImageNet 数据集上取得了比之前的 SOTA BNN 网络 ReActNet 高1.1% 的分类精度。
　　二值化网络（BNN）是一种网络压缩方法，把原本需要 32 bit 表示的神经网络参数值和激活值都二值化到只需要用 1 bit 表示，即 -1/+1 表示。
　　这种极度的压缩方法在带来优越的压缩性能的同时，会造成网络精度的下降。
　　在今年的 ICML 会议中，一篇来自 CMU 和 HKUST 科研团队的论文仅通过调整训练算法，在 ImageNet 数据集上取得了比之前的 SOTA BNN 网络 ReActNet 高 1.1% 的分类精度，最终的 top-1 accuracy 达到 70.5%，超过了所有同等量级的二值化网络，如下图所示。
　　这篇论文从二值化网络训练过程中的常见问题切入，一步步给出对应的解决方案，最后收敛到了一个实用化的训练策略。接下来就跟着这篇论文一起看看二值化网络（BNN）应该如何优化。
　　论文地址：https://arxiv.org/abs/2106.11309代码地址：https://github.com/liuzechun/AdamBNN
　　首先，BNN 的优化器应该如何选取?
　　可以看到，BNN 的优化曲面明显不同于实数值网络，如下图所示。实数值网络在局部最小值附近有更加平滑的曲面，因此实数值网络也更容易泛化到测试集。相比而言，BNN 的优化曲面更陡，因此泛化性差并且优化难度大。
　　这个明显的优化区别也导致了直接沿用实数值网络的 optimizer 在 BNN 上表现效果并不好。目前实数值分类网络的通用优化器都是 SGD，该论文的对比实验也发现，对于实数值网络而言，SGD 的性能总是优于自适应优化器 Adam。但对于 BNN 而言，SGD 的性能却不如 Adam，如下图所示。这就引发了一个问题：为什么 SGD 在实数值分类网络中是默认的通用优化器，却在 BNN 优化中输给了 Adam 呢？
　　这就要从 BNN 的特性说起。因为 BNN 中的参数值（weight）和激活值（activation）都是二值化的，这就需要用 sign 函数来把实数值的参数和激活值变成二值化。
　　而这个 Sign 函数是不可导的，所以常规做法就是对于二值化的激活值用 Clip 函数的导数拟合 Sign 函数的导数。
　　这样做有一个问题就是，当实数值的激活值超出了 [-1，1] 的范围，称为激活值过饱和（activation saturation），对应的导数值就会变为 0。从而导致了臭名昭著的梯度消失（gradient vanishing）问题。从下图的可视化结果中可以看出，网络内部的激活值超出[-1, 1] 范围十分常见，所以二值化优化里的一个重要问题就是由于激活值过饱和导致的梯度消失，使得参数得不到充分的梯度估计来学习，从而容易困局部次优解里。
　　而比较 SGD 而言，Adam 优化的二值化网络中激活值过饱和问题和梯度消失问题都有所缓解。这也是 Adam 在 BNN 上效果优于 SGD 的原因。那么为什么 Adam 就能缓解梯度消失的问题呢？这篇论文通过一个构造的超简二维二值网络分析来分析 Adam 和 SGD 优化过程中的轨迹：
　　图中展示了用两个二元节点构建的网络的优化曲面。(a) 前向传递中，由于二值化函数 Sign 的存在，优化曲面是离散的，(b) 而反向传播中，由于用了 Clip(−1, x, 1)的导数近似 Sign(x)的导数，所以实际优化的空间是由 Clip(−1, x, 1)函数组成的， (c) 从实际的优化的轨迹可以看出，相比 SGD，Adam 优化器更能克服零梯度的局部最优解，(d) 实际优化轨迹的顶视图。
　　在图 (b) 所示中，反向梯度计算的时候，只有当 X 和 Y 方向都落在[-1, 1] 的范围内的时候，才在两个方向都有梯度，而在这个区域之外的区域，至少有一个方向梯度消失。
　　而从下式的 SGD 与 Adam 的优化方式比较中可以看出，SGD 的优化方式只计算 first moment，即梯度的平均值，遇到梯度消失问题，对相应的参数的更新值下降极快。而在 Adam 中，Adam 会累加 second moment，即梯度的二次方的平均值，从而在梯度消失的方向，对应放大学习率，增大梯度消失方向的参数更新值。这样能帮助网络越过局部的零梯度区域达到更好的解空间。
　　进一步，这篇论文展示了一个很有趣的现象，在优化好的 BNN 中，网络内部存储的用于帮助优化的实数值参数呈现一个有规律的分布：
　　分布分为三个峰，分别在 0 附近，-1 附近和 1 附近。而且 Adam 优化的 BNN 中实数值参数接近 - 1 和 1 的比较多。这个特殊的分布现象就要从 BNN 中实数值参数的作用和物理意义讲起。BNN 中，由于二值化参数无法直接被数量级为 10^ -4 左右大小的导数更新，所以需要存储实数值参数，来积累这些很小的导数值，然后在每次正向计算 loss 的时候取实数值参数的 Sign 作为二值化参数，这样计算出来的 loss 和导数再更新实数值参数，如下图所示。
　　所以，当这些实数值参数靠近零值时，它们很容易通过梯度更新就改变符号，导致对应的二值化参数容易跳变。而当实值参数的绝对值较高时，就需要累加更多往相反方向的梯度，才能使得对应的二值参数改变符号。所以正如 (Helwegen et al., 2019) 中提到的，实值参数的绝对值的物理意义可以视作其对应二值参数的置信度。实值参数的绝对值越大，对应二值参数置信度更高，更不容易改变符号。从这个角度来看，Adam 学习的网络比 SGD 实值网络更有置信度，也侧面印证了 Adam 对于 BNN 而言是更优的 optimizer。
　　当然，实值参数的绝对值代表了其对应二值参数的置信度这个推论就引发了另一个思考：应不应该在 BNN 中对实值参数施加 weight decay?
　　在实数值网络中，对参数施加 weight decay 是为了控制参数的大小，防止过拟合。而在二值化网络中，参与网络计算的是实数值参数的符号，所以加在实数值参数上的 weight decay 并不会影响二值化参数的大小，这也就意味着，weight decay 在二值化网络中的作用也需要重新思考。
　　这篇论文发现，二值化网络中使用 weight decay 会带来一个困境：高 weight decay 会降低实值参数的大小，进而导致二值参数易变符号且不稳定。而低 weight decay 或者不加 weight decay 会使得二值参数将趋向于保持当前状态，而导致网络容易依赖初始值。
　　为了量化稳定性和初始值依赖性，该论文引入了两个指标：用于衡量优化稳定性的参数翻转比率（FF-ratio），以及用于衡量对初始化的依赖性的初始值相关度 (C2I-ratio)。两者的公式如下，
　　FF-ratio 计算了在第 t 次迭代更新后多少参数改变了它们的符号，而 C2I -ratio 计算了多少参数与其初始值符号不同。
　　从下表的量化分析不同的 weight decay 对网络稳定性和初始值依赖性的结果中可以看出，随着 weight decay 的增加，FF-ratio 与 C2I-ratio 的变化趋势呈负相关，并且 FF-ratio 呈指数增加，而 C2I-ratio 呈线性下降。这表明一些参数值的来回跳变对最终参数没有贡献，而只会影响训练稳定性。
　　那么 weight decay 带来的稳定性和初始值依赖性的两难困境有没有方法解离呢? 该论文发现最近在 ReActNet (Liu et al., 2020) 和 Real-to-Binary Network (Brais Martinez, 2020) 中提出的两阶段训练法配合合适的 weight-decay 策略能很好地化解这个困境。这个策略是，第一阶段训练中，只对激活值进行二值化，不二值化参数。由于实数值参数不必担心二值化参数跳变的问题，可以添加 weight decay 来减小初始值依赖。随后在第二阶段训练中，二值化激活值和参数，同时用来自第一步训练好的参数初始化二值网络中的实值参数，不施加 weight decay。这样可以提高稳定性并利用预训练的良好初始化减小初始值依赖带来的弊端。通过观察 FF-ratio 和 C2I-ratio，该论文得出结论，第一阶段使用 5e-6 的 weight-decay，第二阶段不施加 weight-decay 效果最优。
　　该论文综合所有分析得出的训练策略，在用相同的网络结构的情况下，取得了比 state-of-the-art ReActNet 超出 1.1% 的结果。实验结果如下表所示。
　　更多的分析和结果可以参考原论文。
　　参考文献：Helwegen, K., Widdicombe, J., Geiger, L., Liu, Z., Cheng, K.-T., and Nusselder, R. Latent weights do not exist: Rethinking binarized neural network optimization. In Advances in neural information processing systems, pp. 7531–7542, 2019.Liu, Z., Wu, B., Luo, W., Yang, X., Liu, W., and Cheng, K.- T. Bi-real net: Enhancing the performance of 1-bit CNNs with improved representational capability and advanced training algorithm. In Proceedings of the European conference on computer vision (ECCV), pp. 722–737, 2018b.Liu, Z., Shen, Z., Savvides, M., and Cheng, K.-T. Reactnet: Towards precise binary neural network with generalized activation functions. ECCV, 2020.Brais Martinez, Jing Yang, A. B. G. T. Training binary neural networks with real-to-binary convolutions. Inter- national Conference on Learning Representations, 2020.

日本敦促中国有序开发宇宙，这是怎么回事？科技袁人关注风云之声提升思维层次导读公众关注科技新闻的理由一般可以分为四类一类是国家排名，典型语言是超越了某某国家一类是终极目标，典型语言是星辰大海一类是基础设施，典型语言是工欲善其事必先小学读6年，对正常智力的人来说都是一种浪费科技袁人关注风云之声提升思维层次导读我们现在一个非常大的弊端，就是小学中学人为地压低了学习的速度，让许多人以为只能按照这种蜗牛一般的速度来学习。视频链接西瓜视频httpswww。ixigu美女精英在课上被骂死，心理学知识让你明白他们如何害人关注风云之声提升思维层次导读一个掌管40亿美元的精英女性为什么要参加这种精神受虐的培训？又怎么可能会被人活活骂死？8月14日，32岁的知名投资公司总经理魏某参加培训课程时，在一个被记住冷湖，这里有欧亚大陆最澄澈的星空，以及中国天文学的未来关注风云之声提升思维层次导读整个欧亚大陆上最优秀的天文台址，就在青海冷湖的赛什腾山。赛什腾山上拍摄的全天星轨（图片来源选址团队）在射电天文快速发展的同时，我国地基光学天文的发展却落中情局如何制造了谷歌（一）谷歌背后的深层国家CHS关注风云之声提升思维层次导读深层国家（deepstate）是近年来流行的词汇，通常指与公开政府有千丝万缕的联系，但又独立运作有自己的目标和议程的秘密团体。本文以谷歌的成立作案例，剖祝融号火星车成功对中国有什么影响？科技袁人关注风云之声提升思维层次导读以前，中国航天能不能胜过印度都是要争的。视频链接抖音链接httpswww。toutiao。coma1700880452956168本视频发布于2021年中情局如何制造了谷歌（四）军工科技的铁三角CHS关注风云之声提升思维层次导读高地论坛汇集了五角大楼关于监视秘密行动和非常规战争的先进战略采取大规模监视以便获取被认为可能威胁到美国利益的暴力和非暴力团体的详细信息，或提供机会对它们从军事和经济准备情况看对台湾统一时间点宁南山关注风云之声提升思维层次导读不打无准备之仗从军事和经济发展推算台湾统一的时间点。台湾注定是一个新闻上的热门词汇，最近两年美国打台湾牌的次数越来越多，台湾的蔡英文政府也非常配合，随着资本对科学家的收买以糖为例CHS关注风云之声提升思维层次导读作为中国舆论阵地一面旗帜的人民日报的评论版主编马立诚，在收取日本外务省资金为日本人说话之后（对日关系新思维脱离反日日本不必向中国谢罪），还能逍遥度日，无人才转移是科技成果转化最重要的模式中国如何领导世界（三）关注风云之声提升思维层次导读特区建设已经40多年了，深圳应该在科技创新上反哺内地，而不是把对内地和全球科技研发的成果敲骨吸髓作为永久性的成功经验。最近刚刚看到一篇讨论深圳科技创新经通晓当代所有科学文明成就中国如何领导世界（六）汪涛关注风云之声提升思维层次导读为什么通晓能力是中华文明真正复兴不可缺少且最为重要的能力之一？很可喜的是，纯科学（第三代科学）被越来越多的人了解和认可，包括科学界众多权威的学者和专家。

<<<<<<－>>>>>>

双子座流星雨将至，12月14日迎来极大期北半球三大流星雨之一双子座流星雨将于12月4日进入活跃期，并在12月14日迎来极大。天文专家提示，极大期前半夜观测会受月光影响。不过极大期的流星数量几乎会持续一整天，因此，下半夜天洞察号洞察到火星地下200米来源科技日报洞察号洞察到火星地下200米进一步揭露红色星球深处地质历史科技日报北京11月28日电（记者张梦然）根据英国自然通讯杂志近日发表的一项行星科学分析，美国国家航空航天局洞察特别报道百年瞬间嫦娥三号成功发射中央广播电视总台中国之声联合全国广播电台共同推出特别报道2013年12月2日，嫦娥三号探测器在中国西昌卫星发射中心由长征三号乙运载火箭送入太空。嫦娥三号成功发射三二一，点火，起飞！中科大发布重大新成果！记者近日从中国科学技术大学获悉该校彭新华教授研究组与德国科学家合作开发出一种新型超灵敏量子精密测量技术，用于暗物质的实验直接搜寻，实验结果比先前的国际最好水平提升至少5个数量级。相全球首个活体机器人实现自我繁衍引担忧，科研人员这些机器人可消灭近日，全球首个活体机器人实现自我繁殖的消息引发关注。近日，美国佛蒙特大学和塔夫茨大学的研究团队发现了一种全新的生物繁殖方式，并利用这一发现创造了有史以来第一个可自我繁殖的活体机器人揭开月亮的神秘面纱，欧阳自远讲述中国探月故事来源中国青年报客户端月亮究竟是怎么来的？为什么说她是地球的女儿？在由中国青年报联合好看视频共同出品的栏目院士科普中，天体化学与地球化学家中国月球探测工程首席科学家中国科学院院士欧阳宇宙大黑暗的降临宇宙大黑暗的降临蒋国良老蒋说，大约在1000亿年以后，我们的后代在无尽的黑暗中徒劳的使用着最先进的计算机，企图控制最后一颗恒星离我们远去。老蒋说，轮回的宇宙是一种闭合的，反复出现的西伯利亚洞穴发现已知的最古老的神秘人类化石，丹尼索瓦人的骨骼如上图所示这是俄罗斯西伯利亚丹尼索瓦洞穴中发现的一具丹尼索瓦人的骨骼。科学家们发现了迄今为止最古老的化石，这是丹尼索瓦人这一神秘的人类谱系。一项新的研究发现，有了这些20万年前的骨伦纳德彗星将于12月中旬最接近地球有可能成为今年最亮的彗星据CNET报道，经过几个月的期待，今年天空观察者最期待的彗星终于越来越近，越来越亮。2021年初，研究人员格雷格伦纳德发现了C2021A1彗星，现在被称为伦纳德彗星。当时，它正从深最新研究表明地球水源或来自太阳地球与太阳系中的其他岩石行星相比，其水资源要丰富的多，因为表面70以上都被海洋覆盖了。对于地球水的确切来源，科学界尚未有一致的解释。近日，一项由格拉斯哥大学领导的国际研究表明，地上用时20亿年！地球变富氧咋这么慢如今，地球大气的含氧量约为21。在很多年前，地球大气中的氧气含量仅为现在的1，这一数值从1增加到现在大气含氧量的60以上，间隔了近20亿年。为什么地球大气中含氧量的增加如此缓慢？围