深度学习优化算法研究取得进展
近年来,在材料科学、人工智能芯片等前沿领域,深度学习受到广泛的研究和应用。具体来说,深度学习通过学习样本数据的内在规律和表示层次实现机器像人一样具有分析和学习的能力,因而在材料科学研究中可以帮助分析高维、非线性的特征数据;在人工智能芯片研发中可以提供高效、通用的网络模型。区别于传统的浅层学习,深度学习一般具有深层的神经网络模型结构,比如目前最复杂的深度模型BERT含有1亿个以上的参数。因此,深度模型的训练(也就是求解模型的参数)一直是一项具有挑战性的任务。
一般来说,求解深度模型参数的训练算法具有两个重要的性能指标:算法的收敛速度和泛化能力。目前,应用较广泛的训练算法是随机梯度下降算法(SGD)和学习率自适应的随机梯度下降算法(如Adam和AdaBelief),其中SGD具有良好的泛化能力,但是收敛速度缓慢;Adam和AdaBelief具有较快的收敛速度,但是泛化能力不如SGD。因此,使优化算法同时具备良好的泛化能力和快速的收敛速度是深度学习领域内的研究热点之一。
中国科学院苏州纳米技术与纳米仿生研究所研究员刘欣等针对学习率自适应的随机梯度下降算法Adabief在强凸条件下的收敛速度是否可以进一步提高的问题进行了首次尝试,并给出了肯定的答案。团队利用损失函数的强凸性,提出了一种新的算法FastAdaBelief(图1),该算法在保持良好的泛化能力的同时,具有更快的收敛速度。
图1 FastAdaBelief算法伪代码
该团队根据理论证明的结果,进行了一系列的实验研究,验证了所提出的算法的优越性。首先,在softmax回归问题上的实验验证了FastAdaBelief比其他算法的收敛速度更快(图2);然后,在CIFAR-10数据集上完成了多组图像分类任务,结果表明,在实验对比算法中,FastAdaBelief具有最快的收敛速度(图3),并且具有最好的泛化能力(图4);最后,在Penn Treebank数据集上的文本预测任务中,FastAdaBelief算法可以最快训练出深度模型,并且得出的模型具有最小的混沌度(图5)。重要的是,该团队发现FastAdaBelief在损失函数为强凸和非凸的情况下收敛速度都是最快的,因此证明了它作为一种新的基准优化算法的巨大潜力,可以广泛应用于各种深度学习场景中。
图2 softmax回归问题中各算法的收敛速度对比
图3 CIFAR-10数据集上各算法的收敛速度对比
图4 CIFAR-10数据集上各算法的泛化能力对比
图5 Penn Treebank数据集上各算法的收敛速度对比
该研究工作从理论上证明了FastAdaBelief的收敛速度比其他自适应优化算法快,并且通过大量实验验证了该算法的泛化能力比其他自适应优化算法强,这可以帮助完成很多场景下的深度模型训练任务,尤其是在样本数据短缺、硬件计算算力不足的情况下。因此,在材料科学研究领域和人工智能芯片研发领域都具有很大的应用前景。
相关工作以FastAdaBelief: Improving Convergence Rate for Belief-based Adaptive Optimizers by Exploiting Strong Convexity为题发表在IEEE Transactions on Neural Networks and Learning Systems上。
米兰12佛罗伦萨,热刺01狼队,欧冠八强争夺进入白热化天空体育消息,在北京时间凌晨进行的一场意甲联赛,卫冕冠军AC米兰客场挑战紫百合佛罗伦萨。托莫里送出点球大礼,冈萨雷斯轻松将点球打进。第87分钟,约维奇鱼跃头球破门扩大优势。第95分
国足记者再曝猛料!涉案金额高达千万,球员家属下跪请求放人截至目前,中国足协主席车陈戌源被带走调查已经2周有余,但因为某些方面的原因,相关部门的调查暂时搁置!从目前的情况来看,陈戌源刘奕陈永亮肯定不是李铁案的最终BOSS,体育总局的高层也
默森若能赢下未来3场比赛,阿森纳就会夺得英超冠军直播吧3月5日讯英超第26轮阿森纳32伯恩茅斯,继续以5分的优势领跑积分榜,对于阿森纳的表现,默森在接受采访的时候谈到了自己的看法。默森说我认为阿森纳会赢得英超冠军,他们需要做的就
中国科大教授用氢气电容打破水电解难题,未来都能用清洁能源你知道吗?水是地球上最丰富的资源之一,也是最有潜力的能源之一。如果我们能把水分解成氢气和氧气,就可以利用它们进行清洁的燃烧或者储存能量。但是,要实现这个目标并不容易。因为水分解需要
iPhone解锁新姿势!BodyID!苹果正研发身体解锁?解锁新姿势。近日,苹果新的技术专利表明,该公司正在研发一种新的识别功能,这是继TouchID和FaceID后出现的新一种解锁设备方式BodyID。图片来源于网络
科大讯飞周佳峰人工智能改变教育的历史叙事3月4日,ChatGPT与未来教育沙龙在上海举办,此次沙龙由教育研究杂志社联合教育部人文社会科学重点研究基地华东师范大学基础教育改革与发展研究所共同举办。中国教育科学研究院党委书记
雷总,什么时候能把小米外置SD卡还给我我手里的这部手机,是几年前花1800元,在小米商城买的小米8。那时候,小米正热推小米9,小米8作为不多的库存,打了折,作为穷人的我,不失时机地下了单。之前,几乎所有的手机,都有外置
我们回到巴塞罗那MWC存在感最强居然是中国企业数年后,我们拿着新鲜热辣的申根签证,乘坐十多个小时的航班,回到了西班牙巴塞罗那,近距离观察MWC2023(世界移动通讯大会)。但万万想不到的是,在展馆里存在感最强的居然是中国企业,
买现款还是等新机?老司机建议等这三款即将发布的旗舰2023年上半年换机潮已经到来,不少新机已经就位,而有些则已经在报到的路上。作为一位资深数码爱好者,日常阅机无数,这里主要分享一些个人关于新机的入手独家建议。至于是买现款还是等一等
通俗易懂03决策树DecisionTree视频详解03机器学习决策树DecisionTree,小白入门决策树决策树(decisiontree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,
Web3日报0304Web3日报0304SilverGateBank暂停交易平台网络服务KOL传做市商Citadel将助Silvergate摆脱流动性危机法庭文件Silvergate须向BlockFi