让AI自己调整超参数,谷歌大脑新优化器火了,自适应多种不同任务
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI
还在苦恼怎么给优化器 调整更好的参数吗?
现在,谷歌大脑搞出了一个新的优化器VeLO,无需手动调整任何超参数,直接用就完事了。
与其他人工设计的如Adam、AdaGrad等算法不同,VeLO完全基于AI构造,能够很好地适应各种不同的任务。
当然,效果也更好。论文作者之一Lucas Beyer将VeLO与其他"重度"调参的优化器进行了对比,性能不相上下:
有网友看到了一丝优化器进步的曙光:
在Adam之后出现了不少优化器,却都表现得非常失败。这个优化器或许确实能表现更好。
所以,这个基于AI的优化器是如何打造的?VeLO究竟是怎么打造的?
在训练神经网络的过程中,优化器(optimizer) 是必不可少的一部分。
△神经网络训练过程,图源Thomas Wolf
但AI模型应用都这么广泛了,训练AI模型用的优化器却仍然是人工设计的,听起来多少有点不合理。
于是谷歌大脑的研究人员灵机一动:为何不用AI来做一个优化器呢?
设计 上,优化器的原理基于元学习 的思路,即从相关任务上学习经验,来帮助学习目标任务。
相比迁移学习,元学习更强调获取元知识,它是一类任务上的通用知识,可以被泛化到更多任务上去。
基于这一思想,VeLO也会吸收梯度并自动输出参数更新,无需任何超参数调优,并自适应需要优化的各种任务。
架构 上,AI优化器整体由LSTM(长短期记忆网络) 和超网络MLP(多层感知机) 构成。
其中每个LSTM负责设置多个MLP的参数,各个LSTM之间则通过全局上下文信息进行相互协作。
训练 上,AI优化器采用元训练的方式,以参数值和梯度作为输入,输出需要更新的参数。
经过4000个TPU月(一块TPU运行4000个月的计算量) 的训练,集各种优化任务之所长后,VeLO终于横空出世。比人工调参优化器效果更好
结果表明,VeLO在83个任务上的加速效果超过了一系列当前已有的优化器。
其中y轴是相比Adam加速的倍率,x轴是任务的比例。
结果显示,VeLO不仅比无需调整超参数的优化器效果更好,甚至比仔细调整过超参数的一些优化器效果还好:
与"经典老大哥"Adam相比,VeLO在所有任务上训练加速都更快,其中50%以上的任务比调整学习率的Adam快4倍以上,14%以上的任务中,VeLO学习率甚至快上16倍。
而在6类学习任务(数据集+对应模型) 的优化效果上,VeLO在其中5类任务上表现效果都与Adam相当甚至更好:
值得一提的是,这次VeLO也被部署在JAX 中,看来谷歌是真的很大力推广这个新框架了。
巴特,也有网友认为耗费4000个TPU月来训练VeLO,计算量成本过大:
虽然这个进展很重要,但它甚至都快赶上GPT-3的训练量了。
目前VeLO已经开源,感兴趣的小伙伴们可以去试试这个新的AI优化器。One More Thing
前段时间,一位哈佛博士生提了个有意思的想法,得到不少人赞同:
更多论文的作者们也应该像演职员表一样,公开自己在论文中的工作内容。
Kareem Carr是生物统计学领域的博士生,作者贡献在生物论文中比较常见,不过之前在AI论文中见得不多。
现在,这篇谷歌大脑论文的作者们也这样做了,谁写的论文、谁搭建的框架一目了然:
不知道以后会不会成为机器学习圈的新风气(手动狗头) 。
GitHub地址:
https://github.com/google/learned_optimization/tree/main/learned_optimization/research/general_lopt
论文地址:
https://arxiv.org/abs/2211.09760
参考链接:
[1]https://twitter.com/jmes_harrison/status/1593422054971174912
[2]https://medium.com/huggingface/from-zero-to-research-an-introduction-to-meta-learning-8e16e677f78a#afeb
[3]https://mp.weixin.qq.com/s/QLzdW6CMkcXWQbGjtOBNwg
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
星耀计划文王立鹏几千年来,其实他们一直都在,只是我们未曾察觉而已。他们来自遥远的雨谷星,是半人马座比邻星系的一颗美丽的行星,那里和地球一样有着阳光和雨露,有着冬夏和春秋5100年前,他们的
亚马逊如何核算店铺月度盈利与亏损Hi这是霏霏第一次和大家见面!小伙伴们,作为亚马逊运营,辛辛苦苦经营了店铺一个月后,你知道如何核算亚马逊月度盈亏?相信大家感兴趣的就是怎么核算店铺一个月盈亏,其中减去广告费用,站外
哪吒S和特斯拉谁更值得买?选相同价位比较价格特斯拉model326。59万V哪吒S26。98万百公里加速特斯拉model35。6秒vs哪吒S6。9秒续航特斯拉model3556公里VS哪吒S715公里驱动两
什么是共同富裕?被嘲讽土气的刘强东,给各位企业家打了个样随着互联网红利的不断褪去,第一批吃螃蟹的互联网大佬也先后退场,昔日的电商三巨头淘宝京东和拼多多的创始人都先后退居幕后。马云退场后要当老师,在全球各地拜访学习农业发展刘强东退场后开始
张碧晨和华晨宇孩子事件2年后,他们的生活状况,有什么不同?文醒醒编辑小情书2021年1月22日,也就是继郑爽和男友孩子事件之后没多久,张碧晨又发生了一件大事。她和华晨宇官宣他们也有一个孩子,又在娱乐圈激起一层惊涛骇浪。张碧晨在娱乐圈的形象
经开区企业快讯丨中国重型院开展消防安全专项检查12月8日,中国重型机械研究院股份公司开展消防安全专项检查,切实做好年终岁末消防安全工作,进一步提高全体员工的消防安全意识。检查组对办公楼地下车库充电线路的安全情况电气装备部制造场
战痘宣颜丨毛孔粗大的5大形成原因快来看看你中了吗?(下)为什么毛孔问题很难解决?毛孔粗大的问题是比较常见的,很多女很都会十分困扰。导致毛孔粗大的原因有很多,比如肌肤清洁不彻底,工作压力大,与生活环境等方面有关,大家都赶快重视起来吧。(三
五塔寺金刚宝座塔的美大家一直叫好,原因找到了这次,我们共同了解一下真觉寺的金刚宝座塔。真觉寺就在北京海淀五塔寺路的北侧。它的南侧有条河叫长河,如今,已是长河文化遗产廊道观赏带,沿途有反映北京民俗的装饰。历史上这是条皇室去往西
优雅女生具备的特质,你拥有多少是一种创新的生活理念以当代都市女性特有的生活方式为设计源点,强调中性女人味的基调为主旋律,通过传统图案和现代图案的结合运用和特殊的面料拼接的手法与款式相结合,将柔美细腻的女性元素融
张歆艺穿牛仔套装,被质疑身材走样,呼吁给女性呵护,不愧是二姐张歆艺身穿牛仔套装,现身在某档综艺节目中,当几个女人在聊到产后话题时,张歆艺对这一个话题非常敏感,也对这一话题做出了回应,并呼吁大家要多给产后女性呵护。张歆艺这一段话,在网友引起热
解放自己,解放世界人类走在解放自己的道路上。一个人只有解放了自己,才能让自己进步,一个家庭家族民族一个国家乃至整个世界也是一样,只有解放了,才能取得更大的发展和进步。什么是解放?解放就是解脱束缚解放