装在手机里的3D姿态估计,模型尺寸仅同类17,误差却只有5厘米
博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI
长久以来,三维姿态估计都在追求准确性 上一路狂奔。
但精度提高的同时,也带来了计算成本的上升。
而刚刚被CPVR 2021接受的论文中所提出的模型,MobileHumanPose 却可以同时做到又小又好 。
还是放在手机上都能hold得住的那种。来感受一下这个feel:
这种动作的健身操也没问题:
据了解,这个模型的尺寸,只有基于ResNet-50的模型的1/7 ,算力达到了3.92GFLOPS 。
而且平均每关节位置误差(MPJPE) ,也只有大约5厘米 。
那么这一模型到底是如何在有限的算力下产生极佳性能的呢?基于编码器-解码器结构的改进
这是一个从基本的编码器-解码器结构改良得来的模型。
在编码器用于全局特征提取,而解码器进行姿态估计的基础架构上,研究团队对其主干网络、激活函数,以及Skip concatenation功能都进行了修改。
先来看研究团队选择的主干网络,MobileNetV2。
他们在MobileNetV2的前四个倒置残差块(Residual Block) 处修改了通道大小,获得了性能提升。
接下来,将PReLU 函数用于实现激活功能,其中ai为学习参数 yi是输入信号。
这一函数中的可学习参数能够在每一层网络都获得额外的信息,因此在人体姿势估计任务中使用参数化PReLU时可提升性能。
修改了激活函数后的baseline
现在,模型的效率已经不低了,但考虑到推理速度,团队使用Skip concatenation结构。这一结构能从编码器到解码器中导出低级别特征信号(Lowlevel feature signal) ,不会降低性能。
参数量减少5倍,计算成本降到1/3
团队使用Human3.6M和MuCo-3DHP作为三维人体姿势数据集,他们提出了MobileNetV2的大小两个模型。
在Human3.6M上,MobileNetV2大模型实现了51.44毫米的平均每关节位置误差。
且其参数量为4.07M,对比同类模型的20.4M(chen)减少了5倍 ,计算成本为5.49GFLOPS,是同类模型的1/3 不到(14.1G)。
对于多人三维姿势估计任务,研究者使用RootNet来估计每个人的绝对坐标,在MuPoTS的20个场景中进行了实验:
实验结果证明,对比Zerui Chen等研究者提出的获ECCV 2020的三维人体姿态估计方法,MobileNetV2在一般场景中的性能都更好,且在少数场景中取得了最佳性能:
在模型效率上,MobileNetV2的大模型效率为2.24M/3.92GFLOPS,远超同类模型的13.0M/10.7GFLOPS(Zerui Chen)。
而小模型也能实现56.94毫米的平均每关节位置误差,有224万个参数,计算成本为3.92GFLOPS。作者介绍
论文的三位作者皆毕业于韩国高等技术研究院,一作Sangbum Choi为该校的电机及电子工程专业硕士。
论文:
https://openaccess.thecvf.com/content/CVPR2021W/MAI/html/Choi_MobileHumanPose_Toward_Real-Time_3D_Human_Pose_Estimation_in_Mobile_Devices_CVPRW_2021_paper.html
开源地址:
[1]https://github.com/SangbumChoi/MobileHumanPose
[2]https://github.com/ibaiGorordo/ONNX-Mobile-Human-Pose-3D
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
Python编程设计一个最简单计数器初中信息技术题目如下编写程序设计一个最简单的计算器支持,,,四种运算。输入只有一行两个参加运算的数和一个操作符(,,,)。输出运算表达式的结果。考虑下面两种情况(1)如果出现除数为
发现一个令人惊喜的事华为应用市场居然有Window版今天我本来是想在电脑上播放音乐,搜搜看华为音乐有没有电脑版,结果意外的发现华为应用市场居然有Window版,下载网址httpsappgallery。huawei。comFeatur
中国医生抗疫片中国医生的上映,引起的众多观众的落泪,使观众在观看电影时被其中真实的故事感动。中国医生改电影是由2020年抗击新冠肺炎疫情真实事件改编。讲述了新冠肺炎大爆发时期,全国各地的白
Thinkpad安装华为电脑管家在网上看到有一些同学在非华为PC上安装了华为的电脑管家,手残党也想自己动手,安装华为电脑管家之后试试效果。PC配置PC配置如图1,Intel酷睿I5的芯片,毕竟电脑已经买了5年多了
华为新机这配置,你让花粉怎么想?和OV有什么差别!今天,华为发布了旗下的畅享6S,距离上代发布也只不过有两个多月而已。(图片来源于网络,下同)具体配置如下,5英寸720P屏幕,后置指纹识别,搭载高通骁龙435处理器,内存组合为33
花粉嘲笑小米Mix吵到两万,今天的华为mate9Pro怎么说小米Mix一经发布,因其概念级的设计,引起了广泛的市场反响,因为是全陶瓷机身,产能非常低,即便是一个月以后的今天,也是毫秒结束抢购!曾经一度价格被炒到两万!而此时,花粉看不下去了,
3388买实用的华为mate9还是3699买未来的荣耀?华为mate9搭载麒麟960芯片,Mate9采用了与徕卡联合设计的1200万像素彩色和2000万像素黑白双镜头组合。在Mate9上实现了专业级2倍双摄变焦。同时支持4K摄像,OIS
Zoom报告2022年财年第一季度财务业绩第一季度总收入9。562亿美元,同比增长191对TTM收入贡献超过10万美元的客户数量同比增长160员工人数超过10人的客户约49。7万家,同比增长87ZoomVideoCommu
Amlan增加技术人员扩大物流,投资中国不断增长的动物蛋白市场中国的动物蛋白市场不断增长,这正激励着家禽和猪肉生产商,激励其快速采用先进的天然技术,满足不断增长的需求,同时应对日益严峻的生产挑战。AmlanInternational是矿物基饲
预可行性研究将推进二氧化碳捕集项新的预可行性研究以通过碳捕集和储存(CCS)来扩大减排影响为重点,探索二氧化碳(CO2)捕集在750兆瓦燃煤电厂的潜在应用。这个项目是一项广泛研究的组成部分,该研究旨在考察在美国
MSWAY推出柔性透明电极的全新制造方法韩国首尔,MSWAY将推出一种全新柔性透明电极NABIL,此种电极拥有高端柔性电子应用以及聚合物太阳能电池通用电极的全部功能,可实现超过12的更高功率转换效率。公司已成功通过一条幅