范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

用AI打破编解码器内卷,高通最新顶会论文脑洞大开

  用 AI 搞视频编解码器,现在路子有点"野"。
  插帧、过拟合、语义感知、GAN…… 你想过这些"脑洞"或 AI 算法,也能被用到编解码器上面吗?
  例如,原本的算法每帧压缩到 16.4KB 后,树林开始变得无比模糊:
  但在用上 GAN 后,不仅画面更清晰,每帧图像还更小了,只需要 14.5KB 就能搞定!
  又例如,用插帧的思路结合神经编解码器,能让最新压缩算法效果更好……
  这一系列算法的思路,背后究竟是什么原理,用 AI 搞编解码器,潜力究竟有多大?
  我们采访了高通工程技术副总裁、高通 AI 研究方向负责人侯纪磊博士,了解了高通一些 AI 编解码器中的算法细节和原理。编解码器标准逐渐"内卷"
  当然,在了解 AI 算法的原理之前,需要先了解视频到底是怎么压缩的。
  如果不压缩,1 秒 30 帧、8bit 单通道色深的 480p 视频,每秒就要传输 80+Mbps 数据,想在网上实时看高清视频的话,几乎是不可能的事情。
  目前,主要有色度子采样、帧内预测(空间冗余)和帧间预测(时间冗余)几个维度的压缩方法。
  色度子采样,主要是基于我们眼睛对亮度比对颜色更敏感的原理,压缩图像的色彩数据,但视觉上仍然能保持与原图接近的效果。
  帧内预测,利用同一帧中的大片相同色块(下图地板等),预测图像内相邻像素的值,得出的结果比原始数据更容易压缩。
  帧间预测,用来消除相邻帧之间大量重复数据(下图的背景)的方法。利用一种名叫运动补偿的方法,用运动向量(motion vector)和预测值计算两帧之间像素差:
  这些视频压缩的方法,具体到视频编解码器上,又有不少压缩工作可以进行,包括分区、量化、熵编码等。
  然而,据侯纪磊博士介绍,从 H.265 到 H.266,压缩性能虽然提升了 30% 左右,但这是伴随着编码复杂度提高 30 倍、解码复杂度提高 2 倍达成的。
  这意味着编解码器标准逐渐进入了一个"内卷"的状态,提升的压缩效果,本质上是用编解码器复杂度来交换的,并不算真正完成了创新。
  因此,高通从已有压缩方法本身的原理、以及编解码器的构造入手,搞出了几种有意思的 AI 视频编解码方法。3 个方向提升压缩性能
  具体来说,目前的 AI 研究包括帧间预测方法、降低解码复杂度和提高压缩质量三个方向。
  "预判了 B 帧的预判"
  从帧间预测来看,高通针对 B 帧编解码提出了一种新思路,论文已经登上 ICCV 2021。
  I 帧:帧内编码帧(intra picture)、P 帧:前向预测编码帧(predictive-frame)、B 帧:双向预测内插编码帧(bi-directional interpolated prediction frame)
  目前的编解码大多集中在 I 帧(帧内预测)和 P 帧上,而 B 帧则是同时利用 I 帧和 P 帧的双向运动补偿来提升压缩的性能,在 H.265 中正式支持(H.264 没有)。
  虽然用上 B 帧后,视频压缩性能更好,但还是有两个问题:
  一个是视频需要提前加载(必须提前编码后面的 P 帧,才能得到 B 帧);另一个是仍然会存在冗余,如果 I 帧和 P 帧高度相关,那么再用双向运动补偿就显得很浪费。
  打个比方,如果从 I 帧→B 帧→P 帧,视频中只有一个球直线运动了一段距离,那么再用双向运动补偿的话,就会很浪费:
  这种情况下,用插帧似乎更好,直接通过时间戳就能预测出物体运动的状态,编码计算量也更低。
  但这又会出现新的问题:如果 I 帧和 P 帧之间有个非常大的突变,例如球突然在 B 帧弹起来了,这时候用插帧的效果就很差了(相当于直接忽略了 B 帧的弹跳)。
  因此,高通选择将两者结合起来,将基于神经网络的 P 帧压缩和插帧补偿结合起来,利用 AI 预测插帧后需要进行的运动补偿:
  别说,效果还确实不错,比谷歌之前在 CVPR 2020 上保持的 SOTA 纪录更好,也要好于当前基于 H.265 标准实现开源编解码器的压缩性能。
  除此之外,高通也尝试了一些其他的 AI 算法。
  用"过拟合"降低解码复杂度
  针对编解码器标准内卷的情况,高通也想到了用 AI 做自适应算法,来像"过拟合"一样根据视频比特流更新一个模型的权重增量,已经有相关论文登上 ICLR 2021。
  这种方法意味着针对单个模型进行"过拟合",对比特流中的权重增量进行编码,再与原来的比特流进行一个比较。如果效果更好的话,就采用这种传输方式。
  事实证明,在不降低压缩性能的情况下,这种方法能将解码复杂度降低 72%,同时仍然保持之前 B 帧模型达到的 SOTA 结果。
  当然,除了视频压缩性能以外,单帧图像被压缩的质量也需要考虑,毕竟视觉效果也是视频压缩追求的标准之一。
  用语义感知和 GAN 提高压缩质量
  用语义感知和 GAN 的思路就比较简单了。
  语义感知就是让 AI 基于人的视觉来考虑,选出你在看视频时最关注的地方,并着重那部分的比特分配情况。
  例如你在看网球比赛时,往往并不会关注比赛旁边的观众长什么样、风景如何,而是更关注球员本身的动作、击球方法等。
  那么,就训练 AI,将更多的比特放到目标人物身上就行,像这样:
  从结构上来讲也比较简单,也就是我们常见的语义分割 Mask(掩膜):
  这种方法能很好地将受关注的局部区域帧质量提升,让我们有更好的观看效果,而不是在视频被压缩时,看到的整幅图像都是"打上马赛克"的样子。
  据高通表示,这种语义感知的图像压缩,目前已经在扩展到视频压缩上了,同样是关注局部的方法,效果也非常不错。
  而基于 GAN 的方法,则更加致力于用更少的比特数生成视觉效果同样好的图像质量:
  据高通表示,数据集来自 CVPR 中一个针对图像压缩的 Workshop CLIC,提供了大约 1600 张的高清图片,利用自研的模型,能在上面训练出很好的效果:
  也就是开头的图片效果,即使在大小被压缩后,基于 GAN 的图像还是能取得更好的视觉质量:
  期待这些技术能马上应用到手机等设备上,让我们看视频的时候真正变得不卡。
  相关论文:
  [1]https://arxiv.org/abs/2104.00531
  [2]https://arxiv.org/abs/2101.08687
  参考链接:
  [1]https://www.qualcomm.com/news/onq/2021/07/14/how-ai-research-enabling-next-gen-codecs
  [2]https://github.com/leandromoreira/digital_video_introduction

美证监会准备把特斯拉及马斯克的4000万美元罚款分给投资者北京时间3月10日消息,美国证券交易委员会(SEC)已请求法官批准将其对特斯拉公司及其CEO埃隆马斯克(ElonMusk)的4000万美元罚款分配给投资者。马斯克2018年,SEC市场监管总局累计召回新能源汽车229次,涉及车辆198万辆IT之家3月10日消息,据市场监管总局网站,统计数据显示,截至2021年底,我国累计召回汽车9130万辆消费品8027万件,累计引导企业技术改进5800余次。20042021年我国B站2021营收大涨62月活用户同比增长35达2。72亿,陈睿看好2022年前景IT之家3月3日消息,哔哩哔哩今日发布截至12月31日的2021年第四季度财报及全年财报。财报显示,哔哩哔哩2021财年总营收达193。8亿元人民币,同比增长62。其中第四季度营收B站哔哩哔哩动画UWP客户端2。14。72版本更新后,缓存视频将加密由于版权问题,只能在客户端内播放感谢IT之家网友逆雨刺猬的线索投递!IT之家3月3日消息,哔哩哔哩动画UWP目前已推出了正式版v2。14。73。0更新,支持了一键三连进度手势改进键盘调节音量等。据官方群公告,2。B站语音弹幕审核专利公布IT之家3月1日消息,信息显示,3月1日,上海哔哩哔哩科技有限公司申请的语音审核方法及装置专利公布。摘要显示,所述语音审核方法通过获取待识别语音数据的文本信息和音质信息,在预设审核B站处置部分涉国际局势言论,倡议理性发布涉国际热点事件信息感谢IT之家网友玄隐铺路队的线索投递!IT之家2月27日消息,哔哩哔哩社区发布公告称,已经就俄乌之间的国际局势处理有关不良信息1642条,并视情节严重程度对其中57个账号进行了禁言全球80产量消失,3M比利时半导体冷却液工厂暂时停产三星台积电英特尔等芯片大厂或受影响4月1日,据Businesskorea报道,3M公司在比利时的半导体冷却剂工厂因当地环境法规收紧而暂时停产。该工厂占全球半导体冷却剂总产量的80。3M的半导体冷却剂图源Busine美国监管机构前官员FTC不太可能阻止马斯克440亿美元收购推特,因为和特斯拉没有竞争关系4月26日消息,当地时间周一美国反垄断部门一位前官员表示,美国监管机构不太可能阻止特斯拉首席执行官埃隆马斯克(ElonMusk)收购推特。曾主管美国司法部反垄断部门的比尔贝尔(Bi马斯克2873亿收购推特,推特CEO若被解雇将获2。8亿赔偿,称目前无裁员计划北京时间4月26日消息,在Twitter与埃隆马斯克(ElonMusk)正式达成440亿美元(约2873。2亿元人民币)的收购协议后,TwitterCEO帕拉格阿格拉瓦尔(Para重磅!马斯克440亿美元现金收购推特每股54。2美元,预计2022年完成感谢IT之家网友不错,很好的线索投递!IT之家4月26日消息,Twitter推特在今天的新闻稿中宣布,已接受埃隆马斯克以440亿美元(约2873。2亿元人民币)收购该公司的提议。交3000亿到位,马斯克将与推特高管当面讨论收购北京时间4月25日消息,知情人士称,特斯拉公司CEO埃隆马斯克(ElonMusk)周日将与Twitter高管会面。目前,Twitter越来越愿意接受马斯克提出的430亿美元收购要约
RISCV芯片厂商赛昉科技宣布完成A轮融资,累积融资金额超10亿元IT之家8月18日消息近日,国内RISCV开源芯片行业领军企业赛昉科技有限公司(简称赛昉科技)宣布完成A轮融资,本轮融资由深圳市国科瑞华三期股权投资基金合伙企业(简称国科瑞华)和中IDC2021Q1中国云市场规模超300亿,阿里云第一腾讯华为位列二三7月29日,IDC最新发布的2021年第一季度中国公有云市场数据显示,季度内IaaSPaaS市场规模达46。32亿美元(301亿人民币),其中阿里云排名第一,市场份额为40,腾讯云芬兰科学院启动600万欧元专项资金用于HPC量子计算机及高性能计算8月13日消息,芬兰科学院启动一项600万欧元的专项资金,旨在支持EuroHPC超级计算基础设施的使用量子计算机的引入和高性能计算的应用。相关电话会议于8月11日开始,并于2021特斯拉德国电池工厂撤回补贴申请,价值12。8亿美元北京时间11月26日晚间消息,据报道,德国经济部发言人今日表示,特斯拉已撤回其位于柏林郊外勃兰登堡(Brandenburg)的电池工厂补贴申请。这位发言人称特斯拉将继续坚持其在勃兰小米手表S1预热腕表级蓝宝石玻璃镜面,明天见IT之家12月27日消息,小米昨天宣布,全新的小米手表系列XiaomiWatchS1将与小米12系列一同在12月28日发布。小米今日继续预热新品,自然也包括XiaomiWatchS最新论文用GAN监督学习给左晃右晃的猫狗加表情,很丝滑很贴合12月19日消息,生成性对抗网络GAN又被开发出一项不正经用途。给猫狗加表情给马斯克加胡子不管视频中的脑袋怎么左晃右晃,这些表情都能始终如一地贴合面部,且每一帧都表现得非常丝滑。这马斯克澄清特斯拉股票出售计划离几乎完成还差一点北京时间12月23日消息,在一个多月时间里出售了价值逾140亿美元的特斯拉股票后,特斯拉CEO埃隆马斯克(ElonMusk)周三表示,他几乎完成了股票出售计划。不过,对于自己是否已联合光电回应传闻公司屏下指纹镜头未直接供货华为vivoOPPO12月9日,联合光电在投资者互动平台上就公司屏下指纹镜头已经供货vivoOPPO及华为传言回复称,公司屏下指纹镜头未直接供货vivoOPPO及华为。并且同样表示,公司目前暂未直接供美国新法案要求Facebook等社交媒体,必须向研究人员共享平台数据IT之家12月12日消息,一个由美国参议员组成的两党小组宣布了一项新法案,该法案将要求社交媒体公司与研究人员共享平台数据。据TheVerge报道,该法案于周四由民主党参议员克里斯库Twitter又被俄罗斯罚款300万卢布,今年至少被罚5000万卢布北京时间12月23日晚间消息,据报道,Twitter今日又被俄罗斯法院罚款300万卢布(约合40920美元),原因还是未能删除被俄罗斯政府视为非法的内容。上周四,因为同样的原因,TTikTok火爆全球,超越谷歌成2021年全球访问量最多的互联网网站IT之家12月23日消息,华尔街日报报道,根据追踪互联网流量的云基础设施公司Cloudflare的数据,TikTok是2021年世界上访问量最大的互联网网站,超过了去年领头羊Alp