范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

开启生成式视频压缩谷歌基于GAN来实现,性能与HEVC相当

  选自arXiv
  机器之心编译
  编辑:陈萍
  来自谷歌的研究者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩方法,该方法优于以前的神经视频压缩方法,并且在用户研究中与 HEVC 性能相当。
  通常,视频压缩的目标是通过利用时间和空间冗余来降低存储视频所需的比特率,同时保留视觉内容,目前广泛使用的方法是非神经标准编解码器(例如 H.264/AVC 、H.265/HEVC)。一些研究表明,神经网络在学习视频压缩方面取得了更好的进展,最新的方法在峰值信噪比(PSNR)方面可以与 HEVC 相媲美,或者在 MS-SSIM 方面优于 HEVC。然而,因为很少有研究者发布重制后的视频,这些方法尚未在主观视觉质量方面进行评估。
  来自谷歌的研究者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩方法,该方法优于以前的神经视频压缩方法,并且在用户研究中与 HEVC 性能相当。研究者提出了减少时间累积误差的方法,该累积误差由递归帧压缩引起,该方法使用随机移位和非移位,由频谱分析驱动。论文详细介绍了网络设计的选择以及重要性,并阐述了在用户研究中评估视频压缩方法的挑战。
  论文地址:https://arxiv.org/pdf/2107.12038.pdf
  本文主要贡献包括: 该研究提出了首个在视觉质量方面与 HEVC 具有竞争性的神经压缩方法,这是在用户研究中衡量的。研究表明,在 PSNR 方面具有竞争力的方法在视觉质量方面的表现要差得多; 该研究提出了一种减少展开时时间误差累积的技术,该技术通过随机移动残差输入,然后保持输出不变,激励频谱分析,研究表明该技术在系统和 toy 线性 CNN 模型中具备有效性; 该研究探索了由用户研究测量的视觉质量与可用视频质量指标之间的相关性。为了促进未来的研究,研究者发布了对 MCL-JCV 视频数据集的重建以及从用户研究中获得的所有数据(附录 B 中的链接)。
  研究方法
  下图为该研究使用的网络架构,其中 x = {x_1, x_2, . . . } 为帧序列,x_1 为初始帧 (I)。该研究在低延迟模式下操作,因此可以从先前的帧中预测后续 (P) 帧,设
  是重建视频。
  灰色框是中间张量的可视化结果。灰线左侧是 I-frame 分支(蓝色代表用 CNN 学习),右侧是 P-frame 分支(绿色代表用 CNN 学习)。虚线在解码期间没有被激活,判别器 D_I、D_P 仅在训练期间激活。CNN 的大小粗略地表明了它们的容量。SG 是停止梯度操作,Blur 是尺度空间模糊,Warp 是双三次扭曲, UFlow 是冻结光流模型。
  研究者采用以下策略来获得高保真重建视频: 在 I-frame 中合成可信的细节; 尽可能清晰地传递这些可信细节; 对于出现在 P-frame 中的新内容,研究者希望能够合成可信细节。
  论文中的公式是基于 HiFiC 的。使用条件 GAN,其中生成器和判别器都可以访问额外的标签:公式假设数据点 x 和标签 s 遵循联合分布 p(x, s)。生成器将样本 y ∼ p(y) 映射到分布 p(x|y),而判别器用来预测给定对 (x, s) 是否来自 p(x|s) 而不是来自生成器。
  在设置中需要处理帧序列和重建。在 HiFiC 之后,研究者在潜在 y 上调节生成器和判别器,对于 I-frame,y = yI,对于 P-frame,y = y_t,r。为了简化问题,该研究的目标是对每帧分布进行匹配,即对于 T 长度的视频序列,目标是获得一个模型 s.t.:
  通过随机移位展开时防止错误累积
  正如文中所提到的,「低延迟」设置的循环性质在时域中的泛化具有挑战性,这可能会发生错误传播。理想情况下,只要研究评估的内容至少 T = 60 帧,就可以使用序列进行训练,但实际上由于内存限制,这在当前硬件上是不可行的。虽然我们最多可以将 T = 12 放入加速器中,但这样会使训练模型会变得非常慢。
  为了加速原型设计和训练新模型,以及防止展开(unrolling)问题,该研究采用以下训练方案。
  1) 仅在随机选择的帧上训练 E_I 、 G_I 、 D_I ,1 000000 step。
  2) 冻结 E_I、G_I、D_I ,并从 E_I 、G_I 初始化 E_res、G_res 权重。使用分阶段展开( staged unrolling )训练 E_flow、G_flow、E_res、G_res、D_P 450000step,即使用 T = 2 直到 80k step,T = 3 直到 300step,T = 4 直到 350step,T = 6 直到 400k,T = 9 直到 450k。
  该研究将其分为步骤 1) 和 2),因为经过训练的 E_I、 G_I 可以重新用于 P-frame 分支的许多变体,并且跨运行共享 E_I、 G_I 使其更具可比性。
  使用比例控制器在训练期间控制速率:超参数 λ_R 用来控制比特率和其他损失项(例如 GAN 损失等)之间的权衡。
  实验结果
  数据集:训练数据包括大约 992000 个时间 - 空间裁剪视频集,每个视频集长度 T 为 12 帧,每帧画面大小为 256×256,从 YouTube 的公开视频中获取。这些视频的分辨率至少为 1080p,长宽比至少为 16:9,帧率至少为 30 fps。
  模型和基准:基线称为「MSE-only」,并且该基准使用了与研究所用一样的架构和训练过程,但没有使用 GAN 损失。实验还与尺度空间流(Scale-Space Flow,SSF)进行了比较,这是最近的神经压缩方法,在 PSNR 方面与 HEVC 相当。最后,该研究与无学习的 HEVC 进行了比较。
  研究者在图 1 中总结了评分者偏好,并在图 7 中展示了性能指标。该研究与三种比特率下的 HEVC 进行了比较,结果证明该研究所用方法与 HEVC 在 0.064 bpp 下具有可比性 (14vs12),在 0.13bpp 下效果更佳(18vs9),在 0.22bpp 下性能也不错(16vs9)。
  为了评估 GAN 损失对视觉质量的影响,研究者在低速率 (≈ 0.064 bpp) 下将 GAN 损失与 MSE-only 和 SSF 进行了比较。如图 1 所示,在 MSE-only 下,在 30 次结果中只有 4 次结果较好,4 次平局,结果表明了 GAN 损失的重要性,并且 SSF 没有一次是首选、没有平局。研究者强调 MSE-only 仅在 PSNR 方面与 HEVC 相当(图 7),但在视觉质量方面明显更差。
  研究发现,下列组件对性能的提升至关重要:不使用「free latent」会引起模糊的重建效果,这类似于 MSE-only 基线产生的效果,如图 3 顶部所示。研究发现,使用「free latent」而不使用条件判别器也会导致模糊的重建效果。当信息不传递给 UFlow 时,实验结果会得到前后不一致的流,当信息传递给 UFlow 时,但没有使用流损失正则化(即公式 6),实验结果也不理想。因此,删除任何一个组件都会损害时间一致性,参见图 3 底部。
  总体来说,没有一个指标能够预测图 1 中的结果,但是 PIM 和 LPIPS 对一些比较进行了正确的排序。在神经图像压缩领域已经观察到了这种结果,其中最好的方法是由人类来排序的,因为目前还没有一种度量标准能够根据主观质量来准确地对这些方法进行排序。

可控核聚变,真的是未来科技绕不开的路?还是一场骗局?随着社会发展,人类对地球资源的利用效率越来越高,煤炭石油,天然气等这些是人类主要能源,然而这些资源都有是非可再生资源,即使利用率再高也总会有枯竭的一天,因此科学家试图在核能的利用上湘大张平教授团队在光解水制氢方面的研究成果发表于Cell子刊iScience(绿色合成具有优异光解水性能的三元催化剂)湖南日报新湖南客户端3月21日讯(通讯员赵园园)近日,由湘大土木工程与力学学院张平教授尹久仁教授和丁燕怀教授组成的团队在光解水方面的研究取在金星与火星的探索中,金星为何被频频冷落?金星的大小跟地球差不多,离地球也近,按理说确实更适合我们去探索,但是,金星的环境很恶劣,而我们人类对外星探索很大目的是寻找外星生命,与此相比,火星环境就更吸引人类目光。金星金星是离NASA望远镜探测到一种高速行进的宇宙炮弹美国国家航空航天局的天文学家已经发现了一种神秘的超高速宇宙炮弹一种脉冲星弹片,以每小时250万英里的速度飞行比普通的脉冲星快5倍。如果您对这个速度没有概念的话,可以这样解释它的行进科研人员发现欧亚北美大陆之间存在不对称量级生物扩散不同时期白令陆桥的地理格局。中国科学院成都生物研究所供图中新网成都3月21日电(记者贺劭清)记者21日从中国科学院成都生物研究所获悉,该研究所李家堂团队采用分子系统发育和生物地理数海水可以变成氢燃料了!未来要从海上获取能源了。科学家们可以将常规海水变成氢燃料海洋可能很快成为可再生能源的宝贵来源。斯坦福大学的一个科学家小组已经找到了一种用盐水制造氢燃料的方法。这一发现可以打开世界海洋作为潜在的能源。研究人超级月亮巧遇春分夜真相这种月亮并不罕见中分春一半,今日半春徂。春分时节,寒暑平,昼夜均,根据中国天文年历,今年的春分时节已于早晨5时58分悄然而至。巧合的是,本年度最后一次超级月亮也将在今晚闪耀夜空,陪伴人们进入明媚的资深行星饭开普勒追星我是认真滴!摄影TOMTROWER,NASA开普勒太空望远镜的桌面模型。2009年3月7日,这颗开创性的探测器发射升空,在天空中搜寻系外行星。他的任务是弄清楚像地球一样的行星在银河系中到底有多从神经网络到天体物理,还有什么是AI做不到的如今,物理学天文学实验所产生的海量信息是人类团队难以企及的。一些实验每天记录万亿字节的数据,并且不断累积增加。世界最大的射电望远镜项目SquareKilmeterArray预计在2小天体天涯海角或由不同石块组成新视野号团队制作的最新图片显示,天涯海角可能由许多不同的岩石块聚集而成。图片来源美国太空网科技日报北京3月20日电(记者刘霞)据美国太空网近日报道,在新视野号探测器飞掠天涯海角(UZiggy恒星形成的起落和古老恒星的丰富尘埃Ziggy恒星形成的起落和古老恒星的丰富尘埃研究人员在距离地球132亿光年的Eridanus星系MACS0416Y1中发现了来自大量星际尘埃的无线电信号。标准模型无法解释这么年轻的
时间膨胀效应,为什么是时间变慢了而不是钟变慢了?你错误的理解了测量时间膨胀效应的钟是我们日常生活中用到的钟了,此钟非彼钟,你理解意义上的钟是人工制造的钟,而测量时间膨胀效应的钟是天然的时间量度,所以不会出现你题目描述的问题。自从朝天开枪,子弹落地时的速度能有多快?有没有危险?朝天开枪,子弹落下来危险吗?这个是毫无疑问的,一颗子弹重约10克左右,10克对于这种细小的子弹来说已经算是不轻的了,而且,子弹发射时,其初速度拿步枪来说,步枪子弹的初速度可以达到7一个成年人徒手可以对抗斑鬣狗吗?斑鬣狗是非洲草原上的非洲二哥,大哥就是狮子,既然能够获得这样的称号,说明实力还是不凡的,在非洲草原上,几乎没有任何一种动物可以轻易招惹鬣狗,除了狮子。狮子有时候会抢夺斑鬣狗的猎物。11岁天才少女智商分数高出爱因斯坦2分,未来成就会媲美爱老吗?据最近的新闻介绍,又一个智商高于爱因斯坦的天才出现了,她是来自于英国艾尔斯伯里高中的学生,她的名字是塔拉夏利法,一位只有11岁的女孩。塔拉夏利法根据测试,塔拉夏利法的智商分数达到了人类赖以生存的地球是如何形成的?地球是怎么诞生的?遥远的138亿年以前,宇宙整个都是炙热的能量海洋,并迅速暴烈的膨胀着,随着温度的下降,氢氦原子核开始出现,在三分钟有限的时间内形成了现今宇宙所有的物质。大约大爆炸耸人听闻的费城实验是确有其事还是胡编乱造?费城实验,我敢肯定在座的各位有些人会认为确有其事,不过,事实真是如此吗?且听我慢慢道来这个所谓的费城实验故事是这样的,话说在遥远的1943年10月28日,那一天在美国宾夕法尼亚州费是天上的星星多还是地上的沙子多?宇宙中恒星的数量多还是地球上的沙子多,这是一个令人很为难的问题,因为恒星的数量没法去数,只能估计,就连老家的沙子有多少,依然没法数,还得靠估计,因此,得出来的结果必然还是一个估计值未来人类科技能不能制造出三体中的水滴探测器?在水滴登场的时刻,我几乎被震惊了。人类花费了数个世纪建造的庞大星河舰队在水滴面前却那么的不堪一击。就像古老的步兵方阵,他们面对的不是同级别的对手,而是诸如原子弹氢弹这样的超级现代武移民火星不仅仅只是设想就未来的太空计划来看,一是月球二是火星三是小行星带,它们都是人类前往更深太空的天然跳板,可以磨练科技储备技术,为将来更好的探索利用太空做准备。火星移民可以想象,未来人类肯定会走出地四川为什么多发地震?为什么四川总是发生地震?想知道为什么四川多发地震,需要知道地震的成因是什么?形象的比喻我们居住的环境可以这么来说我们就像居住在一个薄薄的蛋壳之上,蛋壳就是我们所说的板块,而板块又在如果我们很突兀地出现在四维空间中,会经历些什么?多维空间,这是大家一直科幻的一个话题,非常具有科幻色彩,因为不仅出现在科幻小说中,也经常出现在科幻电影之中,像在三体中,一群人进入了高维空间中,他们竟然看到了自己的内脏以及血液的流