范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

干货视频编码零基础入门

  如今我们所处的时代,是移动互联网时代,也可以说是视频时代。
  从快播到抖音,从"三生三世"到"延禧攻略",我们的生活,被越来越多的视频元素所影响。
  而这一切,离不开视频拍摄技术的不断升级,还有视频制作产业的日益强大。
  此外,也离不开通信技术的飞速进步。试想一下,如果还是当年的56K Modem拨号,或者是2G手机,你还能享受到现在动辄1080P甚至4K的视频体验吗?
  除了视频拍摄工具和网络通信技术升级之外,我们能享受到视频带来的便利和乐趣,还有一个重要因素,就是视频编码技术的突飞猛进。
  今天,我就给大家做一个关于它的零基础科普。
  图像基础知识
  说视频之前,先要说说图像。
  图像,大家都知道,是由很多"带有颜色的点"组成的。这个点,就是"像素点"。
  像素点的英文叫Pixel(缩写为PX)。这个单词是由Picture(图像)和Element(元素)这两个单词的字母所组成的。
  ▲电影《像素大战(Pixels)》,2015年
  像素是图像显示的基本单位。我们通常说一幅图片的大小,例如是1920×1080,就是长度为1920个像素点,宽度为1080个像素点。乘积是2,073,600,也就是说,这个图片是两百万像素的。
  1920×1080,这个也被称为这幅图片的分辨率。
  分辨率也是显示器的重要指标
  那么,我们经常所说的PPI又是什么东西呢?
  PPI,就是"Pixels Per Inch",每英寸像素数。也就是,手机(或显示器)屏幕上每英寸面积,到底能放下多少个"像素点"。
  这个值当然是越高越好啦!PPI越高,图像就越清晰细腻。
  以前的功能机,例如诺基亚,屏幕PPI都很低,有很强烈的颗粒感。
  后来,苹果开创了史无前例的"视网膜"(Retina)屏幕,PPI值高达326(每英寸屏幕有326像素),画质清晰,再也没有了颗粒感。
  像素点必须要有颜色,才能组成缤纷绚丽的图片。那么,这个颜色,又该如何表示呢?
  大家都知道,我们生活中的颜色,可以拥有无数种类别。
  光是妹纸们的口红色号,就足以让我们这些屌丝瞠目结舌…
  在计算机系统里,我们不可能用文字来表述颜色。不然,就算我们不疯,计算机也会疯掉的。在数字时代,当然是用数字来表述颜色。
  这就牵出了"彩色分量数字化"的概念。
  以前我们美术课学过,任何颜色,都可以通过红色(Red)、绿色(Green)、蓝色(Blue)按照一定比例调制出来。这三种颜色,被称为"三原色"。
  在计算机里,R、G、B也被称为"基色分量"。它们的取值,分别从0到255,一共256个等级(256是2的8次方)。
  所以,任何颜色,都可以用R、G、B三个值的组合表示。
  RGB=[183,67,21]
  通过这种方式,一共能表达多少种颜色呢?256×256×256=16,777,216种,因此也简称为1600万色。RGB三色,每色有8bit,这种方式表达出来的颜色,也被称为24位色(占用24bit)。
  这个颜色范围已经超过了人眼可见的全部色彩,所以又叫真彩色。再高的话,对于我们人眼来说,已经没有意义了,完全识别不出来。
  视频编码基础知识
  好了,刚才说了图像,现在,我们开始说视频。
  所谓视频,大家从小就看动画,都知道视频是怎么来的吧?没错,大量的图片连续起来,就是视频。
  衡量视频,又是用的什么指标参数呢?
  最主要的一个,就是帧率(Frame Rate)。
  在视频中,一个帧(Frame)就是指一幅静止的画面。帧率,就是指视频每秒钟包括的画面数量(FPS,Frame per second)。
  帧率越高,视频就越逼真、越流畅。
  有了视频之后,就涉及到两个问题,一个是存储,二个是传输。
  而之所以会有视频编码,关键就在于此:一个视频,如果未经编码,它的体积是非常庞大的。
  以一个分辨率1920×1280,帧率30的视频为例。
  1920×1280=2,073,600(Pixels像素)
  每个像素点是24bit(前面算过的哦)
  也就是每幅图片2073600×24=49766400bit
  8 bit(位)=1 byte(字节),所以,49766400bit=6220800byte≈6.22MB。
  这是一幅1920×1280图片的原始大小,再乘以帧率30,也就是说,每秒视频的大小是186.6MB,每分钟大约是11GB,一部90分钟的电影,约是1000GB…
  吓尿了吧?就算你现在电脑硬盘是4TB的(实际也就3600GB),也放不下几部大姐姐啊!
  不仅要存储,还要传输,不然视频从哪来呢?
  如果按照100M的网速(12.5MB/s),下刚才那部电影,需要22个小时…再次崩溃…
  正因为如此,屌丝工程师们就提出了,必须对视频进行编码。
  什么是编码?
  编码,就是按指定的方法,将信息从一种形式(格式),转换成另一种形式(格式)。
  视频编码,就是将一种视频格式,转换成另一种视频格式。
  编码的终极目的,说白了,就是为了压缩。
  各种五花八门的视频编码方式,都是为了让视频变得体积更小,有利于存储和传输。
  我们先来看看,视频从录制到播放的整个过程,如下:
  首先是视频采集。通常我们会使用摄像机、摄像头进行视频采集。限于篇幅,我就不打算和大家解释CCD成像原理了。
  采集了视频数据之后,就要进行模数转换,将模拟信号变成数字信号。其实现在很多都是摄像机(摄像头)直接输出数字信号。
  信号输出之后,还要进行预处理,将RGB信号变成YUV信号。
  前面我们介绍了RGB信号,那什么是YUV信号呢?
  简单来说,YUV就是另外一种颜色数字化表示方式。
  视频通信系统之所以要采用YUV,而不是RGB,主要是因为RGB信号不利于压缩。
  在YUV这种方式里面,加入了亮度这一概念。
  在最近十年中,视频工程师发现,眼睛对于亮和暗的分辨要比对颜色的分辨更精细一些,也就是说,人眼对色度的敏感程度要低于对亮度的敏感程度。
  所以,工程师认为,在我们的视频存储中,没有必要存储全部颜色信号。我们可以把更多带宽留给黑—白信号(被称作"亮度"),将稍少的带宽留给彩色信号(被称作"色度")。于是,就有了YUV。
  YUV里面的"Y",就是亮度(Luma),"U"和"V"则是色度(Chroma)。
  大家偶尔会见到的Y'CbCr,也称为YUV,是YUV的压缩版本,不同之处在于Y'CbCr用于数字图像领域,YUV用于模拟信号领域,MPEG、DVD、摄像机中常说的YUV其实就是Y'CbCr。
  YUV(Y'CbCr)是如何形成图像的
  YUV码流的存储格式其实与其采样的方式密切相关。(采样,就是捕捉数据。)
  主流的采样方式有三种,YUV4:4:4,YUV4:2:2,YUV4:2:0。
  具体解释起来有点繁琐,大家只需记住,通常用的是YUV4:2:0的采样方式,能获得1/2的压缩率。
  这些预处理做完之后,就是正式的编码了。
  视频编码的实现原理
  前面我们说了,编码就是为了压缩。要实现压缩,就要设计各种算法,将视频数据中的冗余信息去除。
  当你面对一张图片,或者一段视频的时候,你想一想,如果是你,你会如何进行压缩呢?
  ▲对于新垣女神,我一bit也不舍得压缩…
  我觉得,首先你想到的,应该是找规律。
  是的,寻找像素之间的相关性,还有不同时间的图像帧之间,它们的相关性。
  举个例子,如果一幅图(1920×1080分辨率),全是红色的,我有没有必要说2073600次[255,0,0]?我只要说一次[255,0,0],然后再说2073599次"同上"。
  如果一段1分钟的视频,有十几秒画面是不动的,或者,有80%的图像面积,整个过程都是不变(不动)的。那么,是不是这块存储开销,就可以节约掉了?
  以我们的签名图为例,只有部分元素在动,大部分是不动的
  是的,所谓编码算法,就是寻找规律,构建模型。谁能找到更精准的规律,建立更高效的模型,谁就是厉害的算法。
  通常来说,视频里面的冗余信息包括:
  视频编码技术优先消除目标,就是空间冗余和时间冗余。
  接下来,小枣君就和大家介绍一下,究竟是采用什么样的办法,才能干掉它们。
  以下内容稍微有点高能,不过我相信大家耐心一些还是可以看懂的。
  视频是由不同的帧画面连续播放形成的。
  这些帧,主要分为三类,分别是I帧,B帧,P帧。
  I帧,是自带全部信息的独立帧,是最完整的画面(占用的空间最大),无需参考其它图像便可独立进行解码。视频序列中的第一个帧,始终都是I帧。
  P帧,"帧间预测编码帧",需要参考前面的I帧和/或P帧的不同部分,才能进行编码。P帧对前面的P和I参考帧有依赖性。但是,P帧压缩率比较高,占用的空间较小。
  ▲P帧
  B帧,"双向预测编码帧",以前帧后帧作为参考帧。不仅参考前面,还参考后面的帧,所以,它的压缩率最高,可以达到200:1。不过,因为依赖后面的帧,所以不适合实时传输(例如视频会议)。
  ▲B帧
  通过对帧的分类处理,可以大幅压缩视频的大小。毕竟,要处理的对象,大幅减少了(从整个图像,变成图像中的一个区域)。
  如果从视频码流中抓一个包,也可以看到I帧的信息,如下:
  我们来通过一个例子看一下。
  这有两个帧:
  好像是一样的?
  不对,我做个GIF动图,就能看出来,是不一样的:
  人在动,背景是没有在动的。
  第一帧是I帧,第二帧是P帧。两个帧之间的差值,就是如下:
  也就是说,图中的部分像素,进行了移动。移动轨迹如下:
  这个,就是运动估计和补偿。
  当然了,如果总是按照像素来算,数据量会比较大,所以,一般都是把图像切割为不同的"块(Block)"或"宏块(MacroBlock)",对它们进行计算。一个宏块一般为16像素×16像素。
  将图片切割为宏块
  好了,我来梳理一下。
  对I帧的处理,是采用帧内编码方式,只利用本帧图像内的空间相关性。
  对P帧的处理,采用帧间编码(前向运动估计),同时利用空间和时间上的相关性。简单来说,采用运动补偿(motion compensation)算法来去掉冗余信息。
  需要特别注意,I帧(帧内编码),虽然只有空间相关性,但整个编码过程也不简单。
  如上图所示,整个帧内编码,还要经过DCT(离散余弦变换)、量化、编码等多个过程。限于篇幅,加之较为复杂,今天就放弃解释了。
  那么,视频经过编码解码之后,如何衡量和评价编解码的效果呢?
  一般来说,分为客观评价和主观评价。
  客观评价,就是拿数字来说话。例如计算"信噪比/峰值信噪比"。
  搞通信的童鞋应该对这个概念不会陌生吧?
  信噪比的计算,我就不介绍了,丢个公式,有空可以自己慢慢研究...
  除了客观评价,就是主观评价了。
  主观评价,就是用人的主观感知直接测量,额,说人话就是——"好不好看我说了算"。
  视频编码的国际标准
  接下来,我们再说说标准(Standard)。
  任何技术,都有标准。自从有视频编码以来,就诞生过很多的视频编码标准。
  提到视频编码标准,先介绍几个制定标准的组织。
  首先,就是大名鼎鼎的ITU(国际电信联盟)。
  ITU是联合国下属的一个专门机构,其总部在瑞士的日内瓦。
  ITU下属有三个部门,分别是ITU-R(前身是国际无线电咨询委员会CCIR)、ITU-T(前身是国际电报电话咨询委员会CCITT)、ITU-D。
  除了ITU之外,另外两个和视频编码关系密切的组织,是ISO/IEC。
  ISO大家都知道,就是推出ISO9001质量认证的那个"国际标准化组织"。IEC,是"国际电工委员会"。
  1988年,ISO和IEC联合成立了一个专家组,负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。这个专家组,就是大名鼎鼎的MPEG,Moving Picture Expert Group(动态图像专家组)。
  三十多年以来,世界上主流的视频编码标准,基本上都是它们提出来的。
  ITU提出了H.261、H.262、H.263、H.263+、H.263++,这些统称为H.26X系列,主要应用于实时视频通信领域,如会议电视、可视电话等。
  ISO/IEC提出了MPEG1、MPEG2、MPEG4、MPEG7、MPEG21,统称为MPEG系列。
  ITU和ISO/IEC一开始是各自捣鼓,后来,两边成立了一个联合小组,名叫JVT(Joint Video Team,视频联合工作组)。
  JVT致力于新一代视频编码标准的制定,后来推出了包括H.264在内的一系列标准。
  压缩率对比
  视频编码标准的发展关系
  大家特别注意一下上图里面的HEVC,也就是现在风头正盛的H.265。
  作为一种新编码标准,相比H.264有极大的性能提升,目前已经成为最新视频编码系统的标配。
  最后,我再说说封装。
  对于任何一部视频来说,只有图像,没有声音,肯定是不行的。所以,视频编码后,加上音频编码,要一起进行封装。
  封装,就是封装格式,简单来说,就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中。再通俗点,视频轨相当于饭,而音频轨相当于菜,封装格式就是一个饭盒,用来盛放饭菜的容器。
  目前主要的视频容器有如下:MPG、VOB、MP4、3GP、ASF、RMVB、WMV、MOV、Divx、MKV、FLV、TS/PS等。
  封装之后的视频,就可以传输了,你也可以通过视频播放器进行解码观看。
  最后的话
  好啦!额滴神啊,终于介绍完了…
  其实,小枣君之所以要做视频编码这么一个看似和通信无关的"跨界"专题,是有原因的。
  以前我上大学的时候,就有一门专业课程,叫图像识别,当时是我们学校的王牌专业,属于计算机系。那个时候我并不明白,图像识别到底是什么,为什么"画画"这种事情,会归为"计算机类"。
  后来,我才明白,所谓的"图像识别",就是让计算机看懂图像。怎么样才能看懂呢?就是把图像数字化。
  图像变成了数字,计算机就能从中找到规律,也就能对它进行分析(图像识别)和学习(机器学习)。
  这么多年过去了,图像识别取得了非常大的发展。我们渐渐发现,摄像头开始"认脸"了,停车场开始"看懂"车牌了,生活开始变得不一样了。
  更没有想到的是,机器学习和AI人工智能也因此迅速崛起,开始对传统技术发起挑战。
  前段时间很火的谷歌"你画我猜"程序,就是AI结合图像识别技术的一个"人机交互"经典案例。
  运算速度足够快,存储空间足够大,学习数据足够多,计算机可以海量分析图像和视频数据,寻找其中的规律,构建模型。如果这个AI足够强大,就能做出反应和处理。
  在电影《鹰眼》里,也描绘到这样的一个场景:强大的AI大脑,控制全球的视频摄像头,还有所有的计算机系统、武器系统,可以随时在全球范围内,找到想找到的人,并且干掉他。电影《速度与激情6》里,也有类似的场景。
  ▲电影《鹰眼》,2008年
  除此之外,还有3D视频、VR/AR等,也都是和图像视频密切相关的应用。
  总而言之,图像和视频识别是一个非常有前途的技术领域,也是AI人工智能的基础,值得深入进行研究。我们一直在寻找的5G爆款应用,也很可能与这个领域有关!
  好啦,今天的内容就到这里,感谢大家的耐心观看!

美股收跌,微软下跌3。62,哔哩哔哩跌逾6,拼多多跌7。6北京时间9月29日消息,对通胀的担忧和正在发酵的债务上限危机,刺激美国国债收益率上涨,打压科技板块普遍下跌。截至收盘,道指跌569。38点,跌幅为1。63,报收34299。99点标美股主要中概股全线上涨,蔚来理想汽车涨逾3,知乎上涨6。27北京时间9月28日消息,投资者预期美联储下个季度将缩减购债规模明年上调利率,美国国债利率上涨,科技板块下跌。截至收盘,道指涨71。37点,涨幅为0。21,报收34869。37点标普美股纳指微跌,阿里巴巴哔哩哔哩跌逾4,爱奇艺下跌6北京时间9月25日消息,今天美股涨跌不一,美国国债收益率上涨,纳指微跌。本周道指累计上涨0。62,标普500指数上涨0。51,纳指基本持平,仅上涨不到4个点。截至收盘,道指涨33。美股全线收高,知乎上涨7。55,百世大涨13北京时间9月24日消息,在能源和金融板块支持下,今天美股继续收回本周早些时候的失地,三大股指涨幅均超过1。截至收盘,道指涨506。5点,涨幅为1。48,报收34764。82点标普5美股收高,Facebook警告苹果变化影响业绩,微软推5款新硬件为Win11预热北京时间9月23日消息,美联储称将很快缩减刺激措施,认为美国经济发展状态良好,不会因支持力度减小而受到不利影响,美股大涨。截至收盘,道指涨338。48点,涨幅为1,报收34258。美股纳指小幅上涨,知乎动视暴雪跌逾4,Uber大涨11北京时间9月22日消息,投资者密切关注美联储货币政策会议结果,美股涨跌不一,纳指小幅上涨。截至收盘,道指跌50。63点,跌幅为0。15,报收33919。84点标普500指数跌3。5Facebook超10亿美元收购Kustomer获英国批准,有待欧盟和美国批准北京时间9月27日晚间消息,据报道,英国竞争与市场管理局(CMA)今日宣布,已批准Facebook收购Kustomer交易。CMA在一份声明中称,这笔交易不会明显削弱英国任何一个行三星电子赶超英特尔,成二季度全球最大芯片厂商北京时间8月2日下午消息,据报道,在2021年第二季度,三星电子(SamsungElectronicsCo。)赶超英特尔,成为全球最大的芯片生产商。但就在上周,英特尔宣布拿下高通订福特砸1亿美元建电池研发中心预计明年落成,或将开发固态电池7月28日消息,当地时间7月27日,福特汽车公司宣布福特全球电池研发中心FordIonPark将在美国密歇根州东南部的底特律郊区选址建设。该研发中心将会成为福特电池技术的研发生产基魅族Flyme九周年纪念T恤今日开售,价格129元IT之家7月30日消息据魅族官方微博,魅族在此前发布的Flyme九周年纪念T恤在今日正式开售,价格为129元。IT之家了解到,魅族的Flyme系统在6月25日迎来了九周年纪念日,魅荣耀终端有限公司注册资本增至约308亿元,增幅约160IT之家8月23日消息荣耀终端有限公司在4月份增资1875。77之后,近日又增资约160,注册资本增至约308亿元。企查查App显示,近日,荣耀终端有限公司发生工商变更,注册资本由
联发科展示5G基带芯片HelioM70向下兼容4G12月6日上午消息,芯片厂商联发科技参加广州中国移动全球合作伙伴大会,展示了旗下首款5G多摸整合基带芯片HelioM70。这也是该芯片自年中发布后首次现身国内市场。联发科技M70芯网易云音乐增资至5。89亿美元,增加比例为30。29IT之家3月22日消息据天眼查数据显示,3月18日,网易云音乐运营主体杭州网易云音乐科技有限公司注册资本由41075万美元增至58925万美元,增加比例30。29。同时,王诗沐卸任人民日报发布中国品牌发展指数华为第一,阿里第二IT之家12月18日消息今天,人民日报发布了中国品牌发展(企业)指数100榜单,华为以967。14分排名第一,阿里巴巴959。30分排名第二,以下是完整榜单。官方表示,人民日报中国不法分子伪造中央网信办举报中心撤稿邮件,官方发提醒感谢IT之家网友刺客的线索投递!IT之家10月31日消息国家网信办举报中心微信公众号昨天发布郑重声明有不法分子伪造中央网信办举报中心撤稿邮件,请各互联网企业注意防范。以下是声明全文网信办回应换脸应用ZAOApp涉嫌侵权9月18日下午消息,国务院新闻办公室今日举行新闻发布会,请国家互联网信息办公室副主任刘烈宏,中共浙江省委常委省委宣传部部长朱国贤,浙江省桐乡市委书记盛勇军介绍第六届世界互联网大会有知乎百科启动公共编辑计划,机构及个人用户均可参与11月19日消息,知乎旗下产品知乎百科正式启动公共编辑计划,邀请用户共同参与百科的内容公共创作,进一步完善结构化的内容展示机制。按照公共编辑计划,知乎用户有两种参与方式用户可以加入知乎周源互联网不能也不该永远停留在青春期新浪科技讯10月20日下午消息,第六届世界互联网大会于10月20日22日在浙江乌镇召开,本次大会以智能互联开放合作携手共建网络空间命运共同体为主题,知乎创始人兼CEO周源出席网上未周源谈知乎上线直播现在看还蛮受欢迎,将完善功能第六届世界互联网大会将于10月20日22日在浙江乌镇召开,本次大会以智能互联开放合作携手共建网络空间命运共同体为主题。今日大会嘉宾注册报到,知乎创始人CEO周源现身。知乎最近上线了直播会是根治知乎变现焦虑的良药吗?10月11日,随着6。15。0版本更新,知乎的直播业务正式上线。版本记录显示,知乎对直播内容的定位是有趣有料。而在最新的App预览图中,知乎也添加了直播功能的UI设计,留言表情栏打知乎正式上线直播业务10月11日消息,知乎称,在进行了一段时间的市场调研和内测运行后,知乎直播功能正式上线。在直播场景中,用户可以更加轻松直接地分享知识经验和见解,展开实时的讨论交流,获得来自主播的专谷歌赢得面部识别相关诉讼北京时间12月30日早间消息,据彭博社报道,美国芝加哥地区法官本周六驳回了一项针对谷歌面部识别的诉讼。有用户2016年3月起诉指控谷歌使用面部识别软件从照片中收集和存储生物特征数据