视频压缩标准MPEG-4和H.264的基础知识

2011-07-05 13:37:34 安锐通市场部 681

   

         MPEG-4详解


       MPEG-4标准将支持 7个新的功能。可粗略划分为3类:基于内容的交互性、高压缩率和灵活多样的存取模式。现分别介绍如下:


  1. 基于内容的交互性(Content-based interactivity)
  (1) 基于内容的操作与比特流编辑支持无须编码就可进行基于内容的操作与比特流编辑。例如:使用者可在图像或比特流中选择一具体的对象(Object)(例如图像中的某个人,某个建筑等等),随后改变它的某些特性。

  (2)自然与合成数据混合编码 提供将自然视频图像同合成数据(文本、图形)有效结合的方式,同时支持交互性操作。
  (3)增强的时间域随机存取 MPEG-4将提供有效的随机存取方式:在有限的时间间隔内,可按帧或任意形状的对象,对一音、视频序列进行随机存取。例如以一序列中的某个音、视频对象为目标进行"快进"搜索。
  2. 高压缩率(Compression)

  (l) 提高编码效率 在与现有的或正在形成的标准的可比拟速率上, MPEG-4标准将提供更好的主观视觉质量的图像。这一功能可望在迅速发展中的移动通信网中获得应用,但值得注意的是:提高编码效率不是MPEG-4 的唯一的主要目际。
  (2)对多个并发数据流的编码 MPEG-4 将提供对一景物的有效多视角编码, 加上多伴音声道编码及有效的视听同步。在立体视频应用方面, MPEG-4将利用对同一景物的多视点观察所造成的信息冗余, MPEG-4的这一功能在足够的观察视点条件下将有效地描述三维自然景物。
  3. 灵活多样的存取 (Universal access)
  (l) 错误易发环境中的抗错性( Robustness)
   "灵活多样"是指允许采用各种有线、线网和各种存储媒体,MPEG-4将提高抗错误能力(Error robustness capability),尤其是在易发生严重错误的环境下的低比特应用中(移动通信链路)。注意, MPEG- 4是第一个在其音、视频表示规范中考虑信道特性的标准。目的不是取代已由通信网提供的错误控制技术,而是提供一种对抗残留错误的坚韧性。例如:选择性前向纠错 ( Selective forward error correction),错误遏制(Error containment), 或错误掩盖(Error concealment)。
  (2)基于内容的尺度可变性(Content- based scalability)
  内容尺度可变性意味着给图像中的各个对象分配优先级。其中,比较重要的对象用较高的空间和或时间分辨率表示。基于内容的尺度可变性是 MPEG-4的核心,因为一旦图像中所含对象的目录及相应的优先级确定后,其它的基于内容的功能就比较容易实现了。对甚低比特率应用来说,尺度可变性是一个关键的因素, 因为它提供了自适应可用资源的能力。例如,这个功能允许使用者规定:对具有最高优先级的对象以可接受的质量显示,第二优先级的对象则以较低的质量显示,而其余内容(对象)则不予显示,可见,这种方式可最有效地利用有限的资源。

       H.264标准详解

timg.jpg


      JVT(Joint Video Team,视频联合工作组)于2001年12月在泰国Pattaya成立。它由ITU-T和ISO两个国际标准化组织的有关视频编码的专家联合组成。JVT的工作目标是制定一个新的视频编码标准,以实现视频的高压缩比、高图像质量、良好的网络适应性等目标。目前JVT的工作已被ITU-T接纳,新的视频压缩编码标准称为H.264标准,该标准也被ISO接纳,称为AVC(Advanced Video Coding)标准,是MPEG-4的第10部分。


  H.264标准可分为三档:


  基本档次(其简单版本,应用面广);
  主要档次(采用了多项提高图像质量和增加压缩比的技术措施,可用于SDTV、HDTV和DVD等);
  扩展档次(可用于各种网络的视频流传输)。
  H.264不仅比H.263和MPEG-4节约了50%的码率,而且对网络传输具有更好的支持功能。它引入了面向IP包的编码机制,有利于网络中的分组传输,支持网络中视频的流媒体传输。H.264具有较强的抗误码特性,可适应丢包率高、干扰严重的无线信道中的视频传输。H.264支持不同网络资源下的分级编码传输,从而获得平稳的图像质量。H.264能适应于不同网络中的视频传输,网络亲和性好。


一、H.264视频压缩系统


  H.264标准压缩系统由视频编码层(VCL)和网络提取层(Network Abstraction Layer,NAL)两部分组成。VCL中包括VCL编码器与VCL解码器,主要功能是视频数据压缩编码和解码,它包括运动补偿、变换编码、熵编码等压缩单元。NAL则用于为VCL提供一个与网络无关的统一接口,它负责对视频数据进行封装打包后使其在网络中传送,它采用统一的数据格式,包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。包头中包含存储标志和类型标志。存储标志用于指示当前数据不属于被参考的帧。类型标志用于指示图像数据的类型。VCL可以传输按当前的网络情况调整的编码参数。


二、H.264的特点


 
 H.264和H.261、H.263一样,也是采用DCT变换编码加DPCM的差分编码,即混合编码结构。同时,H.264在混合编码的框架下引入了新的编码方式,提高了编码效率,更贴近实际应用。H.264没有繁琐的选项,而是力求简洁的“回归基本”,它具有比H.263++更好的压缩性能,又具有适应多种信道的能力。
  H.264的应用目标广泛,可满足各种不同速率、不同场合的视频应用,具有较好的抗误码和抗丢包的处理能力。
  H.264的基本系统无需使用版权,具有开放的性质,能很好地适应IP和无线网络的使用,这对目前因特网传输多媒体信息、移动网中传输宽带信息等都具有重要意义。
  尽管H.264编码基本结构与H.261、H.263是类似的,但它在很多环节做了改进,现列举如下。
  1.多种更好的运动估计
  高精度估计
  在H.263中采用了半像素估计,在H.264中则进一步采用1/4像素甚至1/8像素的运动估计。即真正的运动矢量的位移可能是以1/4甚至1/8像素为基本单位的。显然,运动矢量位移的精度越高,则帧间剩余误差越小,传输码率越低,即压缩比越高。
  在H.264中采用了6阶FIR滤波器的内插获得1/2像素位置的值。当1/2像素值获得后, 1/4像素值可通过线性内插获得,
  对于4:1:1的视频格式,亮度信号的1/4 像素精度对应于色度部分的1/8像素的运动矢量,因此需要对色度信号进行1/8像素的内插运算。
  理论上,如果将运动补偿的精度增加一倍(例如从整像素精度提高到1/2像素精度),可有0.5bit/Sample的编码增益,但实际验证发现在运动矢量精度超过1/8像素后,系统基本上就没有明显增益了,因此,在H.264中,只采用了1/4像素精度的运动矢量模式,而不是采用1/8像素的精度。

  多宏块划分模式估计
  在H.264的预测模式中,一个宏块(MB)可划分成7种不同模式的尺寸,这种多模式的灵活、细微的宏块划分,更切合图像中的实际运动物体的形状,于是,在每个宏块中可包含有1、2、4、8或16个运动矢量。
  多参数帧估计
  在H.264中,可采用多个参数帧的运动估计,即在编码器的缓存中存有多个刚刚编码好的参数帧,编码器从其中选择一个给出更好的编码效果的作为参数帧,并指出是哪个帧被用于预测,这样就可获得比只用上一个刚编码好的帧作为预测帧的更好的编码效果。
  2.小尺寸4*4的整数变换
  视频压缩编码中以往的常用单位为8*8块。在H.264中却采用小尺寸的4*4块,由于变换块的尺寸变小了,运动物体的划分就更为精确。这种情况下,图像变换过程中的计算量小了,而且在运动物体边缘的衔接误差也大为减少。
  当图像中有较大面积的平滑区域时,为了不产生因小尺寸变换带来的块间灰度差异,H.264可对帧内宏块亮度数据的16个4*4块的DCT系数进行第二次4*4块的变换,对色度数据的4个4*4块的DC系数(每个小块一个,共4个DC系数)进行2*2块的变换。
  H.263不仅使图像变换块尺寸变小,而且这个变换是整数操作,而不是实数运算,即编码器和解码器的变换和反变换的精度相同,没有“反变换误差”。
  3.更精确的帧内预测
  在H.264中,每个4*4块中的每个像素都可用17个最接近先前已编码的像素的不同加权和来进行帧内预测。
  4.统一的VLC
  H.264中关于熵编码有两种方法。
  统一的VLC(即UVLC:Universal VLC)。UVLC使用一个相同的码表进行编码,而解码器很容易识别码字的前缀,UVLC在发生比特错误时能快速获得重同步。
  内容自适应二进制算术编码(CABAC:Context Adaptive Binary Arithmetic Coding)。其编码性能比UVLC稍好,但复杂度较高。


三、性能优势


  H.264与MPEG-4、H.263++编码性能对比采用了以下6个测试速率:32kbit/s、10F/s和QCIF;64kbit/s、15F/s和QCIF;128kbit/s、15F/s和CIF;256kbit/s、15F/s和QCIF;512kbit/s、30F/s和CIF;1024kbit/s、30F/s和CIF。测试结果标明,H.264具有比MPEG和H.263++更优秀的PSNR性能。H.264的 PSNR比MPEG-4平均要高2dB,比H.263++平均要高3dB。


四、新的快速运动估值算法


  新的快速运动估值算法UMHexagonS(中国专利)是一种运算量相对于H.264中原有的快速全搜索算法可节约90%以上的新算法,全名叫“非对称十字型多层次六边形格点搜索算法”(Unsymmetrical-Cross Muti-Hexagon Search)”,这是一种整像素运动估值算法。由于它在高码率大运动图像序列编码时,在保持较好率失真性能的条件下,运算量十分低,已被H.264标准正式采纳。 


 

关于我们

   深圳安锐通是一家从事视频物联网核心技术研发的公司。

公司的使命是让视频设备融入物联网,让它们的智慧为我们的生活服务......

查看更多

应用案列

联系我们

Copyright © 2017, 安锐通® All Rights Reserved. 粤ICP备15029157号

518109

0755-23776237

太阳能4G远程抓拍监控摄像头预警系统 安锐通

Powered by MetInfo 5.3.19