基于DM642的X264开源代码实现的研究-免费论文

基于DM642的X264开源代码实现的研究

Windows编程 2013-9-15　版权投诉上传资料复制论文网址上传用户：zhangjian

【VC++开源代码栏目提醒】：网学会员鉴于大家对VC++开源代码十分关注，论文会员在此为大家搜集整理了“基于DM642的X264开源代码实现的研究 - 行业软件”一文，供大家参考学习
ＤＳＰ开发与应用文章编号：１００８—０５７０（２００７）１２－２—０１８１－０３基于ＤＭ６４２的Ｘ２６４开源代码实现的研究ＲｅｓｅａｒｃｈｏｎＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆ）（２６４ＢａｓｅｄｏｎＤＭ６４２（中国农业大学）谭超王库傅颖ＴＡＮＣＨＡＯＷＡＮＧＫＵＦＵＹＩＮＧ摘要：本文概述了Ｈ．２６４视频压缩编码标准的主要特性，简要介绍了当前Ｈ．２６４的几种开源软件，详细分析了其中Ｘ２６４参考程序的具体结构，并针对ＴＭＳ３２０ＤＭ６４２平台建议了可能的优化方向。

    关键字：Ｈ．２６４；开源软件；ｘ２６４；ＴＭＳ３２０ＤＭ６４２；优化中图分类号：ＴＮ９１９．８１文献标识码：ＢＡｂｓｔｒａｃｔ：ＴｈｉｓｐａｐｅｒｇｉｖｅｓａｓｕｍｍａｒｙｏｆＨ．２６４，ｂｒｉｅｆｌｙｉｎｔｒｏｄｕｃｅｓｓｅｖｅｒａｌｃｏｍｍｏｎ－ｕｓｅｄｏｐｅｎｓｏｕｒｃｅｓｏｆｔｗａｒｅｂａｓｅｄｏｎＨ．２６４，ａｎａｌ－ｙｓｅｓｔｈｅｓｔｒｕｃｔｕｒｅｏｆＸ２６４ｉｎｄｅｔａｉｌ，ａｎｄｄｅｓｃｒｉｂｅｓｔｈｅｍｏｓｔｉｍｐｏｒｔａｎｔｏｐｔｉｍｉｚａｔｉｏｎｍｅｔｈｏｄｓｆｏｒｉｍｐｌｅｍｅｎｔｉｎｇＸ２６４ｏｎＴＭ￥３２０ＤＭ６４２。

    Ｋｅｙｗｏｒｄｓ：Ｈ．２６４，ＯｐｅｎＳｏｕｒｓｅＳｏｆｔｗａｒｅ，Ｘ２６４，ＴＭＳ３２０ＤＭ６４２，Ｏ’ｐｆｉｍｉｚａｆｉｏｎ引言２Ｘ２６４代码分析Ｈ．２６４／ＡＶＣ是ＩＳＯ／ＩＥＣ和ｒ１１ｕ—Ｔ两大国际标准化组织联合本文所介绍的ｘ２６４为０６０４１８版．下文所提到的程序结构制定的新一代视频编码标准。

    它引人多种宏块划分、多模式的和运行结果如不作特殊说明均针对该版本。

    帧内和帧间预测编码、高精度亚像素运动估计、多参考帧运动补代码的实现流程如图１所示。

     　偿等技术，提高了压缩比；采用整数ＤＣＴ变换，避免了精度的损失。

    在码流结构上，提出ＶＣＬ层和ＮＡＬ层的概念，其中增加的ＮＡＬ层负责将编码器的输出码流适配到各种类型的网络中．提供了友好的网络接Ｉ：１。

    同时，标准提供的许多工具如参数集、灵活的宏块排列次序、冗余片等．使得Ｈ．２６４的码流在网络中传输时具有更强的抗误码性能。

    基于Ｈ．２６４的实时编解码器设计与实现已经成为当前视频通信领域的热点问题。

     １Ｈ．２６４开源代码简介Ｈ．２６４所具有的独特优势促进了与之对应的开源软件的开发与应用。

    目前常见的Ｈ．２６４开源软件编解码器有以下三种：１）ＪＭＨ．２６４的官方测试源码，由德国ＨＨＩ研究所负责开发。

    该代码旨在实现Ｈ．２６４的所有特性，因而结构冗长，编码复杂度极高，多用于学术研究，不适于实际应用。

     ２）Ｘ２６４Ｘ２６４是由法国巴黎中心学校的中心研究所于２００４年６月发起．并由许多视频编码爱好者共同完成的项目。

    其目标是实现实用的２６４编码器，所以它引入ＭＭＸ、ＳＳＥ等汇编指令来提高编码速度，同时摒弃了一些耗时但对编码性能提高微小的模块．如多参考帧等。

     ３）０６４图１Ｘ２６４编码流程图由中国视频编码自由组织联合开发的Ｈ．２６４编解码器。

    它整个代码的执行可以分为以下三个部分：和Ｘ２６４一样注重实用，吸收了ＪＭ、Ｘ２６４、ＸＶＩＤ的优点。

    但其解１）数据的读入与存放码器只能解ｒ１２６４编码器生成的码流。

     Ｘ２６４开辟了ｕｎｕｓｅｄ、ｎｅｘｔ、ｃｕｒｒｅｎｔ、ｒｅｆｅｒｅｎｃｅ等区域分别保存未处理原始隐片序列、即将编码帧序列、当前编码帧和参考帧序谭超：硕士研究生列，Ｉ司时还开辟了ｆｅｎｃ和ｆｄｅｃ区域用于存放已编码帧和重构帧。

     万方数据＠四霸邮局订阮８２舶３６０Ｘ．，／－１８ｌ一ＤＳＰ开发与应用中文核心期刊《微计算机信息》（嵌入式与ＳＯＣ）２００７年第２３卷第１２·２期程序按以下顺序读人数据：首先，从ＹＵＶ数据文件中读取利用ｘ２６４＿ｍａｃｒｏｂｌｏｃｋ＿ｃａｃｈｅ＿ｓａｖｅ０数将当前ＭＢ最下一数据存到临时变量ｐｉｃ—ｉｎ，同时为ｕｎｕｓｅｄ开辟存储空间，并用行和最右一列的子块的编码模式保存到ｉｎｔｒａ４ｘ４一ｐｒｅｄｍｏｄｅ。

    将ｆｅｎｃ指针指向这个空间。

    接着，将ｐｉｃ—ｉｎ中的图片数据拷贝到子块非零参数的个数保存到ｎｏｎ—ｚｅｒｏ—ｃｏｕｎｔ中，以备下一次预ｆｅｎｃ所指向的区域，并在拷贝完成后对图片大小进行判断，如果测编码采用。

    最后，统计ＭＢ信息，更新参考帧列表，并从ｕｎｕｓｅｄ长宽不为１６的整数倍则进行像素扩展：将处理后的ｆｅｎｃ区域区域取出新的帧放人ｆｅｎｃ区域以备下次编码。

    数据放入ｎｅｘｔ区域。

    之后，如果存在Ｂ帧，则从ｎｅｘｔ区域取出Ｂ３）数据的输出帧以后的Ｐ帧放到ｃｕｒｒｅｎｔ区域中，也就是说先编码Ｉ、Ｐ帧再编对ＮＡＬ编码数据加上ＮＡＬ头信息组成完整的ＮＡＬ单元，码之间的Ｂ帧；否则，直接从ｎｅｘｔ区域取出一帧存入ｃｕｒｒｅｎｔ区输出到本地文件。

    域。

    此时ｃｕｒｒｅｎｔ区域中存放的就是已经过预处理的即将要编码３Ｘ２，６４在ＴＭＳ３２０ＤＭ６４２平台上的的帧鳌孥了只＃曼：皂－于．ｆｅｎｃ譬域是芝鼍嗖烹警对象，再将ｃｕｒ－移植与优化ｒｅｎｔ区域中的内容拷贝到ｆｅｎｅ中正式开始编码。

     一。

    原女商）【２：函代码是基于ＰＣ平台的，程序通过采用ＭＭＸ２）数据的压缩编码和ＳＳＥ语言编写ＳＡＤ、ＤＣＴ等函数使Ｘ２６４具有很高的编码速 ①判断帧类型。

    初始化相关参数度。

    而在实际应用中，要想实时实现Ｈ．２６４的复杂算法，必须借如果是ＩＤＲ帧．意味着是一个新切片的开始。

    在Ｈ．２６４中助ＤＳＰ这样具有超强运算能力的嵌入式平台。

    本文采用为了防止编码错误扩散规定当前切片不以本切片以外的其它ＴＭＳ３２０ＤＭ６４２开发板作为实现和开发的平台，并在其上进行代帧为参考，因而遇到ＩＤＲ帧需要重置参考帧区域。

    同时，将ＳＥＩ码的移植和优化。

    （ＳｅｑｕｅｎｃｅＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒ１）ＴＭＳ３２０ＤＭ６４２硬件平台简介Ｓｅｔ）分别单独写入ＮＡＬ单元。

    这三Ｓｅｔ）和ＰＰＳ（ＰｉｃｔｕｒｅＰａｒａｍｅｔｅｒＴＭＳ３２０ＤＭ６４２是一款基于ｒＩ’Ｉ的第二代高性能超长指令字个参数集集合了编解码的核心参数。

    直接关系解码端能否正常（ＶＬＩＷ）架构ｖｅｌｏｃｍ．２（ｔｍ）的高性能ＤＳＰ，该器件是目前计算密解码。

    如果不是ＩＤＲ帧，依据帧类型设定当前ＮＡＬ单元的类型集型视频，图像应用领域的理想选择，其主要特点如下：和切片类型。

     ①增强功能单元：ＤＭ６４２的８个功能单元中的ＶｅｌｏｃｉＴＩ．２接着进行一系列初始化参数的操作，包括建立关于参考帧扩展包括加速视频与影像应用性能的新指令。

    的ｌｉｓｔ０和ｌｉｓｔｌ。

    初始化量化参数ＱＰ、ＭＶ、参考帧等相关变量， ②Ｌ１／Ｌ２分级存储器结构：１６ＫＢ直接映射的Ｌ１Ｐ程序高初始化比特流的起始位置和大小等。

     Ｌ２统一映速缓存，１６ＫＢ双路关联ＬＩＤ数据高速缓存，２５６ＫＢ ②以宏块为单位对视频数据进行编码射ＲＡ＾垂腐速缓存（灵活的ＲＡＭｌ『缓存分配）。

     　在进行预测编码之前必须得到周围块的相关信息。

    在Ｘ２６４ ③６４位外部存储器接Ｎ（ＥＭｌｌ０：可实现与异步存储器和同中开辟了ｉｎｔｒａ４ｘ４＿ｐｒｅｄ＿ｍｏｄＢ和ｎｏｎ＿ｚｅｒｏ＿ｃｏｕｎｔ区域用来存放步存储器无缝连接。

    当前宏块左侧和上侧相邻宏块的预测模式和非零值个数。

    在编 ④增强型直接存储器存取（ＥＤＭＡ）控制器（６４个独立通道）。

    码开始之前通过ｘ２６４＿ｍａｃｒｏｂｌｏｃｋ＿ｃａｃｈｅ＿ｌｏａｄ０函数将相关数据以ＤＭ６４２为硬件平台开发视频编码器．开发者可以充分利载入缓存。

    然后，利用ｘ２６４＿ｍａｃｒｏｂｌｏｅｋ．ａｎａｌｙｓｅ０数分析参数，用其硬件特性．提高视频编解码算法的运算速度。

    确定最佳编码模式。

    Ｉ片从９种４ｘ４模式和４种１６ｘ１６模式中选２）Ｘ２６４的移植择模式：Ｐ片选择帧间预测模式下的宏块分割方式或帧内预测由于适用于ＰＣ机通过ＭＭＸ和ＳＳＥ编写的代码在ＤＳＰ上模式下的４ｘ４模式和１６ｘ１６模式。

    接着，用ｘ２６４＿ｍａｃ．无法运行．想要使Ｘ２６４代码在ＤＭ６４２上运行，必须将原来的ｒｏｂｌｏｃｋ＿ｅｎｅｏｄｅｏｉ垂ｉ数对宏块进行编码。

    编码过程严格按照编码代码加以修改使其变成纯ｃ语言的代码。

    具体做法是：在Ｘ２６４框架中规定的ＤＣＴ变换、ｚｉｇｚａｇ扫描和熵编码的过程以先亮度代码中将ＨＡＶＥ＿ＭＭＸ编译选项屏蔽，同时将代码中与该编译块再色度块的顺序进行。

    需要声明的是编码过程对ＤＣ参数和选项相关的代码注释掉。

    当程序成为纯ｃ代码时，就可以开始ＡＣ参数的处理是分开进行的：首先对整个宏块进行ＤＣＴ变换，往ＤＭ６４２上移植了。

    然后将亮度块和色度块的ＤＣ参数抽出分别组成４ｘ４和２ｘ２的然而。

    ＤＳＰ开发工具ＣＣＳ有自己的ＡＮＳＩＣ编译器和优化子块并对剩余ＡＣ参数进行量化扫描。

    接着对ＤＣ子块再进行器，并有自己的语法规则和定义。

    所以需要将代码作相应修改，Ｈａｄｍａｒｄ变换、量化、ｚｉｇｚａｇ扫描、反变换、反量化，再对剩下的使其完全符合ＤＳＰ中ｃ的规则，同时要配置ＣＣＳ的编译选项，ＡＣ参数进行反量化．最后将处理后的ＤＣ子块和Ａｃ子块重新才能使）【２６４在ＣＣＳ和ＶＣ下运行产生的结果一致。

    这个过程组合并对组合后的宏块进行ＩＤＣＴ变换。

     称为代码的ＤＳＰ化。

     以上过程完毕以后．统计ＣＢＰ（ＣｏｄｅｄＢｌｏｃｋＰａｔｔｅｒｎ）信息。

    ＣＢＰ一共６ｂｉｔ，用于表示当前宏块是否存在非零值，主要用于决由于纯ｃ语言编写的程序无法利用ＤＳＰ的并行处理机制，定熵编码时采用的码表。

    其中．高２ｂｉｔ表示２个８ｘ８色度块的此时代码的运行速度非常慢。

    在ＤＭ６４２平台上，对相同的ＹＵＶＣＢＰ（２：Ｃｂ、Ｃｒ中至少一个４ｘ４块的ＡＣ系数不全为０；ｌ：Ｃｂ、Ｃｒ数据（此处采用ｃｏｎｔａｉｎｅｒ．ｑｃｉ｛）进行编码，若采用带Ｘ８６汇编的中至少一个２ｘ２的Ｄｃ系数不全为０；０：所有色度系数全０）。

    低ｘ２６４代码（ＯＣＴ和ＳＡＤ部分采用汇编代码）在Ｖｃ环境下运行，４ｂｉｔ分别对应４个８ｘ８亮度块，第ｉ位（ｉ＝０、ｌ、２、３）表示一个ＭＢ编码速度能达到ＱＣＩＦ６０ｆｐ．：若将代码改为纯Ｃ语言仍然在Ｖｃ中第ｉ行的４个４ｘ４子块是否有非零参数。

    若存在非零值，则将下运行，则编码速度马上降到ＱＣＩＦｌＯｆｔｓ；将该代码稍作修改相应位置１。

    将各子块的非零值个数保存到ｎｏｎ＿ｚｅｒｏｃｏｕｎｔ区移植到ＤＭ６４２的硬件平台。

    用ＣＣＳ编译，编码速度仅能达到１域。

    使用先前得到的ＣＢＰ查相应码表进行熵编码，将编码参数帧施秒。

    这样的速度离实时处理的目标还非常遥远。

    和编码数据写入比特流。

     所以，必须结合ＤＳＰ本身的特点，对代码进行优化，才能在 ③保存编码信息ＤＭ６４２平台上实现Ｘ２６４对视频图像的实时处理。

    一１８２—３６０元，年邮局订阅号：８２－９４６万方数据ＤＳＰ开发与应用３）Ｘ２６４的优化ａｎｄｉｍａｇｅｐｒｏｃｅｓｓｉｎｇ．Ｘ２６４代码的优化分为三个层次：项目级优化，算法级优化（１０００８３北京中国农业大学信息与电气工程学院）谭超王库和指令级优化。

     傅颖 ①项目级优化：主要通过设置ＣＣＳ编译器的选项，调整代码通讯地址：（１０００８３北京市海淀区清华东路１７号中国农业大结构和合理分配内存来实现。

    如设置一０３选项，将常用数据分配学东校区２４２信箱）谭超到访问速度高的片内内存等。

     （收稿日期：２００７．９．１３）修稿日期：２００７．１１．１５） ②算法级优化：提出快速高效算法，从算法上挖掘潜力，提高运行速度，达到优化目的。

    用Ｘ２６４支持的４种运动估计算法（上接第２１９页）（菱形搜索算法、六边形搜索算法、非对称十字型多层次六边形格点搜索算法和连续消除法）处理同样的ＹＵＶ数据（此处仍为ｃｏｎｔａｉｎｅｒ．ｑｃｉ０，编码速度分别为１３ｆｐｓ、１ｌｆｖｓ、９ｆｐｓ和ｆｐｓ，可见通过仿真波形可以看出，设计结果正确地发送和接收一帧不同的运动估计算法引起的编码速度的差别非常明显。

     数据并产生相应的中断，ＣＰＵ可以实时读取工作状态，整个设 ③指令级优化：这部分又可以分为ｃ语言级的优化和汇编计的正确性和完整性得到验证，各项功能均达到预期的要求。

    级的优化。

    前者主要包括消除冗余代码、调整数据类型、优化程由此，可以证明，上述所编写的ＶｅｒｉｌｏｇＨＤＬ程序，已具备了序结构、打开ｆｏｒ循环和充分利用内联函数等操作。

    后者主要是ＵＡＲＴ的功能ｉ将耗时函数抽取出来，用线性汇编改写，充分利用丰富的媒体处理指令，最大限度的利用ＤＳＰ的并行性，加快编码速度。

    汇编级４结束语优化涉及到的主要部分有ＳＡＤ计算、ＤＣＴ变换、反ＤＣＴ变换、本设计完全采用Ｖｅｒｉｌｏｇ语言进行描述．用ＦＰＧＡ实现了量化等过程比较规范，重复性比较高的计算过程。

     ＵＡＲＴ通信功能，可以实现对数据的接收和发送，并可以在接收４结束语数据时对其校验位、停止位进行判断，在发送数据时可以形成完整的一帧数据格式。

    其接收和发送数据的时钟有内部波特率发目前，Ｈ．２６４视频编码技术以其独有的优势，受到业界几乎生器产生，根据预置的分频系数，对外部时钟进行分频，产生需要所有主流视频相关设备、产品厂商的支持。

    由于完全独立开发的接收或发送时钟。

    本文作者的创新点是在异步时钟的同步问编解码器所需要的人力和物力都很大，许多公司和团体都采用题上．根据不同波特率的下降沿形成了一个脉冲信号用于控制直接修改移植开源代码的方式以求缩短开发周期。

    在目前可选发送和接收。

    同时用.

原创
版权说明
上一篇：VC6++《可视化编程》钟表程序实验报告
下一篇：西班牙语医院科室名称

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

基于DM642的X264开源代码实现的研究