高性能MD5算法IP核的设计空间探索与分析-免费论文

高性能MD5算法IP核的设计空间探索与分析

Windows编程 2013-10-21　版权投诉上传论文复制论文网址上传用户：bai90

【VC++开源代码栏目提醒】：以下是网学会员为您推荐的VC++开源代码-高性能MD5算法IP核的设计空间探索与分析 - 会议论文，希望本篇文章对您学习有所帮助。


ＣＮ４３—１２５８／ＴＰ计算机工程与科学２００９年第３１卷第１１期ＩＳＳＮ１００７—１３０ＸＣＯＭＰＵＴＥＲＥＮＧＩＮＥＥＲＩＮＧ＆ＳＣＩＥＮＣＥＶ０１．３１．Ｎｏ．１１．２００９文章编号：１００７—１３０Ｘ（２００９）１卜００５８—０４高性能ＭＤ５算法ＩＰ核的设计空间探索与分析ＤｅｓｉｇｎＳｐａｃｅＥｘｐｌｏｒａｔｉｏｎａｎｄＡｎａｌｙｓｉｓｏｆＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＭＤ５ＩＰＣｏｒｅ原昊。

    吴东。

    谢向辉ＹＵＡＮｌｔａｏ，ＷＵＤｏｎｇ。

    ＸＩＥＸｉａｎｇ－ｈｕｉ（江南计算技术研究所，江苏无锡２１４０８３）（ＪｉａｎｇｎａｎＩｎｓｔｉｔｕｔｅｏｆＣｏｍｐｕｔｉｎｇＴｅｃｈｎｏｌｏｇｙ－Ｗｕｘｉ２１４０８３。

    Ｃｈｉｎａ）摘要：本文以ＢｌｕｅｓｐｅｃＳｙｓｔｅｍＶｅｒｉｌｏｇ高层硬件描述语言为工具，对ＭＤ５核心算法进行了设计空间探索，实现了全展开组合逻辑、全展开流水线、循环迭代、流水化的循环迭代四种结构，测试和分析了各种结构的性能和面积指标，完整掌握了ＭＤ５ＩＰ核的设计空间的各项参数。

     Ａｂｓｔｒａｃｔ：Ｔｈｉｓｐａｐｅｒｕｓｅｓａｈｉｇｈ－ｌｅｖｅｌｈａｒｄｗａｒｅｄｅｓｃｒｉｐｔｉｏｎｌａｎｇｕａｇｅｃａｌｌｅｄＢｌｕｅｓｐｅｃＳｙｓｔｅｍＶｅｒｉｌｏｇａｓｔｈｅｂａｓｉｃｔｏｏｌ，ｔａｋｅｓａｄｅｓｉｇｎｓｐａｃｅｅｘｐｌｏｒａｔｉｏｎｏｆｔｈｅｈａｒｄｗａｒｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｔｈｅＭＤ５ａｌｇｏｒｉｔｈｍ，ｉｍｐｌｅｍｅｎｔｓｆｏｕｒｄｉｆｆｅｒｅｎｔａｒｃｈｉｔｅｅ—ｔｕｒｅｓ，ｔｅｓｔｓａｎｄａｎａｌｙｚｅｓｔｈｅｐｅｒｆｏｒｍａｎｃｅａｎｄａｒｅａｏｃｃｕｐａｔｉｏｎｏｆｔｈｅｆｏｕｒａｒｃｈｉｔｅｃｔｕｒｅｓ，ａｎｄｇｅｔｓｔｈｅｃｏｍｐｌｅｔｅｐａｒａｍｅｔｅｒｓｏｆｔｈｅｄｅｓｉｇｎｓｐａｃｅｆｏｒ晒ＩＰＣｏｒｅｓ．关键词：ＭＤ５；ＢｌｕｅｓｐｅｃＳｙｓｔｅｍＶｅｒｉｌｏｇ；高性能加速计算Ｋｅｙｗｏｒｄｓ：溉：ＢｌｕｅｓｐｅｃＳｙｓｔｅｍＶｅｒｉｌｏｇ；ｈｉｇｈｐｅｒｆｅｒｍａｎｃｅａｃｃｅｌｅｒａｔｅｄｃｏｍｐｕｔｉｎｇｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００７—１３０Ｘ２００９．１１．０１５中图分类号：ＴＰ３０９文献标识码：Ａ来表示状态变化的动作（Ａｃｔｉｏｎ）。

    一个Ｂｌｕｅｓｐｅｃ程序的运１引言行过程可以描述为规则执行的序列，由于规则具有原子性，因此在保证语义正确的前提下，多条规则可以并行地执行。

     ＭＤ５报文摘要算法是目前应用最广泛的安全散列算在Ｂｌｕｅｓｐｅｃ中，模块的接口并不是由端口（Ｐｏｒｔ）来表爪的，法，广泛应用于网络消息认证、完整性检测等方面。

    随着网而是用方法（ｍｅｔｈｏｄ）描述接口的行为以及实施的条件，络通信带宽的日益增长，对高效ＭＤ５算法实现的需求日Ｂｌｕｅｓｐｅｃ通过方法的条件来保证方法是否可以被调用。

    方益增长，而传统的软件实现越来越难以满足迅速增长的性法的使用提高了设计的抽象层次，并减少了对于模块的错能需求，因此通过硬件来实现高速ＭＤ５算法就成为必然。

     误使用。

    目前Ｂｌｕｅｓｐｅｅ已经应用于一些大型的设计〔１〕中，目前主要的硬件设计方法是基于ＲＴＬ级的Ｖｅｒｉｌｏｇ等硬件一些现有的工作〔２〕表明，Ｂｌｕｅｓｐｅｃ实现的设计与ＲＴＬ级的描述语言的，但由于其抽象层次较低，设计和调试的难度都设计在性能和资源上基本相当。

    比较大，开发周期因而也相对较长，在这种传统设计模式下本文的主要工作是使用ＢｌｕｅｓｐｅｃＳｙｓｔｅｍＶｅｒｉｌｏｇ这一进行设计空间探索是非常困难的，因此就需要具有更高抽工具对ＭＤ５算法ＩＰ核的设计空间进行探索、实现和测试。

    象层次的工具和设计流程。

     ＢｌｕｅｓｐｅｃＳｙｓｔｅｍＶｅｒｉｌｏｇｒ〔ｕ是一种基于ＧＡＡ（Ｇｕａｒｄｅｄ２相关工作ＡｔｏｍｉｃＡｃｔｉｏｎ，简称ＧＡＡ）模型的高层次硬件描述语言，它可以方便地对设计进行仿真，并可以编译出可综合的Ｖｅｒ－目前，国内外现有关于ＭＤ５算法ＩＰ核的实现基本都ｉｌｏｇ代码。

    Ｂｌｕｅｓｐｅｃ中的基本操作被称为规则（Ｒｕｌｅ），每条是在ＲＴＬ级设计与实现的。

    ＳａｔｏｈＺ朝等在０．１３微米工艺规则包含一个布尔条件来指定规则是否有效，以及一个用下实现的ＭＤ５的ＡＳＩＣ算核共占用了１７７００门电路，频率 ·收稿日期：２００９—０７—１３；修订Ｅｌ期：２００９—０９—１０基金项目：国家９７３计划资助项日（２００７ＣＢ３１０９０７）；国家８６３计划资助项目（２００７ＡＡＯｌＺｌｌ７）作者简介：原吴（１９８４一），男．山西太原人，硕上生。

    研究方向为高性能计算机体系结构和可蘑构计算。

     通讯地址：２１４０８３江苏省无锡市３５信箱０３１号；Ｔｅｌ：（０５１０）８５１５５６３９；Ｅ－ｍａｉｌ：ｙｕａｎｈａ０２００３＠ｔｓｉｎｇｈｕ丑ｏｒｇ．ｃｎＡｄｄｒｅｓｓ：Ｐ．Ｏ．Ｂｏｘ３５—０３ｌ，Ｗｕｘｉ，Ｊｉａｎｇｓｕ２１４０８３．Ｐ．ＲＣｈｉｎａ５８可以达到２７７ＭＨｚ，吞吐量为２０９１Ｍｂｐｓ。

    但是，限于３．２全展开流水电路实现ＡＳＩＣ的成本，大部分研究还是采用ＦＰＧＡ作ＩＶＩＤ５算法的６４步运算是非常规则的，非常适合进行为实现平台。

    如Ｄｅｅｐａｋｕｍａｒ的设计〔４３在全迭代模式下可流水，以提高资源的利用率。

    将之前的全组合电路的结构以达到１６５Ｍｂｐｓ的吞吐量，在全展开模式下则可以达到加以改造，在每一步运算之间以及输入端和输出端加入寄３５４Ｍｂｐｓ。

    而Ｊａｒｖｉｎｅｎ〔５３等人使用ＶｅｒｔｅｘｌＩ实现的ＭＤ５算存器，就形成了一个６５级的流水线。

    但是，综合后发现，这核的吞吐量达到了７２５Ｍｂｐｓ。

    国内方面，戴紫彬教授等人样的设计需要４６０００多个ＬＥ（ＬｏｇｉｃＥｌｅｍｅｎｔ，简称ＬＥ），在Ａｌｔｅｒａ的ＡＣＥＸｌＫ平台上实现了３０８Ｍｂｐｓ的吞吐远远超过了芯片上的资源。

    造成这种情况的主要原冈是流量邛〕。

    张九华在ＶｉｒｔｅｘＸＶＣ５０芯片上实现了３６６Ｍｂｐｓ的水线中的每一级都各有一个５１２位和１２８位的寄存器保存吞吐量〔７〕。

    目前，已有的实现都是在传统的ＲＴＬ级设计分组和中间结果，整个流水线有６５级，因而消耗了大量的的，开发时间长，调试难度大，因此作者一般都只是根据自芯片资源。

    因此，必须对结构进行改进，减少寄存器的使己的理解实现的特定结构，缺乏对于整个设计空间的研究用。

    ＦＰＧＡ上除了ＬＥ和Ｒｅｇｉｓｔｅｒ之外，还有丰富的存储和探索，这也是本文工作所需解决的主要问题。

     器资源，如果能够将这些资源利用起来，就可以解决之前的问题。

    通过分析算法发现，算法中每一步的计算实际上只３ＭＤ５算法ＩＰ核的设计空间探索需要分组中的一个３２位的子分组，而且在每一轮中每个子与实现分组只需要参与一次运算。

    因此，如果可以对消息分组的保存和传递方式进行改造，就可以大大减少寄存器的占用。

     ＭＤ５算法〔８〕可以对任意长度的消息生成一个１２８位图２就是改进后的单个流水级的结构。

    的单向散列输出。

    在对消息进行一定的预处理之后，它以５１２位分组为单位来处理消息，输出为四个３２位子分组级联形成的１２８位散列值。

    ＭＤ５算法的核心部分主要分为四轮运算，每二轮各使用一种非线性函数对消息的子分组做１６步运算，其中单步所做的运算如下：ａ＝ｂ＋（（口＋（Ｆ（６，ｃ，ｄ）＋Ｍｆ＋正）＜＜＜ｓ）图２改进后的全流水设计中单个流水级的结构其中，ａ，ｂ、ｃ、ｄ为变量｝Ｍ表示一个子分组；正为一个与步在对流水级结构改进中，取消了原本在流水级之间的数ｉ相关的常数ｌ＜＜＜ｓ表示循环左移ｓ位。

    对于ＩｖＩＤ５５１２位的寄存器，保留了保存中间结果的１２８位寄存器，在算法中某一步来说，正和ｓ是固定的常数。

    Ｆ（ｂ。

    Ｃ，ｄ）为对每个流水级上增加了一个３２位宽的ＦＩＦ０。

    当一个分组送应的线性函数，分别如下：人算核之后，它的１６个子分组会分别送入第一轮运算的Ｆ（Ｘ，Ｙ，Ｚ）＝（Ｘ＆ｙ）ｌ（（一Ｘ）＆Ｚ）１６个流水级的ＦＩＦｏ中，每一个流水级在运算时从ＦＩＦｏＧ（Ｘ，Ｙ，Ｚ）＝（艇Ｚ）ｆ（ｙ＆（～乃）中取出３２位的子分组进行运算，同时将这个子分组送入下Ｈ（Ｘ，Ｙ，Ｚ）＝Ｘ．Ｙ２一轮对应流水级的ＦＩＦｏ中。

    这些ＦＩＦ＿ｏ可以被综合成为ｊ（Ｘ；ｙ，Ｚ）＝ｙ＾（ＸＩ（～乃）ＦＰＧＡ的片上存储器。

    因而节约了寄存器资源，通过测试，当四轮６４步运算完成之后，将第６４步之后得到的口、改进后所需要的ＬＥ降到了２４０００左右。

    ６、ｆ、ｄ分别加上四个初始化值就是算法的最终结果。

     ３．３循环迭代实现ＭＤ５算法的硬件实现可有多种结构，各种结构所占用的资源、运行速度、吞吐率及与外界的接口都不尽相同。

    下前面两种结构的基础都是将ＭＤ５的６４级运算完全展面对ＭＤ５算法的硬件结构进行设计空间探索和实现。

     开，每一步运算都实例化了相应的组合电路，这样占用的芯片面积比较大。

    而且每一拍至少需要送入一个５１２位的分３．１全展开组合电路实现组，输出为１２８位。

    不适合对芯片的面积和接口有约束的情ＩＶｌＤ５算法中相邻两步之间都是有数据依赖关系的，因况。

    原始的ＭＤ５算法实际上是串行的算法，每一轮的１６此６４步运算必须串行地完成。

    纯组合电路方式就是将步运算除了循环左移的ｓ位之外，其它部分都是固定的，因ＩＶｌＤ５算法的６４步运算完全展开，完全使用组合电路来实此可以进行资源复用，通过循环迭代的方式来实现算法。

    现。

     在这种结构下，整个电路中每轮只有一个非线性函数的实例，对于一个分组输入，按照算法进行６４轮循环计算，每一轮根据循环变量的不同，选择不同计算模块和参数如图３所示。

    这种结构使电路的规模达到最小，同时接口的图１纯组合电路ＩＶＩＤ５算法实现的结构宽度也可以减小，每拍只需要送入本轮所需的３２位子分组在这种结构下，数据依次流过６４级运算的组合电路，即可，绍果的输出也可以通过依次输出４个３２位分组实得到最终结果。

    由于算法中每一步的运算量都比较大，数现。

    这种结构实现了资源的最小化，但吞吐率只有同样频据完全通过６４步组合电路的延时将非常大，同时由于对每率全流水实现的ｔ／６４。

    一步运算都实现了相应的组合电路，所占用的资源也比较３．４循环迭代流水化实现大。

    因此，这种结构没有太大的实用价值，但可以在资源占循环迭代实现了资源利用的最小化，但吞吐率下降了用和延时等方面作为其它结构的参考。

     ６４倍。

    通过对其结构进行观察发现，当进行某一轮的运算５９来保证数据的输入和输出。

     全迭代结构所占用的资源是最少的，但最高频率只能达到５２．７ＭＨｚ，这主要是由算法流程的调度所带来的额外开销所造成的。

    四级流水占用的资源比全迭代增加较多，主要原因是每一级流水内部都需要独立的流程控制部件，外部还需要对四级流水线整体进行控制，因此资源开销增图３循环迭代实现的基本结构加较大。

    但是，相对全流水结构面积还是小得多，性能比全时，其它三轮对应的计算资源是处于空闲状态的，因此可以迭代提高了４倍，３２位的输入输出接口在实际应用中具有对这四轮运算实现流水化。

    以每一轮作为一级流水，在两较大优势。

    级之间加入寄存器，实现了四级循环迭代的流水线，如图４４．２与同类研究的比较所示。

     为了考查Ｂｌｕｅｓｐｅｃ生成的硬件的性能，在公开发表的资料中选择三组ＲＴＩ．实现作为参考，利用Ｂｌｕｅｓｐｅｃ在相同器件上实现相同的结构，得到的测试结果如表２所示。

     从表２可以看出，对于同样的硬件结构，使用１３１ｕｅｓｐｅｃ所综合出的电路，在资源占用和时钟频率上都与经过人工图４四级流水的循环迭代结构优化的ＲＴＩ，级设计基本相当，在某些方面还略高一点，这这是一种比较均衡的结构，既保持了芯片资源的低占充分证明了Ｂｌｕｅｓｐｅｃ在硬件描述卜的性能。

    而在开发效用率，又能够充分利用已有的资源，３２位的输入接口可以率上，Ｂｌｕｅｓｐｅｃ则具有更大的优势，我们将ＭＤ５算法核心不停地送入数据，最大程度地利用ｒ现有资源。

     部分实现的代码量进行了对比，如表３所示。

     表３ＭＤ５核心算法代码■比较４测试数据与分析本文所采用的测试方法是，将ＢＩｕｅｓｐｅｃ生成的Ｖｅｒｉｌｏｇ代码在Ｅｌｂａ工具中对某个目标芯片进行综合，可以得到表３中Ｂｌｕｅｓｐｅｃ的代码量为本文实现循环迭代结构的设计所占用的资源和最高运行频率。

    本文的测试环境为：源代码行数，总共１７４行。

    而开源网站ＯｐｅｎＣｏｒｅｓ所提供软件为ＡｈｅｒａＱｕａｒｔｕｓＩＩ８．０ＳＰｌ，硬件采用Ａｌｔｅｒａ公司的的实现相同功能的Ｖｅｒｉｌｏｇ代码【ｌｏ〕要３９０行。

    ＲＦＣＣｙｃｌｏｎｅＩＩＥＰ２Ｃ３５Ｆ６７２Ｃ６芯片。

     １３２１【１２ｊ中给出的ＭＤ５算法的Ｃ语言参考实现中，实现相４．１四种结构的比较与分析应功能的核心代码长度约为３５０行。

    这组数据充分说明了本文所实现的四种结构在上述环境下的测试结果如表Ｂｌｕｅｓｐｅｃ代码描述的高效性，这主要得益于１５１ｕｅｓｐｅｃ有较１所示。

     高的抽象层次，以及对行为的原子性约束，既具备了较强的全组合电路的实现可以作为一个基本的参考，由总延描述能力，又保证了代码的高效性。

    Ｂｌｕｅｓｐｅｃ所提供的模时７８５ｎｓ可以算出平均每一步运算的延时大约为１２ｎｓ，因拟工具Ｂｌｕｅｓｉｍ叮以快速地对电路进行功能验证，并得到此在其它结构下周期不呵能小于这个延时。

     输出波形，这对于提高设计效率也有很大的帮助。

    通过以全流水结构综合的结果最小周期约为１２．５ｎｓ，已经非 .

原创
版权说明

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
- 相关文章
- 最新文件
特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

高性能MD5算法IP核的设计空间探索与分析