程序代码相似度识别的研究-免费论文

程序代码相似度识别的研究

Windows编程 2013-10-19　版权投诉上传论文复制论文网址上传用户：斤斤计较

【VB开源代码栏目提醒】：网学会员在VB开源代码频道为大家收集整理了“程序代码相似度识别的研究 - 其它论文“提供大家参考，希望对大家有所帮助!
内蒙古师范大学硕士学位论文程序代码相似度识别的研究级别：硕士专业：教育技术学指导教师：刘东升 20060615 中文摘要程序代码相似度识别是利用一定的检测手段度量两个程序代码间的相似程度。

    本文着重于Ｃ语言源程序相似度的识别，重点介绍了程序代码相似度获取的理论依据和技术支持、本设计的各功能模块和具体实施及实验测试。

     本文采用属性计数和结构度量相结合的方法来识别相似度，提高识别的精度和效率。

    属性计数统计程序的Ｈａｌｓｔｅａｄ属性（总的标识符数、唯一标识符数、程序的容量）、物理属性（行数、词数、字符数）和混合属性（Ｈａｌｓｔｅａｄ属性＋物理属性），获取属性相似度。

    结构度量利用最长公共子序列算法，计算两个程序的顺序（从上到下，从左到右）的标识符集的最长的严格递增的公共标识符子序列的最优值（长度）并构造最长公共标识符子序列，获取结构相似度。

    本设计能够实现对输入程序代码相似度的自动获取，供教师对学生程序设计的完成和内容的掌握情况进行分析，以促进教学的开展和评价的科学性。

    也可以将其应用在程序复制检测和检测合作学习的效果等相关研究领域中。

    程序输出简单明了并可以作为文档保存，且具有较好的精确度。

    由于程序的运行只需要源程序设计语言的标识符数据库，很容易实现语言的移植。

     论文最后，简单阐述了本研究取得的结论以及本人对研究继续进行的几点建议。

    关键词：属性计数，结构度量，程序代码相似度ＡＢＳＴＲＡＣＴＩｄｅｎｔｉ劬ｎｇｐｒｏｇｒａｍｃｏｄｅｓｉｍｉｌ撕够ｉｓｔｏｍｅａｓｕｒｅｓｉＩｌｌｉｌａｒｄｅｇｒｅｅｂｅｔ、Ⅳｅｅｎｔ、）ｌｒｏｐｒ０班ｎｃｏｄｅｓｗｉｍａｋ抽ｄｏｆｄｅｔｅｃｔｉｏｎｍｅｍ（）ｄ．Ｉｄｅ确聊ｎｇｔ１１ｅｓｉｒｎｉｌ撕白ｒｏｆＣｐｒｏ掣ａｎｌＩ珀【ｉｎｇｌａｎｇｕａｇｅｓｏｕｒｃｅｃｏｄｅｓａｒｅｆｏｃｕｓｅｄｏｎｉ１１ｔｈｉｓ也ｅｓｉｓ．Ｔｈｅｍｅｏｒｙｆｂｌｕｌｄａ＿ｔｉｏｎ，ｔｅｃｌｌｎｏｌｏ酬ｓｕｐｐｏｆｔｉ芏ｌｇａｌｌｄｅｘｐｅｄｍｅｎｔｔｅｓｔｏｆｍａｋｉｎｇｓｉＩＩｌｉｌ撕够ａ１１ｄｅｖｅ巧向ｎｃｔｉｏｎｍｏｄｕｌｅａＩｌｄｃｏｎｃｒｅｔｅｉｎｌｐｌｅｍｅｍｏｆｔｈｉｓｐｒｏｊｅｃｔａｒｅｍａｉｎｌｙｉｎ们ｄｕｃｅｄ．Ｕｓｉｎｇｔ圭１ｅｃｏｍｂｉｎｅｄｍｅ也ｏｄｏｆａ心ｂｕｔｅｃｏｕｎ缸ｇａｎｄｓｔｒＬｌｃｔｕｒｅｍｅｔｒｉｃｓｔｏｉｄｅｍ姆ｓｉｍｉｌａｒ时ｃａｎｉｍｐｒｏｖｅｍｅｐｒｅｃｉｓｉｏｎａ１１ｄｅｍｃｉｅｎｃｙｏｆｄｅｔｅｃｔｉｏｎ．Ａｔ晡ｂｕｔｅｃｏｕｍ堍ｃｏｕｎｔｓＨａｌｓｔｅａｄｐｒｏｆｉｌｅ（ｉ１１ｃｌｕｄｉｎｇｎｕｍｂｅｒｏｆｔｏｋｅｎｏｃｃｕ玎ｅｎｃｅｓ，ｎｕｍｂｅｒｏｆｕｎｉｑｕｅｔｏｋｅｎｓ，ＨａｌＳｔｅａｄＶｏｌｕｍｅ），ｐｈｙｓｉｃａｌｐｒｏ矗１ｅ∞ｃｌｕｄｉｌｌｇｌｉＩｌｅｃｏｕ芏１ｔ，ｗｏｒｄｃｏｕｎｔ，ｃｈａｒａｃｔｅｒｃｏｕｎｔ），ｃｏｍｐｏｓｉｔｅｐｒｏｆｉｌｅ僻１ｙｓｉｃａｌ＋Ｈａｌｓｔｅａｄｐｒｏｍｅ）ａＩｌｄｃａｎｏｂｔａｉｎ廿ｌｅａ艇ｂｕｔｅｓｉｒｎｉｌ撕够．Ｓ蜘ｃｔｕｒｅｍｅｔｒｉｃｓｗｈｊｃｈｕｓｍｇ也ｅ１０ｎｇｅｓｔｃｏｍｍｏｎｓｕｂｓｅｑｕｅｎｃｅａｌｇｏｒｉｍｍｃａｌｃｕｌａｔｅｓｍｅｏｐｔｉｍｉｚｅｄｖａｌｕｅ（１ｅｎｇ出）ｏｆ也ｅ１０ｎｇｅｓｔ，ｓｔｒｉｃｔｌｙｉｎｃｒｅｍｅｎｔａＩ，ｃｏｍｍｏｎｔｏｋｅｎｓｕｂｓｅｑｕｅｎｃｅｏｆｍｅｏｒｄｅｒｅｄｔｏｋｅｎｓｅｔｓａｃｃｏｒｄ油ｇｔｏ也ｅｔｏｐ—ｔｏ－ｂｏｔｔｏｍｏｒｄｅｒｏｆｍｅｓｔａｔｅｍｅｎｔｓａ１１ｄｍｅｌｅｆ【一ｔｏ－ｒｉｇｈｔｏｒｄｅｒｏｆｔｌｌｅｃｏｄｅｌｉｌｌｅｏｆｔｗｏｐｒｏｇｒａｍｓａ１１ｄｃｏｎｓｔｎ】ｃｔｓ廿１ｅ１０ｎｇｅｓｔｃｏｒ啪ｏｎｔｏｋｅｎｓｕｂｓｅｑｕｅｎｃｅｏｆｔ、ｖｏｐｒｏｇｒａｍｓｃａｎｏｂ诅ｉｎｓｔｈｅｓｔｒＩｌｃｔＬＩｒｅｓｉｍｉｌａ五锣．１１１ｉｓｐｒｏｊｅｃｔｃａｎａｕｔｏｍａｔｉｃａｌｌｙａｃｈｉｅＶｅｔｈｅｃｏｄｅｓｉｍｉｌ撕ｔ）ｒｏｆｉｎｐｕｔｐｍ蚪ｎｓ．ＴｅａｃｈｅｒｃａｌｌａＩｌａｌｙｓｅｓｍｅ协ｍｇｏｆｓｔｕｄｅｎｔ’ｓｆｉｎｉｓｈｉｎｇｔ王１ｅｐｒｏ笋删ｎｇａｓｓｉ印ｍｅｎｔａｎｄｈＯｌｄｍｇｏｎｐｒｏｇｒ猢ｉｎｇｃｏｎｔｅｎｔｓｗｉｔｈｍｅｓｉｍｉｌａ矗妙ｏｆｐｒｏｇｍｍｃｏｄｅ，ｗｈｉｃｈｃａｎｐｒｏｍｏｔｅｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｔｅａｃｈｉｌｌｇａｎｄｔ１１ｅｖａｌｉｄｉｔｙｏｆｅｖａｌｕ撕ｎｇ．Ｓｉ面ｌａｒｉｔｙｏｆｐｒｏｇｒａｍｃｏｄｅｃａｎａｌｓｏｂｅ印ｐｌｉｅｄｉｎ也ｅｒｅｌ曲ｅｄｒｅｓｅａｒｃｈｆｉｅｌｄｓ，ｓｕｃｈａｓｐｒｏｇ日ｍｃｏｐｙｄｅｔｅｃｔｉｏｎａｎｄｄｅｔｅｃｔｉｒ培ｔｈｅｅｆｆｅｃｔｏｆｃＯｏｐｅｒａｔｉｖｅｌｅａｍ．ｍｇ．Ｐｍｇｒａｍ’ｓｏｕ：ｌｐｕｔｉｓｓｉｍｐｌｅａＩｌｄｕ１１ｄｅｒｓｔａｎｄａｂｌｅｅａｓｉｌｙａＩｌｄｃａｌｌｂｅｓａｖｅｄａｓｄｏｃｕｍｅｎｔｓ．ＴｈｉｓｐｒｏｊｅｃｔｈａＳ９００ｄｐｒｅｃｉｓｉｏｎ．Ｓｉｎｃｅｔｌｌｅｎ１１１１１ｉｎｇｏｆｐｒｏｇｍｍｏｎｌｙｒｅｑｕｉｒｅｍｅｔｏｋｅｎｄａｔａｂａｓｅ０ｆｓｏｕｒｃｅｐｒｏ目ａ妇ｍ证ｇｌａｎｇｕａｇｅ，ｉｔｉｓｅａｓｙｔｏｔｒａｎｓｐｌ如ｔｔｏｏｔｈｅｒｐｒｏｇｒａＩ珊ｍｇｌａｎｇｕａｇｅ．Ｉｎｍｅｅｎｄ，吐ｌｅｃｏｎｃｌｕｓｉｏｎｏｆｔ呈１ｉｓｒｅｓｅａｒｃｈａｎｄｓｏｍｅｓｕｇｇｅｓｔｉｏｎｓｏｆｃｏｍｉｎｕｉｎｇｍｅｒｅｓｅａｒｃｈａｒｃｓｉｍｐｌｙｄｉｓｃｕｓｓｅｄ．皿ＹＷｏＲＤＳ：Ａ蜘ｂｕｔｅａｃｃｏｕｎｔ，Ｓ咖咖ｒｅｍｅｔｒｉｃｓ，ＰｒｏｇｒａｍｃｏｄｅｓｉＩＩｌｉｌａｒｉ够图表公式目录图卜１程序更改谱系图（ＦａｉｄｈｉａｎｄＲｏｂｉｎｓｏｎ）…………………………ｌ图４—１本设计功能模块图………………………………………………３０图４—２程序界面…………………………………………………………３１图４—３属性统计模块流程图……………………………………………３２图４—４程序对比较窗口…………………………………………………３８图５一ｌ源程序ＴＥＳＴｌ……………………………………………………４０图５—２修改后程序ＴＥＳＴ２…………………………………………………４０图５—３三种属性相似度时间序列趋势线………………………………４１图５—４结构相似度的分布拟合曲线……………………………………４３表３一ｌ程序的三种属性………………………………………………２３表５一ｌＴＥＳＴｌ和ＴＥＳＴ２相似度统计……………………………………３９表５—２ｓｔａｃｋｌ２和ＴＥＳＴｌ相似度统计………………………………………３９表５—３各属性相似度值最大的十个……………………………………４２表５—４各属性相似度值最小的十个……………………………………４３公式２一ｌ…………………………………………………………………１２公式２—２……………………………………………………………………１２公式３—１……………………………………………………………………２２公式３—２……………………………………………………………………２４公式３—３……………………………………………………………………２４公式３—４……………………………………………………………………２４公式３—５……………………………………………………………………２５公式３—６……………………………………………………………………２８内蒙古师范大学硕士学位论文第一章引言一、问题的提出程序代码相似度识别是一个模式匹配问题。

    一种程序语言，对于同一逻辑的表达形式往往是多样的。

    还有可能一些人为了节省时间和力气，将别人的程序采用编辑手段，作一些文本的改交（简单的改变如改变代码注释或改变变量名，稍复杂一些如等价控制结构的替换（如用‘Ⅵ１１ｉｌｅ”循环替换“ｆｏｒ”循环））。

     １９８７年ＦａｉｄｌｌｉａｎｄＲｏｂｉｌｌｓｏｎ提出了程序更改谱系图…，列出了可能采取的更改手段及档次划分。

    谱系图如下：图卜ｌ程序更改谱系图（ＦａｉｄｈｉａｎｄＲ。

    ｂｉｎｓｏｎ）２００１年ＥｄⅥ耐Ｌ．Ｊｏｎｅｓ将更改手段（在不影响结果的情况下）重新总结，分为如下十类Ⅲ： ①逐字拷贝 ②更改注释语句 ③更改空白区域 ④重新命名标识符 ⑤改变代码块的顺序 ⑥改变代码块中语句的顺序 ⑦改变表达式中操作符和操作数的顺序 ⑧更改数据类型程序代玛相似度识别的研究 ⑨增加冗余的语句和变量 ⑩用等价的控制结构替换原有控制结构可以肯定的说，这些更改都是表面的，是少量的，而程序中内含的属性和结构是没有改变的。

     我们所说的程序的属性“１，就是根据程序的内在性质所定义的不随表达形式而变化的特性。

    一般来说，这些属性不易被改变，即使改变也是少数的。

    程序的结构代表了问题解决的逻辑和步骤，即使程序的属性可以做微弱的改动，但解决问题的逻辑即程序的结构是不会发生改变的。

    所以这样的程序具有内在的相似性。

    我们可以统计程序的属性特征，获取程序属性相似度值；对结构特征进行分析，进而获取结构相似度值。

    当需要判别若干个程序的相似度时，在它们之问进行两两组合计算相似度值。

    二、研究的目的和意义在高等院校里，程序设计实习类课程，与基础理论课不同，其实践性很强，培养的是学生的实际动手能力。

    因此主要依靠期中、期末的笔试来考核学生学习情况和评定成绩，显然是不可取的。

    平时上机作业的完成情况，应该在成绩评定中占５０％甚至更高的比例。

    这已经成为目前许多高校计算机类专业的共识“１。

     ｃ语言以其结构化、数据类型丰富等特点，被广泛用于教学中。

    许多计算机专业课程（如数据结构，操作系统，编译原理，计算机网络）多采用Ｃ语言举例和描述算法。

    学生在学习这些课程时，也采用Ｃ语言编程。

    而且有些高校把Ｃ语言作为各专业学生程序设计能力培养的入门语言。

    因此，在本研究中主要关注Ｃ语言程序设计上机作业，对学生程序作业代码相似度进行识别。

    获取相似度值，供教师对学生程序设计的完成和内容的掌握情况进行分析，以促进教学的开展和评价的科学性。

    也可以将其应用在相关研究领域，如：程序复制检测和检测合作学习的效果中，具有很好的教育教学效果。

    基于此我定了该内容作为毕业设计的题目。

    三、本研究中的概念相似度（ｓｉｍ钉ａ—ｔ）ｒ）：本研究认为相似度是指，利用一定的检测方法度量两个对象间的相似程度。

    主要有文本相似度和程序代码相似度，一般情况下用一个数值（Ｏ．Ｏ—１．Ｏ）或百分比值（Ｏ％一ｌｏｏ％）来表示。

    用其来标识两个文本或程序间的相似程度，进而检测出相似文本或相似程序。

     本研究是基于以上概念，根据程序代码相似度识别的策略得出程序对的相似度内蒙古师范大学顶士学位论文值，具体其在相关研究领域的应用，有待于实验的进一步验证。

     四、开发工具的选择（１）系统环境基于现有的开发条件以及技术环境，本设计采用的是啪ＯｗｓⅪ·操作系统环境。

     （２）前台开发语言Ｍｉｃｍｓ诅ⅥｓＩ谢ＢａＳｉｃ具有可视化的设计平台，面向对象的设计方法，事件驱动的编程机制，充分利用Ｗｉｎｄｏｗｓ资源，开放的数据库功能与网络支持等特点，是众多ｗｉｆｌｄｏｗｓ软件开发工具中效率最高的一个。

     此外，由于Ⅶ使用的是ｕｎｉｃｏｄｅ字符集，汉字和字符所占存储空间相同，极大地方便了程序文件的访问。

    因此我选择ⅥｓｕａｌＢ蠲ｉｃ作为开发语言。

     （３）数据库ＭｉｃｒｏｓｏｆｔＡｃｃｅｓｓ２００３是完全面向对象、采用事件驱动机制的关系型桌面数据库系统，是面向数据库最终用户和数据库开发人员，典型的开放式数据库管理系统。

    它内置了大量的函数，提供了许多宏；支持多媒体的应用与开发，具有基于ｗｅｂ的智能管理功能，符合个人网络用户的需求；提供了删Ｌ的支持，具有很强的安全性。

    因此我选择使用Ａｃｃｅｓｓ２００３作为后台数据库支持。

    五、论文主要内容概述引言部分介绍了本研究问题的提出及研究的目的和意义，进而阐述了文中涉及的概念和开发工具的选择。

     第二章首先介绍了程序可测量的属性，为属性计数的实施奠定了理论基础。

    然后以时问为序详细列举了程序代码相似度识别的工具和技术，并进行比较研究，确定本设计采取的技术方案。

    最后简单介绍了ｖＢ与数据库结合的操作技术，为程序的设计和理解作了铺垫。

     第三章详细介绍了本设计的理论基础，包括Ｃ语言程序的特征分析及属性和结构相似度获取的理论依据。

     第四章详细介绍了本设计的实旌过程，包括数据库的搭建及各功能模块的设计和实施。

     第五章介绍了本设计的实验测试和数据分析。

     第六章总结了本研究的主要成果，并提出了继续开发的几点建议及将来要继续完成的工作。

     程序代码相似度识别的研究第二章程序可测量的属性及相关研究一、程序可测量的属性１．１程序的操作符和操作数Ｍ．Ｈａｌｓｔｅａｄ８１认为，对于用任何语言所编写的程序，能够识别出所有的操作数，即编程时用到的变量或常量：同样也能够识别出所有的操作符，即影响操作数的值或顺序的符号或符号组合。

    通过操作符和操作数的识别，可以定义任何语言所编程序中出现的许多可计数因此也可测量的实体。

    这些属性是能够获得软件科学关系的最基本的度量值。

     任何计算机程序能够被统计或测量的属性包括：ｎｌ：程序中唯一的操作符数ｎ２；程序中唯一的操作数数Ｎ，：程序中总的操作符数Ｎ２：程序中总的操作数数从基本的度量值很容易得到程序的词汇数：ｎ＝ｎｌ＋ｎ２以及程序的长度：Ｎ＝Ｎｌ＋Ｎ２１．２程序的大小程序的另一个重要特征是程序大小。

    １。

    任何时候将指定的程序由～种语言翻译成另一种语言，它的大小都会改变。

    我们要以量化的方式研究这种改变，要求程序大小是一个可测量的量。

    而且，程序大小的度量值在不失普遍性和客观性的情况下能够应用于任何语言。

    因此，它应该独立于实现算法的字符集。

     在任何情况下对于要表示的最长的操作符或操作数名，如果用二进制数或位表示的话有一个绝对的最小长度。

    该长度依赖于词汇（Ｈ）中的元素数。

    例如，～个由８个不同元素构成的词需要８个不同的字符，或者是由三个二进制位所构成的组合数。

    更普遍来说，ｌｏ＆ｎ是一个程序中所用到的单个元素的最小位长。

     任何程序大小的合适的度量值称为容量（Ｖ），定义如下：Ｖ＝Ｎｌｏ盘ｎ，其中Ｎ内蒙古师范大学硕士学位论文是程序长度（或Ｎｌ＋Ｎ２），ｎ是程序词汇（或ｎＩ＋ｎ２）。

    这种解释给了程序容量以位的维度定义。

     显然，如果一个程序由一种语言翻译成另一种语言，它的容量会改变。

    例如，由Ｆｏｒｔｒａｎ翻译成一种特定机器的机器语言，容量会增加；另一方面，把一个程序算法用另一种更高级的语言编写，容量将会减小。

     利用程序的可测量的属性，可以度量程序间的相似程度。

    二、相关研究相似度的识别分为两大类，程序代码相似度和文本相似度的识别。

    文本相似度识别主要应用在文本挖掘、文本分类、文本复制检测、信息检索等方面，在这里不做具体介绍。

    代码相似度主要应用在程序复制检测上，因此代码相似度识别技术的发展是随着程序复制检铡技术的发展而发展的。

     除了逐字拷贝的情况，我们使用直接比较两个程序文本文件字符串的方法来确定相似度的策略，效率非常低，目前学术界并没有标准的相似度计算策略。

     最早在２０世纪７０年代初”３就有学者研究识别程序代码相似度的技术和软件。

    Ｏ讹ｎｓｔｅｉｌｌ…在１９７６年首次提出了基于属性计数法（ａ仕曲ｕ＿ｔｅｃｏｕｍｉｌｌｇ）获取相似度的方法。

    但是，单纯的属性计数法抛弃了太多的程序结构信息，导致错误率太高。

    ｖｅｒｃｏ和ｗｉｓｅ”１在１９９６年指出，对于仅仅使用属性计数法的检测算法，增加向量维数并不能改善错误率。

    改进属性计数法的措施就是加入程序的结构信息，结合结构度量（ｓｔｍｃｔｕｒｅｍｅｔｒｉｃｓ，也称为控制流（ｃｏｎ缸Ｄ１．ｎｏｗ））来识别相似度。

    近来，程序代码相似度的识别都是用各种方法综合属性计数和程序结构度量。

    最近，出现了从程序设计的角度进行度量的方法。

    此外，还有人提出用神经网络来检测程序的相似度“。

    。

    下面以时间为序，对国内外程序代码相似度识别的技术介绍如下：２．１国外的研究情况２．１．１ＡｎＡｌｇｏｒｉｔｈｍｉｃＡｐｐｒｏａｃｈｔｏｔｈｅＤｅｔｅｃｔｉｏｎａｎｄＰｒｅｖｅｎｔｉＯｎｏｆＰｌａｇｉａ—ｓｍ—— １９７６首次使用ＨａＩ如ａｄ的程序度量方法进行程序相似度识别的是Ｐｕｒｄｕｅ大学的Ｏｔｃｅｌｌｓｔｅｉｌｌ，它开发一个用来检测Ｆｏｒｔｒａｎ程序相似度的系统”３。

    该系统直接统计Ｍ．Ｈａｌｓｔｅａｄ提出的可以衡量程序长度的四个基本的软件科学参数：ｎＩ，ｎ２，Ｎｌ，Ｎ２。

     程序代码相似度识别的研究Ｏｔｔｅｎｓｔｅｉｎ认为两个程序具有相同的四个属性值的可能性是非常小的，如果两个程序的四个属性都相同，就可以认为有相似的可能，使用者可以作进一步的调查。

    然而，实践证明，对于结构化程序设计语言所编制的程序来说，却不尽然。

     ２．１．２Ａｃｃｕｓｅ‘——１９８１Ａｃｃｕｓｅ“”由ｕＳＡＦ学院的Ｓ锄ＧＴｉｅｒ开发，采用七个参数来分析两个程序的相似度（设计者认为考察的参数越多，两个程序的区别越大），通过相似度分析值使用者可以对两个程序做进一步的判断。

    七个参数为：①唯一的操作符数②唯一的操作数数③总的操作符数④总的操作数数⑤代码行数⑥已经定义了的变量数（使用过的）⑦总的控制语句数。

     属性相似度的计算涉及增量的计算，公式为：ｉｎｃｒｅｍｅｎＦ”ｉｍｐｏｒｔａｎｃｅｖａｌｕｅ”一（ｐｃｏ衄ｔａ．ｐｃｏｔｕｌｔｂ），其中ｐｃｏ硼ｌ扭是第一个程序该属性的个数，ｐｃｏ硼曲是第二个程序该属性的个数。

    如果ｐｃｏｌｌｔｌ协ｐｃｏｌＩｎｔｂ小于或等于根据该参数确定的”、Ⅳｉｎｄｏｗ”值（窗口大小，参数不同，取值不同，由使用者确定），接下来可以进行相似度计算。

    ｉｍ口ｏｒｔａｌｌｃｅｖａｌｕｅ是该属性的重要度值，即权值（由使用者根据具体问题而定），增量得到后，可以由此计算相似度值（公式未公布）。

     Ａｃｃｕｓｅ的输出为五个表：１）、需要统计的２０个属性的名称和统计值；２）、与计算相似度有关的７个属性名称和统计值；３）、相似度值列表；４）、有同样相似度值的程序对的频率分布图；５）、所有相似度值大于或等于２８的程序对名称。

     属性计数的方法抛弃了太多的程序结构信息，导致错误率太高。

    因此人们开始了由属性计数向控制流（结构度量）技术或两者结合技术的转变。

    ２．１３ＡＰＬＡＧＩＡＲＩＳＭＤＥＴＥＣＴＩｏＮＳＹＳＴ口Ⅵ——１９８１该系统。

    ”由ＢｏｗｌｉＩ培Ｇｒｅｅｎ州立大学的ＪｏｈｎＬ．Ｄｏ玎ｌａｌｄｓｏｎ，Ａｎｎ＿ＭａｒｉｅＬａｎｃａＳｔｃｒａｎｄＰ肌１ａＨ．ｓｐｏｓａｔｏ使用ｓＮＯＢＯＬ４程序设计语言联合开发，利用属性计数和结构度量方法结合，来检测ＦＯＲ豫ＡＮ，ｃＯＢＯＬ或ＢＡｓＩｃ语言所编制的程序的相似度。

    该系统以ＦＯＲＴＲＡＮ为例，将程序的分析分为两个阶段。

    第一个阶段：数据收集阶段。

    首先，源程序被逐行读进系统时，某些类型的语句（变量、子程序、输入语句、条件语句、循环语句、赋值语句、调用子程序的语句）在程序中出现的次数及第２．７类型的总数被统计并将其放进二维数组中供第二阶段使用。

     其次，在上面的处理过程中，将源程序按其语句出现的顺序进行特征化。

    程序中６内蒙古师范大学硕士学位论文某些语句类型对描述程序的结构非常重要，将这些类型中的每一种用一个字母代表。

    按程序语句自顶向下和代码行从左向右的顺序构造字母存放在一个一维数组中，供第二阶段使用。

    这些语句及字母对应如下：Ｖ＿一声明语句，Ｓ一子程序或函数定义，Ｃ一调用或执行语句，Ｒ＿＿喾语句，Ｉ—口删Ｄｏ语句，Ⅺ一逻辑ＩＦ语句，Ｈ－ＷＨｍＥＤＯ语句，Ｄ—ＤＯＬ００Ｐ语句，Ｅ～ＥＮＤＩＦ，ＥＮＤｗＨＩＬＥ或ｃＯＮＴｒＭ鹰语句，＝赋值语句。

     第二阶段，数据分析阶段仍分两步完成。

    首先，比较两个程序得到的二维数组对应的统计个数值（三种方法）来决定程序的相似或不同。

    其中之一为：ｗＥＩＧＨＴＥＤｃＯＵＮＴＯＦｓＩＭＩＬＡ融ＴＹ。

    使用者首先为程序中的语句确定权值，然后将两个程序中确定的语句的统计个数相减，如果相等，就将其权值累加，如果不等什么也不做。

    如果最后得到的权值和很大，而其他较多数程序对的权值和都很小，就说明这两个程序有相似的可能。

     其次，比较两个程序得到的一维数组的语句顺序是否相同。

    在前一阶段，权值和很大的情况下，若语句顺序也相同，也就是说程序的基本结构相同，就可以认为这两个程序为相似程序。

    ２．１．４Ｐｌａｇｕｅ——１９８８Ｐｌａｇｕｅ（瘟疫）““，这样的名称警示人们抄袭的蔓延和危害。

    它继续使用程序的结构度量的检测方法，且对更详细的结构信息进行比较。

     Ｐｌａｇｌｌｅ工作分为三个阶段：第一个阶段：创建每一个文件的标识符序列和结构度量列表构成程序的结构特征。

    结构度量包括程序中所使用的结构，如：循环，选择结构及语句块。

    结构特征采用了归纳的规则表达式的形式。

     ‘第二阶段：比较结构特征（ｏ（ｎ２）次），使用语言细节距离函数的结合得到最邻近的程序对。

    预期大多数程序都是不相邻的，如果有程序对是相邻的，将其留到下一个阶段进行处理。

     第三阶段，使用最长公共子序列算法的变体对标识符序列进行比较。

    Ｐｌａｇｕｅ的缺陷包括：（１）Ｐｌａｇｕｅ方法不适合其他语言（仅可以用于Ｐａｓｃａｌ，Ｐｒｏｌｏ舀ＢｏｕｒｎｅＳｈｅＨａｎｄｕ衄ａ程序），且耗费时间太多。

     程序代码相似度识别的研究（２）Ｐｌａｇｕｅ的结果是两列按Ｈ和ＨＴ索引排序的列表，需要作进一步的解释，不能做到一目了然。

    ＰＩａｇＬＩｅ手册对如何解释提供了指南。

     （３）Ｐｌａｇｕｅ执行效率不高，又依赖于太多的ｕＮⅨ工具，因此在可移植性方面存在问题。

    ２．１．５ＹＡＰｌ、矾心２和ＹＡＰ３—一ｉ９９２，１９９６ Ⅵ谨（代表又一个Ｐｌａｇｕｅ）系列工具是在Ｐ１ａｇｕｅ的基础上开发的。

    Ｍｉｃｈａｅｌｗｉｓｅ在１９９２年开发ＹＡＰ的第一个版本Ⅵ”１“”，之后推出改进版靴ｍ１，最后在１９９６年推出最终版ＹＡＰ３““。

    Ⅵ垤１和Ⅵ婶２主要用于程序复制检测，而嘲Ｐ３即可以用于程序也可以用于文本文档检测。

     所有的ＹＡＰ系统以同样的方式工作，操作分为两个阶段：第一阶段由每一源程序生成标识符文件；第二阶段比较标识符文件对。

     文件中的标识符具有重要的意义，代表了程序设计语言的语言结构或库函数，忽略常量和用户定义的标识符。

    一个小的程序作业通常可能有１００—５００个而一个大的程序可能有４００—７００个。

    尽管对每一种语言是分别进行标识符化的，但它们的执行步骤相同：（１）程序作业预处理： ●删除注释和输出语句 ●删除用于自定义标识符中的非法字母 ●将大写字母转换为小写字母 ●形成原始标识符列表这步工作是由ｕＮⅨ工具订和ｓｅｄ来做的。

    在ｔＹＡＰ中使用了ｃ预处理程序ｃｐｐ。

     （２）转变某些同义词为常用形式。

    例如：在ｃ—ＹＡＰ中，将ｓ咖ｃｍｐ映射为ｓ骶ｍｐ。

    这样的操作类似于将词映射到它们的上位词中。

     （３）找出函数／过程语句块。

    在ＬＩＳＰＹＡＰ中这一步无需太多的精力，而在ｃＹＡＰ中结合使用了Ｉ矾Ⅸ工具ｃｔａｇｓ和ａｗｋ。

     （４）按调用顺序展开函数块。

    重复的函数块仅被展开一次，随后对该函数的调用用一个有序的标识符替代，这样可以禁止标识符个数的无限膨胀。

     （５）根据给定的词汇表，从程序作业中找出要标识符化的部分。

    上面阶段己识别的函数调用映射为标识符ＦｕＮ，用户自定义标识符被忽略。

     在比较阶段，用ＩＪＮⅨ实用工具ｆｍｄ收集前面准备好的标识符文件，用ｓｄｉ嗣两比内蒙古师范大学硕士.

原创
版权说明

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
- 相关文章
- 最新文件
特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

程序代码相似度识别的研究