代码相比有不同的特点所以其复制检测方法也有所不同主要分为基于数字指纹和基于词频统计两大类。
目前自然语言文本的复制检测主要应用于论文的剽窃检测中。
论文的剽窃检测的核心内容就是判断给定文档的内容与数据库中已存在的文档内容是否存在雷同成分。
各种文档复制检测的系统结构大同小异都主要分为数据库模块、输入模块、比较模块和判定及解释模块20。
自然语言文本复制检测技术产生于20世纪末发展至今已存在许多典型的系统。
依据系统所采用的复制检测算法这些典型可以分成两类一类是基于数字指纹的字符串匹配方法的系统另一类是基于词频统计的相似度计算方法的系统。
1基于字符串匹配的文本复制检测系统 基于指纹的字符串匹配通常是首先通过某种选取策略从文档中选取一些称为指纹的字符串Token然后把这些Token映射到Hash表中一个指纹对应一个Hash值最后统计Hash表中相同的指纹数目或者比率作为文本相似度度量的依据。
如果数目较大或者比率大于一定的阈值则认为两篇文档有抄袭的嫌疑。
使用该算法的复制检测系统有很多它们在指纹提取的方法上有所不同。
Manber在文献21中指出如果将整篇文章作为一个字符串映射为一个指纹那么任何对文档的修改都将导致指纹的改变这种方法只适用于检测两篇文档是否 6 华 中科 技 大学硕士学位论 文 精确的相同。
为了检测出非完全复制的近似文档他最先提出了近似指纹Approximate Fingerprints这一概念仅提取文章的一些小部分作为文章的近似指纹。
为了保证不同文章指纹的提取位置相同使用“锚Anchor”来定位指纹或者选择所有长度为50byte的子串每个子串都作为一个指纹。
Manber基于此方法构建了系统SIF。
1995年Brin等提出COPSCopy Protection System系统它将文本分成句子序列删除句子序列中的短句以提高精度通过比较文本间相同指纹的句子数目来进行复制检测。
COPS系统提出了基于注册的系统结构成为文本复制检测的通用系统结构22。
KOALA在SIF的基础上改进了指纹提取方法系统首先需要确定一个α值将文档的n-α1个长度为α的子串构成的集合称为完全指纹考虑到完全指纹将消耗大量的存储空间这一问题使用固定指纹集数量的方法。
这种方法虽然减少了存储空间但是同时也降低了计算的准确性23。
Shingling方法将一个文档中邻近的子串定义为一个Shingle指纹集SDw指包含在文档D中的大小为w的所有Shingle该系统既寻找大体上相似的文档也寻找大体上包含的文档24。
除了以上典型的原型系统外以后的基于字符串匹配的系统从不同的方面来提高检测进度或系统性能。
1999年Monostori等构建了MDR系统用来对程序等半结构化文档进行复制检测25。
2003年Schleimer等提出了基于数字指纹的Winnowing算法来精确识别文档复制问题26。
2008年李旭等提出了一种基于窗口的特征提取方法应用于基于字符串的论文复制检测系统中27同年又提出了一种基于指纹和语义特征的文档复制检测方法首先通过提取指纹根据重叠度度量来计算文档间相似度对于相似度小于阈值的文档继续利用词类信息和语义规则进行歧义消除然后在语义分析的基础进行相似度度量28。
基于数字指纹的字符串匹配技术具有速度快、简单有效、适合大规模运算等优点是目前比较流行的信息处理技术之一但使用数字指纹技术的复制检测系统只能识别出简单的抄袭而无法识别出复杂的抄袭。
2基于词频统计的文本复制检测系统 基于词频统计的相似度计算方法是借鉴信息检索领域的向量空间模型Vector Space ModelVSM来进行文本表示将自然语言文本表示成文本空间的一个向量 7 华 中科 技 大学硕士学位论 文 然后通过不同方法比较向量间距离来度量两篇文档的相似度。
SCAMStanford Copy Analysis Mechanism是第一个典型的基于词频统计的文档复制检测系统它以单词为文本块进行相似度的度量。
系统提出了相关性频率模型Relative Frequency ModelRFM使用该模型提取词频满足条件的所有关键词应用信息检索领域的向量空间模型来表示关键词通过计算两个关键词向量间的差异来度量相似度得到了优于COPS系统的性能2930。
CHECK系统用于检测一个大的文件系统中是否存在相似文档在相似度度量前先对文档进行主题分类以减少不必要的匹配系统利用关键词统计和文本结构信息来度量文本间的相似性31。
2003年宋擒豹等针对数字商品非法复制和扩散问题提出CDSDGCopying Detection System of Digital Goods系统通过统计关键词频率进行语义信息结合结构和语义进行复制检测3233。
其他经典的基于词频的文档复制检测系统还有dSCAM34。
除了上面两类文本复制检测系统2003年Hoad和Zobel综合采用词频统计和数字指纹方法来解决衍生文档的识别问题通过对大量XML数据和Linux文件的测试以寻找较好的抄袭识别算法35。
2004年鲍军鹏等人针对大规模文集中的文本复制检测问题提出基于网格的文本复制检测系统DCDGrid把单个巨型文集分解成多个中小规模文集分布在网络上通过网格计算的方式在多台计算机上检测剽窃文本36。
2006年Kang等从剽窃模式的角度进行文本复制检测的研究如图1.1.
上一篇:
【精品】第3章流程控制
下一篇:
缅怀先烈 铭记历史