【Android论文栏目提醒】:网学会员在Android论文频道为大家收集整理了“中文产品评论中评价对象的识别研究 - 硕士论文“提供大家参考,希望对大家有所帮助!
第 38 卷 第 20 期 计 算 机 工 程 2012 年 10 月 Vol.38 No.20 Computer Engineering October 2012 人工智能及识别技术 人工智能及识别技术 文章编号: — — — 文章编号:1000—3428201220—0140—04 文献标识码:A 文献标识码: 中图分类号:TP391 中图分类号: 中文产品评论中评价对象的识别研究 徐叶强,朱艳辉,王文华, 徐叶强,朱艳辉,王文华,杜 锐,鲁 琳,邓 程,刘洪婧 湖南工业大学计算机与通信学院,湖南 株洲 412008 摘 要:在中文产品评论中利用无监督的识别评价对象,准确率和召回率较低。
为此,提出一种中文产品评论中的评价对象识别方法。
对 特殊词、评价对象非完整性、评价对象非稳定性等情况过滤噪声,利用评价对象在评
论文本中与评价短语规则出现频率较高的特征,进行 置信度排序。
实验结果表明,对于 14 799 篇数码类评
论文章,该方法的准确率、召回率和 F 值分别为 0.605、0.780、0.681。
关键词: 关键词:无监督;评价对象;完整性;稳定性;产品评论 Research on Recognition of Evaluation Object in Chinese Product Review XU Ye-qiang ZHU Yan-hui WANG Wen-hua DU Rui LU Lin DENG Cheng LIU Hong-jing Institute of Computer amp Communication Hunan University of Technology Zhuzhou 412008 China 】 【Abstract】Aiming at the ineffectiveness of the precision and recall of the unsupervised identification of comment target in the Chinese product reviews a new method of the comment target recognition is proposed. The integrality and stability of the comment target and their calculation methods are put forward to filter the uncommented words and the confidence level is scheduled with the consideration of the characteristics of the comment target in comment text namely its comment phrase rule and high occurrence frequency. Experimental results show that for the 14 799 digital comments the precision recall and F value reach 0.605 0.780 and 0.681. 】 【Key words】unsupervised evaluation object integrality stability product review DOI: 10.3969/j.issn.1000-3428.2012.20.036 前研究过产品属性词的抽取 2,如“屏幕、按键”等,而1 概述 第 28 次中国互联网络发展状况统计报告显示 1,截 评价对象能更准确地描述产品,如抽取出“屏幕颜色”,至 2011 年 6 月底,中国网民规模达到 4.85 亿,引入注目 说明是对屏幕的颜色评价,而不是对屏幕的质量等其他方的是网络购物用户从 2010 年 12 月 30 日的 10 651 万人, 面进行评价。
依然在平缓上升,预示着更多的经济活动步入互联网时 近年来,国内外专家学者研究的主要抽取方法有 2 种:代,互联网开始成为人们表达观点情感、进行网络购物的 1基 于 有 监 督 的 方 法 , 文 献 3用 人 工 方 式 收 集 了重要工具,人们开始更多地借助各种网络服务如购物网 287 个汽车产品的特征,用三元组的形式表示产品特征、站、微博、网上新闻、BBS、网上论坛、博客、讨论组等 产品、特征的观点;文献4针对电影相关文本人工定义产发布、传播和获取评论信息。
多数潜在购物者会将网络评 的品特征,并且将此特征分为电影的元素和与电影相关的论作为是否购买的一个重要参考。
人员;文献5利用词典来进行抽取。
网上评论的数量浩如云海,且呈现非结构化特点,消 2基于无监督的方法,文献6运用关联规则获得频费者无法快速定位自己想要的信息,人工地去浏览这些海 繁项作为候选的特征,再对其进行剪枝;文献7利用泛化量产品评论是费时和低效的。
因此,如何对大量的非结构 软模板和特征向量模板的方法,将特征识别看成分类问题化的产品评论进行情感倾向性分析成为了目前的一个研 进行处理,取得了一定的成绩;文献8提出一个识别与领究热点。
域相关术语的方法,通过 IDRA 的改进算法抽取特征。
评价对象的识别是情感倾向性分析的基础。
笔者在之 基于有监督的方法抽取评价对象,要花费很多的时间————————————基金项目:湖南省自然科学基金资助项目10JJ3002;教育部人文社会科学研究青年基金资助项目09YJCZH019;中国包装总公司技术创新基金项目:科研基金资助项目2008-XK13;湖南工业大学研究生创新基金资助项目CX1112作者简介:作者简介:徐叶强1982-,男,硕士,主研方向:文本分类,信息检索;朱艳辉,教授;王文华、杜 锐、鲁 琳、邓 程,硕士研究生;刘洪婧,讲师收稿日期:2011-12-29收稿日期: 修回日期: 修回日期:2012-02-20 : E-mail:x.y.q.com第 38 卷 第 20 期 徐叶强,朱艳辉,王文华,等:中文产品评论中评价对象的识别研究 141和人力,并且通用性不强。
基于无监督的方法,整体的准 则一定是左完整;如果至少存在一组ltikgt1≤iltk≤n,确率和召回率都不是太高,因此,有进一步研究的必要。
第 使得 Document 中, pi Object 个词和第 pk Object 个词本文提出了一种新的评价对象识别方法。
用词性序列模板 不相同,那么就将此 Object 称为右完整若 Object 是文本抽取候选评价对象,使用 3 种过滤方法,给出评价对象完 中的最后一个词时,则一定是右完整;如果 Object 既是整性和稳定性的概念和算法,利用置信度排序确定评价 左完整又是右完整,那么就将此 Object 称为完整性的评价对象。
对象。
如“
Android/x 系统/n 平台/n _/x 7/v 英寸/q
Android/2 候选评价对象抽取 候选评价对象 抽取 针对文献9提供的 digital 评
论文本共 14 799 篇,利 x 系统/n 触控/n MID/x 蓝/a 魔/ng W9/x 评测/vn _/x 中用 ICTCLAS 10 对文本分词,根据词性标注的出现规则抽 关村/ns 在线/vn
Android/x 系统/n 平台/n W9/x 采用/v 660 MHz ARM9/x 内核/n 处理器/n……”根据本文的规取候选评价对象。
从召回率的角度出发,应该尽可能地收 则,可以抽取出:“
Android/x 系统/n”“系统/n 平台/n”集标注文本中评价对象的词性规则。
但是从复杂度和可行 “
Android/x 系统/n 平台/n”等。
2 次出现的“
Android/x性的角度分析,词性规则应该是越少越好。
本文基于以上 系统/n”后面的第 1 个词均为“平台”,所以,此评价对2 点考虑,综合词性规则的出现频率,最终制定了 30 组规 象不是右完整;2 次出现的“系统/n 平台/n”前面的词均则,部分词性规则如表 1 所示。
为“
Android”,所以,此评价对象不是左完整;2 次出现 表1 词性规则 部分 词性规则部分 部分 的“
Android/x 系统/n 平台/n”左右词均不相同,所以, 词性规则 评价对象实例 n 接口设计/n 此评价对象是具有完整性的,该评价对象也是本文真正要 nn 机身/n 尺寸/n 抽取的结果。
v 设计/v 定义完整性的意义在于,避免抽取片面的评价对象或 nv 外观/n 设计/v 属性词。
正如本文引言中所述,要抽取“屏幕/n 颜色/n” vn 打开/v 速度/n 而不是“屏幕/n”,就可以通过非完整性的过滤,去除“屏 ng n p 性/ng 价/n 比/p 幕”,保留“屏幕颜色”。
nnn 文档/n 模板/n 功能/n rzv q n 这/rzv 款/q 笔记本/n 3.3 非稳定性评价对象的过滤 xnn
Android/x 系统/n 平台/n 定义 2 评价对象的稳定性:针对本文中候选评价对 xn Otis/x 电梯/n 象 Object 是基于规则获得的,通常是由多个词 w1w2 wn 有限的规则是无法抽取所有的评价对象的,如“侧滑 组成的。
用各个词之间的紧密耦合程度,来衡量 Object 的稳定性,本文采用下式计算获得:/n 盖/v 设计/v、佳能/nz 5D/x Mark/x II/x”等。
但是研究 f Object 发现,在其他的组合规则中,均是以“n”“x”为扩展的, , S Object m 1 ∑ f wi m 1 f Object ,因此,在特征抽取后,仍然可以通过“n”“x”前后的搭 i 1配规则,来提高召回率和准确率。
本文认为极少数不在规 其中, f Object 表示 Object 在一篇文档中出现的频率; f wi 表示组成 Object 的词 wi 在该文档中出现的频率;m则范围内的评价对象对结果影响不大。
表示组成该 Object 的词个数;S Object 表示评价对象的稳3 非评价对象的过滤 定性。
针对候选评价对象中的噪声,通过对特殊词、评价对 如“刻录/n 盘/qv”候选对象是由“刻录”和“盘”象非完整性、评价对象非稳定性等情况进行过滤。
2 个词组成的,即 m 的值为 2,假设在文本中出现了 2 次,3.1 对象中特殊词的过滤评价 对象中特殊词的过滤评价 即 f Object 的值为 2;“刻录”出现 2 次它始终和“盘” 一定不是评价对象的词包括:单字动词,如为/v、让 在一起出现,即 f w1 的值为 2;“盘”出现了 3 次它除/v 等。
表示行为或趋向性的动词,如:可以/v、认为/v 等。
了与“刻录”在一起出现,还在其他位置出现,即 f w2 具有情感倾向的情感词,如:非常高/n 等。
特殊符号,如 2 的值为 3,那么 ∑ f wi f w1 f w2 的值为 5。
此时,_/x、/x 等。
建立特殊词词典,对候选评价对象中的特殊 i 1词进行过滤。
S Object 2/521×20.67,说明“刻录盘”在一起出3.2 非完整性评价对象的过滤 现可能性比分开出现的可能性大,那么更能表示一个词。
定义 1 评价对象完整性:对于一篇文档 Document 当 Object 仅是一个词组成的时候,即 m1 时,或者组成d1d 2 d n ,其中, di 表示 Document 的第 i 个词。
假设候选 Object 的词出现的次数与 Object 出现的次数相同,即它们评价对象 Object 出现在 Document 中 n 个不同的位置 始终在一起出现时, S Object 1,此时 Object 最稳定;p1 p2 … pn 。
如果至少存在一组ltikgt1≤iltk≤n,使得 当组成 Object 的词,仅在一起出现一次或很少次,而分Document 中第 pi 1 个词和第 pk 1 个词不相同,那么就 散在文本中不同位置的次数趋于无穷时,S Object 的值趋将此 Object 称为左完整若 Object 是文本中的第 1 个词时, 于 0,此时 Object 最不稳定。
142 计 算 机 工 程 2012 年 10 月 20 日 当 S Object 接近 1 时,构成 Object 的词共现频度高, d tf Oik × df Oid × d d gt1也就表示 Object 是评价对象的可能性大;相反,如果 f Oi ∑ n k 6 k 1S Object 接近 0 时,Object 是评价对象的可能性小。
根据 tf Oik × df Oid × β d 1S Object 的结果,设定阈值 α 来确定 Object 是不是评价 其中, β 是一个调节参数,当 d1 时,也就是说 Oi 只在对象,如下: 一篇文档中出现过,此时 Oi 是真正评价对象的可能较小, Yes S Object ≥ α 因此,本文设置 β 0.5 , f Oi 表示结果值。
IsReview _ S 2 No S Object lt α 同一评价对象可能在多个文档中出现,采用平均值的4 置信度 计算 置信度计算 方式计算评价对象 Object 的最终取值,如下: 选择 2 条特征,对过滤之后的候选评价对象计算置信 n f Object ∑ f Oi n 7 i 1度。
置信度越大,本文认为是评价对象的可能性越大。
其中,n 是总 Object 数; f O 是每个 Object 利用式6计4.1 特征选择 根据候选评价对象在文本中上下文的信息、频率挑选 算的值; f Object 表示结果值,此值越大,Object 是评价如下特征: 对象的可能性越大。
4.2 置信度计算及排序 特征 1 与评价短语规则同现 综合上述的 2 个特征值,式3中 co 为 1 和式7中 研究发现绝大多数的评价对象所在的语句片段中,都 f Object 的值越大时,候选评价对象 Object 是正确结果有评价短语来评价。
“东芝/nz 60022/m 外观 如文本片段: 的可能性大,此时,有如下情况:1 co 为 1, f Object 很/n 设计/vn 上/f 时尚/n 大方/a,/wd 整体/n 性能/n 表现 小;2 co 为 0, f Object 很大。
/v 出色/a,/wd 性/ng 价/n 比/p 也/d 是/vshi 很/d 高/a。
为了判断这 2 种情况的置信度,将 2 个特征的值,用 ,/wj” 其中, “ 、 、 “ “ 共现的评价对象规则有: /n /a” /a” /d /a”。
二维坐标系表示,特征值的坐标表示如图 1 所示。
根据这一规律,定义了 10 组共现的评价短语规则,如表 2所示。
表2 共现的评价短语规则 规则 实例 da 很/d 漂亮/a a 出色/a a udel 不俗/a 的/ude1 dv 非常/d 方便/v ma 丝毫/m 不含糊/a .