基于Web中图像的检索技术研究
关键字: 搜索引擎 图象检索 文本处理 信息检索 相似度 相关性反馈
摘 要
在网络和多媒体技术越来越发达的今天,信息检索技术成了现在计算机领域的重要内容,而图像检索技术又正是这其中的重要内容之一。而网络资源的极大丰富以及图像检索技术不断发展成熟,使得图像检索技术的应用领域不断扩大,这为图像检索技术的继续研究提供条件。
人们为了对图像进行更好的使用和组织管理,便开发出了多种多样图像检索技术,本文首先要将各种图像检索技术的工作原理、研究现状、相关图像搜索引擎与发展趋势作一个介绍。
随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。在实现对网页中文本信息提取的同时,如何再为用户抽取所需的图片资料,是信息检索中一个重要的方面。于是各种基于Web的图像检索系统应运而生。它们采用不同的工作方式,极大地方便了用户对网上图像进行检索。
目前图像检索技术的发展正走向更加成熟和完善,其中Web图像搜索技术也更加完善,本文将介绍这种图像检索技术并阐述Web页中的图像与文本之间的关系,对相似度作出了详细的论述。
2.1文本与图像之间的关系
在文本检索中,搜索引擎主要考虑Web页中相关文字信息以及它的语义,这些文本信息反映出网页的内容,但不完全与网页中图片的内容一致。在HTML网页中,根据HTML语言的格式,捕获反映图片信息的文字信息,分析这些文本的语义具有重要的意义。如在HTML文档中
2.1.1表示图像内容的文本标记
为了能识别嵌入网页中图片的内容,必须仔细检索HTML文档中能反映出图像内容的标记与其中的文本。经过对HTML网页格式的分析与对大量实际网页的研究,可知以下几个方面的标记与文本和图像内容有着最为密切的联系。
(1)图像的说明,这些文本出现在图像的周围,用一句过多句话表示出图像的内容,当图像被置于表格中时,同一单元或相邻单元格内的文字也常用与表示图像的含义。
(2)图像的标题,通常用一个关键词表示图像信息。
(3)图像的标签,使用一段短语说明图片的摘要信息,图片无法显示时用标签的文本取代图片,显示摘要信息。
(4)网页的标题,该标题反映出网页的中心内容,作为表现网页内容的图片与网页的标题之间也有着一定的联系。
以上讨论的是HTML中文档和嵌入网页中图像文本信息的关系,当然还存在其他的文本与多媒体信息和图像有关。但是作为搜索引擎要考虑的方面,既要保证抽取信息的准确性,也要兼顾程序执行中时间、空间的复杂度。过多地引入与图像关系不是十分紧密的内容作为检索的依据,会引入检索时的躁声干扰,降低搜索效率。
2.1.2 文本的权值比较
以上讨论了网页中对图像信息的描述,在图像的检索中,首先是要建立描述图片内容特征的查询语句,然后比较、区分描述信息与查询语句之间的异同,获取需要检索的图像。但以上信息在对图像描述时侧重于不同角度,同时与图像信息的联系程度也不一样。图像标题和网页标题是简单的词条,两者中相对来说图像标题更接近图像的主题内容。图像的标签和图像的说明是文本信息对图像内容的描述,后者相对来说更为详细。所以在比较、区分各类文本信息以决定是否符合检索要求时,它们所占的权值应该是有所不同的。根据信息的重要程度,他们所占的权值大小按次序如下:
Image Caption>Image Title>Image Alternate>Page Title
目 录
摘 要 i
ABSTRACT ii
第一章 前言 1
1.1 引言 1
1.2 现有的图象检索技术 1
1.2.1 搜索引擎的工作原理 1
1.2.2 图像搜索引擎的检索途径 2
1.2.3 对几个基本引擎的分析 2
1.2.4 搜索引擎的基本要点 3
1.3 图像检索的发展方向 4
第二章 基于Web的图像搜索 6
2.1 文本与图像之间的关系 6
2.1.1 表示图像内容的文本标记 6
2.1.2 文本的权值比较 6
2.2 图像信息检索 7
2.2.1 检索模型与相似度 7
2.2.2 分词技术和匹配方法 8
2.3 检索反馈 .9
结束语 11
参考文献 11
上一篇:【.NET】122 基于【.NET】邮件收发系统设计