【Java开源代码栏目提醒】:网学会员,鉴于大家对Java开源代码十分关注,论文会员在此为大家搜集整理了“基于Web_Services分布式数据源统一查询系统 - 硕士论文”一文,供大家参考学习!
中山大学 硕士学位
论文基于Web Services分布式数据源统一查询系统 级别:硕士 专业:软件工程 指导教师:林小拉 20070602
论文题目: 基于Web Services分布式数据源统一查询系统 专 业: 软件工程 硕士生: 孙素云 指导教师: 林小拉教授 摘要 随着计算机技术的不断发展,企业各部门之间、企业与企业之问,各种数据信息以飞速的速度增长,各种不同的管理信息系统被用来处理和存储这些数据信息。
但是这些管理信息系统分别采用了不同的数据库系统以及使用了不同的应用开发技术,而且在数据库的建设上没有遵循统一的标准,缺乏系统的整体规划,信息建设各自为政,使得应用和数据等层面上是彼此分离的,系统之间缺乏联系,形成“信息孤岛”.如何将来自于各种各样数据源的数据通过网络实现共享,以低代价的方法方便地连接在一起,实现大范围的跨企业实体的商务应用系统的对接,解决语言差异、平台差异、协议差异、数据差异等方面所带来的高代价的系统集成,已经成为当前研究的一个热点问题。
Web Services技术是一种新的分布式计算技术。
它在跨〕nternet、跨平台等方面有着其它技术无可比拟的优越性,为基于Internet的分布式的异构数据信息的集成提供了强有力的支持。
本课题针对当前分布式异构环境下数据源的特点,在研究当前异构数据源统一检索技术的基础上,通过详细分析阐述了基于Web服务的异构数据源统一检索方案的基本原理和思想,采用Web Services技术,对传统异构数据封装Hediator/■rapper方法进行改进,以Web服务注册机制代替虚拟视图,实现异构数据源检索接口的透明集成,构建资源信息透明访问框架,实现对分布式异构数据源信息的统一检索。
关键词:元数据,Web Services,统一查询 Title; Design and Implementation OfDistributed Data Sources Uniform Querying System Based On Web Services Major: Software Engineering Name: Su-Yun SUN Supcrvisor; Professor Xiao-La LIN ABSTRACT With the development of computer technology,all Idnds of data have beenincreasing at a surprising speed in enterprises and their departments.Diversemanagement information systems have been used to handle and store up these data,which are separated from each other with regard to the application of data and workrespectively with different data base systems and application-development technology.Because of different logic systems,various criteria On the construction of data base。
and the lack of systematic program and connection,As a result,information call notbe shared.the content of information is chaotic and the Sources of information ateinconsistent,and come into a lonely”information island”.How to shai’e data from allkinds of data SOUreC¥with the low-cost through network for solving the high-costsystem integration in differences of developing languages、platforms、protocols anddata,It has become the key problem ofenterprise application integration· Web Services iS a kind of new distributed arithmetic technology.It hasunmatchable superiority to other technologies in crossing intcrnet,platform,etc。
therefore providing strong SUpport for the integration of distributed heterogeneousdata information based on IntemcL n地paper aims at current digital resourcescharacter under distributed heterogeneous circumstance,and analyzing shortcomingsof the existent heterogeneous data¥oarce search systems,by analyzing andexpatiating the principles of heterogeneous data sources union search is discussedbased Oil web services,applying web services technology to improve 011Mediator/Wrapper means of encapsulating tradition heterogeneous data,using webservices fegistration mechanism insteed of virtual view,achieving transparentintegration to heterogeneous data¥ource)¥search interface,conceiving transparentframe of accessing distriImted resource informatiorz,achieving union tea-/eval ofdistributed digitaI reYaources information.Key words Mctadata、Web Services、Uniform Querying lI中山大学硕士
论文 基于Websc州ce,分布式数毙漂统一查询系统 第一章绪论 1.1研究背景 随着数字化建设的不断深入,许多高校图书馆为加强信息资源建设,提高服务质量,通过集团采购、自主购买、自建数据库等多种形式,引进和建设了多种不同的数据库资源,使得图书馆的电子图书、电子期刊、网络数据库等数字化信息资源显著增加,这些资源在物理位置上可能在一起,也可能是分布式的,同时这些数字信息资源往往是由不同的数据商提供的异构数据库,系统运行环境各不相同,数据库的检索界面存在差异性和复杂性Ⅲ.目前这些数字资源按功能可以分成三层;门户层、服务层和数据存储层,其结构图”1如图卜1所示。
磅 嚼 资源门户 书目检索,电子期刊、电子书等 嚼 知识库、元数据、馆藏数据等异构数据 图I-!数字资源功能结构图 从图卜1可以看出,门户层是各资源系统为用户提供了友好的检索界面,是读者换取信息的入口。
数据提供商根据数字资源自身的特点定制了形式各异的门户,这些门户在一定程度上方便读者对信息的换取,但是用户为换取相同的信息需要切换不同的数字资源门户.服务层是图书馆为读者提供了内容丰富的数字资源,其中有书目数据、中外文电子期刊、电子书等数字资源.这些资源分布在图书馆不同的服务器或者存储设备上,有的甚至分布在Internet网络上,而且它们运行在不同的系统环境中,有Windows环境或Liunix/Unix环境。
图书馆内的数字资源分别以知识库、元数据、数据媒体、数据库和电子文件等异构格式分散的存储在各个服务器或存储设备上。
因此当用户在检索某个课题时,为了提高查全率,首先需要了解在图书馆提供的众多数据库中哪些数据库涵盖的学科内容与自己的检索课题有关系,然后需中山大学硕士
论文 基于Web Services分布式数据源统一查询系统要逐一登录所有有关数据库分别进行检索。
因此在给用户提供丰富信息的同时,也给广大用户在检索多种电子资源的时候造成了极大的不便。
同时由于目前图书馆的分布式信息检索系统一般采用硎I、Jinni、CORBA、Dc叫等中间件技术…,随着Internet技术的迅速发展,基于Web发布的信息平台越来越多,用传统的中间件无法实现基于Web的分布式检索功能”。
因此如何组织和管理这么多的数字化资源,以便更好地为用户服务,已成为数字图书馆研究的热点和难点之一“。
1.2国内外研究现况 异构数据源统一检索也叫作跨库检索嘲,它是以多个分布式异构数据源为对象的检索系统,向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地的和广域网上的多个分布式异构数据源,并对检索结果加以整合。
在经过去留和排序等操作后,以统一的格式将结果呈现给用户。
异构数据源统一检索的这种基本原理,决定了它有以下优点:提供统一的检索接口,能够减轻用户
学习检索不同数据源的负担;并发检索,能节省用户总的检索时间;结果整合,呈现给用户的最终结果不仅格式统一,而且按统一标准排序,大大方便了用户的浏览和选择。
1.2.1异构数据源统一检索的现况 目前,异构数据源统一检索主要应用在数字图书馆方面,世界各国的数字图书馆建设中都将异构数据源统一检索作为一项重要的内容,并且提出了多种解决方案并开发出了多种异构数据源统一检索系统。
例如,美国新墨西哥州洛斯阿拉莫斯国家实验室研究图书馆开发的FIashPoint在2002年12月己经可以统一检索包括网络数据库、图书馆目录、电子杂志在内的11个数据源;美国加利福尼亚大学的数字图书馆项目CDL(California Digital Libra)的项目成果之一Searchlight,它己能够支持239.50和Web搜索,可以统一检索多个数据源,包括商业数据库、OPAC以及CDL自建的数据库(杂志索引、全文库以及Web目录)。
此外还有一些
软件生产厂商开发了商业化的异构数据源统一检索系统。
如WebFeat公司的WebFeat,Fretwell—Downing公司的Zportal.ExLibris公司的MetaLib,Copemic公司的Aggregator以及Endeavor公司的ENCompass等盯1. 2中山大学硬士
论文 基于Web Services分布式数据源统一查询系统 我国的异构数据源统一检索技术研究虽然起步比较晚,但发展比较快。
“九五。
期间我国就开始了CALLS(中国高等教育文献保障体系)的研究,CALIS别列为。
21I工程”重点项目.从“十五”开始,此项目的研究重点就从数字化资源建设转移到数字化服务体系的建设,02年9月CALIS启动了统一检索平台项目的建设。
目前此统一检索平台己基本完成,CALIS统一检索系统“1采用了基于元数据的检索技术,能够对分布在本地和异地的各种异构资源提供统一的检索界面和检索语言。
国内一些高校也设计和开发了自己的异构数据源统一检索系统,目前投入使用和测试的有:清华大学的同方异构统一检索平台、华中科技大学UnionSearch统一检索平台,南京大学图书馆网络数据库一站式检索系统等等。
1.2.2异构数据源统一检索的基本方法 异构数据源统一检索的目的就是并发地检索本地的和广域网上的多个分布式异构数据源,并对检索结果加以整合,以统一的格式将结果呈现给用户.针对异构数据源的特点,现在大部分统一检索平台在解决异构数据源统一检索方面,常采用以下几种方法“1: (1)通过数据库接口软件与不同的数据库直接连接,如0DBc和JDBC等。
在同时检索的数据库数量较少时。
使用此技术可在一定程度上解决异构检索闯题。
但数据库达到一定数量时,处理速度很难保证,这种方式仅适用于对属于本单位的少量异构数据库进行统一检索. 《2)不同数据库问的格式转换,主要是利用数据库产品本身提供访问异构数据库的功能,以实现在异构环境下建立具有较高性能的分布式数据系统。
现在一些图书馆制作的学科
导航系统就是利用此方法设计的,它利用一些程序将各种异构数据库的部分数据导入一个数据库系统中,以方便读者访闯,但是收录的数据库数量不能太多,此外还涉及
版权问题。
(3)运用元搜索引擎的基本原理,利用数据库的Web客户端进行统一检索.元援索引擎主要运用在网页信息的
搜索方面,但现有各种电子资源数据库都提供相应的客户端接口,因此可利用元搜索引擎的原理对各个异构数据库进行统一检索。
这种方法的缺点在于需要对各个数据库的Web处理接口进行详尽分析,各个数据库的Web处理接口如发生改变则需重新设计,接口的稳定性较差. 中山大学硕士
论文 基于Web Services分布式数据源统一查询系统 1.2.3目前异构数据源统一检索系统存在的问题 目前,很多数字图书馆系统是基于上述方法设计的,并且有很多相关的产品正在推广应用中。
但是,在现有的数字图书馆中
系统集成都或多或少存在很多的缺陷,特别是在资源整合方面并没有突破,而且每个数字化在整合资源的同时,又形成较大的信息孤岛,成为与外界进行资源共享和互操作的瓶颈。
目前的国内外的异构数据源统一检索系统普遍存在如下问题: (1)系统稳定性差,不易扩展。
需要对各个数据源的检索处理接口进行详尽分析,各个数据源的检索处理接口如发生改变则需重新设计,系统的稳定性较差。
(2)各数据源查询结果排序方式不同,对检索结果的融合处理实现复杂、时空性能不佳,而且效果不理想,没有针对特定领域异构数据源检索的特殊情况进行动态优化。
(3)对返回的异构结果记录大多采用WEB页面格式,需要进行大量的字符处理来解析记录,造成检索速度较慢,而且很难进行分类等二次处理。
1.3 Web Services技术的引入 传统的应用集成技术如CORBA(公共对象请求代理结构)、Dc0M(分布式组件对象模型)及蹦I(远程方法调用)等都是建立在“独立解决方案”(目的性很强的解决方案)的基础上,从一次性开发的角度实施,和一定的平台相关,通过
程序代码实现复杂应用接口来连接用户、电子政务应用以及其他信息系统,因此,无法有效地解决经常发生的业务流程的更改、新业务的增加而触发的大额费用问题。
Web Services提供了一个分布式的计算技术,用于在Internet或者〕ntranet上通过使用标准的xML协议和信息格式来展现应用服务。
使用标准的xML协议使得Web Services平台、语言和发布者能够互相独立。
通过开放的Internet标准Web Services描述语言(WSDL,用于服务描述),统一描述、发现和集成规范(UDDI,用于服务的发布和集成,简单对象访问协议(SOAP,用于服务调用)和WebServices流语言(wSFL,用来定义工作流,这是IBM开发的一个Web Services标准),WebServices消除了现存的传统应用集成技术(如CORBA、DOOM)中的互用性
问题。
Web 4 中tlI大学硕士
论文 基于Web Scgvlc∞¥分布式数据源统一查询系统的
设计与实现 服务技术经多年的发展,正走向成熟,并因其独有的完好封装性、松散祸合、使 用协议的规范性、能够跨平台地继承应用、高度可集成能力的特点,使其非常适 合INTERNET的发展,能够在异构数据源统一检索领域得到广泛应用。
而且Web 服务设计基于服务定向的架构(SOA),可以促进松散耦合的应用系统,能够方便、地解决信息系统集成的困难嘲。
将Web服务应用于异构数据源统一检索,能够实 现系统跨
网络、跨平台数据通信以及系统间灵活集成。
通过1.2节中介绍并分析了现有的异构数据源统一检索系统以及它们存在 的目题,结合Web服务技术具有跨平台、跨语言、简单、高效、可扩充等优点, 可以解决现有异构数据源统一检索方案中存在的问题,因此本课题将Web服务技 术引入到分布式数据源统一查询的研究。
1.4研究创新之处 分布式数据源统一查询系统旨在针对各个数据库中的各种异构数据资源进 行整合,为用户提供一种更好的整合检索服务,从而提高资源的利用率.本课题 的研究目标就是在研究已有异构数据源统一检索技术的基础上,采用Web服务技 术,提出基于Web服务的异构数据源统一检索框架,实现数据源的“即插即用” 的目题:解决异构数据源检索的统一查询,统一表示问题等,本文的主要创新如 下: l、分析了当前基于传统分布式技术的分布式数据源统一检索的现状,根据 分布式数据源的特点,利用基于Web Services的集成解决
方案的优势,提出了 基于Web Services分别进行组件
通信、企业内部应用集成和企业问统一查询的 框架,实现对分布式异构数据资源信息的统一检索。
2、分析了Web Services协议栈、面向服务的体系结构SOA以及实现Web服 务的关键技术(瑚L,SOAP,WSDL,UDDD,对开发企业级Web服务应用的两大主 流平台J2EE和.NET进行了分析比较,并在J2EE平台上利用JAvA语言创建及部 署|eb服务,完成基于Web Services分布式数据源统一查询系统. 3、采用分层的设计思想,构建企业应用集成模型,设计出了一种基于Web Services的统一
查询方案。
该方案能够充分利用现有的软件投资并保持原有软 件系统的运行,在原有系统的基础上构造一层统一的应用服务层,该应用服务层中山大学硕士
论文 基于Web Services分布式数据源统一查询系统对外以Web服务的方式提供服务。
4、Web Services是建立在XML基础上,使得Web服务的异构数据源统一检索方案具有跨平台、跨语言,结构和实现简单、可扩展、可维护性等优点,同时Web Services利用基于XML格式的SOAP消息进行数据交换,采用WSDL文档描述接口,通过UDDI注册中心发布服务和查找服务,为在平台层解决应用层集成问题而提出的开放式的技术构架,解决己有统一检索方案中存在的问题,具有较高的实践应用价值。
5、从语义上看,由于Web Service就是一个自包含的应用,完成单个的任务。
Web Service的自描述文件使用其他应用可以理解的方式描述输入和输出,其他应用知道该服务能做什么,如何调用,以及会返回什么结果,实现分布式数据源基于语义的智能查询,达到资源的有效共享。
6、使用Web服务实现异构数据源统一检索时,每个数据源提供的检索接口都按照相同的方式描述为Web服务,并将服务在
注册中心注册,整个过程都有相应的辅助工具和工业标准规范支持完成,无论是理解还是实现都非常简单,缩短了统一检索系统的实现周期并降低了实现难度。
7、Web Service是在Internet上发布的,Web Service使用广泛使用的传输协议,不需要调整现有的Internet架构,就可以通过防火墙进行通信。
1.5
论文的组织结构 第一章对
论文的研究背景、国内外研究现况、Web服务技术的引入、
论文的创新之处和
论文的组织结构等方面进行了介绍。
第二章是基于Web Services分布式数据源统一查询系统相关技术研究,对涉及的主要技术:如元数据技术、Web Services的基本概念、体系结构、协议标准和主要技术进行详细的讨论,为基于Web Services分布式数据源统一查询系统做了技术上的准备。
第三章对基于Web Services分布式数据源统一查询系统的体系结构、开发技术、主要功能模块的功能和设计等方面进行详细的阐述。
6中山大学硕士
论文 基于Web Services分布式数据源统一查询系统 第四章是基于Web Services分布式数据源统一查询系统实现,对实现分布式数据源统一查询的关键技术如基于Web Services的查询分解算法、IJlJID的实现、WSDL请求与查询服务的实现、SOAP服务器的实现、业务层Web服务功能的具体实现和XML
文档的存储等进行具体开发与实现。
第五章本章以数字图书馆联合互借项目为背景,构建了基于Web Services架构的原型系统,完成基于Web Services分布式数据源查询系统的。
第六章是总结与展望,对全文的
工作进行总结,并对
论文进一步的研究与工作方向进行了展望。
7中山大学硕士
论文 基于Web Scrviccs分布式数据源统一查询系统 第二章元数据与Web Servi CeS技术 本章根据第一章提出的使用Web Services技术构建分布式数据源统一查询系统的必要性和可行性研究,对Web Services技术进行了阐述和分析,为基于Web Services的分布式数据源统一查询系统研究与实现做了技术上的铺垫。
2.1元数据 元数据(Metadata)是关于数据的结构化数据,是用来描述和规定数据的编码数据,用于提供某种资源的有关部门信息的结构化数据。
它是对资源的内容、形式等全方位揭示的概括性数据。
元数据能够为各种形态的数字化信息单元和资源集合提供规范、普通的描述基准和方法,在网络信息资源的组织和整理利用中发挥重要的作用并且成为各界研究的热点论题。
元数据是Internet时代人们用以描述信息的词语,通常是对网络信息资源的描述,其最为重要的特征和功能就是为数字化信息资源建立一种机器可以理解的框架。
按照其功能的不同,可以划分为管理型、描述型、维护型、技术型和使用型等多种类型“” 对于图书馆来说,更加关注的是元数据的应用和检索。
目前,图书馆界主要从两个方面来定义元数据:1、强调结构化的数据;元数据是提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述;2、突出其功能:元数据是用来描述信息资源或数据本身的特征和属性的数据,是用来规定数字化信息组织的一种数据结构标准,具有定位(Location)、发现(Discovery)、证明(Documentation)、评价(Evaluation)、选择(Selection)等功能,
常用的元数据如下: 2.1.1 MARC元数据 MARC的全称为Machine Readable Catalogue,从英文意义上可知,它是“机器可读的目录”。
它是计算机能够识别和阅读的目录,其信息存储在
计算机存储器上。
它的出现主要是为了把在书刊编目过程中费力的人工书刊编目转变成便捷的机器编目,把书目记录的数字、字母与符号转换成计算机能够识别的
代码形式 8中山大学硕士
论文 基于Web Sc州∞s分布式蠡据源统一查询系统m1,其在图书馆有以下几方面的用途为:(1)选书:在订购系统中建立书刊订购
文档;(2)编目:包括直接利用MARL磁带记录作为本馆的目录文档和建立联机编目系统. 1IARc是用于描述存储、交换、控制和检索的一套机读书目数据标准,它具有严格的语义规则和完整的信息描述字段,能够精确、完整地描述信息资源,尤其是对检索点的选取能够确保其数据元素组成具有统一性。
2.1.2都柏林(Dublin Core)元数据 1995年,由OCLC(Online Computer Library Center)和NCSA(NationalCenter for Supercomputing Applications)联合在都柏林召开的第一届元数据研讨会上,产生了一个精简的元数据集一一都柏林元数据核心元素集(DublinMetadata Core Element Set),简称为都柏林核心(Dc).由于其简练、易于理解、可扩展性使其成为了一个良好的网络信息资源描述元数据集“”。
Dc元数据的功能主要包括以下: 1)查找:Dc的元素如题名、主题、创建者和其他贡献者均可作为检索点; 2)识别:Dc中也存在一些与信息资源的识别相关的元素,如日期、类型、 格式和识别符; 3)选择:Dc元数据在一定程度上代表资源,可以用来支持资源的选择; 4)获取:Dc元数据的目的之一就是支持资源的检索。
在网络环境下,元素 “识剐符”中的准确地址可以全面支持资源的获取,超越时空的限制。
Dc的15个核心元数据字段如下: (1)题名(Title):由创建者或出版者提供的资源的正式名称; (2)创建者(Creator or Author):对资源的知识内容负主要责任的个人或 组织: (3)主题Subject or Keywords):资源的论题,通常是用.