【PHP开源代码栏目提醒】:本文主要为网学会员提供“基于领域本体的RSS源的OA资源集成门户设计与实现 - 会议论文”,希望对需要基于领域本体的RSS源的OA资源集成门户设计与实现 - 会议论文网友有所帮助,学习一下!
2011年全固情报学博士q:学术论坛
论文集 信息技术与应用研究 基于领域本体的RSS源的OA资源集成门户设计与实现 鲍玉来毕强 (吉林大学管
理学院,吉林长春130022) 【摘要】提出了一个积木式、个性化的OA期刊语义门户模型及实现。
探索了应用形式概念分析的理论与方法来处理和分析OA提供源的知识内容,建立基于本体知识结构的RSS源,实现基于语义的OA资源获取与推送。
【关键词】开放获取:领域本体;RSS;门户;概念格 【分类号】G250 DESIGN AND IMPLEMENTATloN oF Do心N oNToLoGY AND RSS BASED INTEGRATED PoRTAL FoR oPEN ACCESS RESoURCE Baoyulail2 Biqian91 (1、Management School ofJilin University,Changchun l 30022) (2、Inner Mongolia University Library,Huhehaote,0 1 002 1)〔Abstract〕Through the introduction of fuzzy formal concept analysis of theoretical models to processand analyze the content of OA to provide the source of knowledge,the establishment of ontology·basedknowledge structure RSS feeds,semantic-based access tO resources and push the OA,combined portaltechnology,proposed a building blocks,personalized semantic portal model OA journals andimplementation.1Keywordsl domain ontology;RSS;open access resources;portal;concept lattice‘本文系国家自然科学基金项目“基于概念格的数字图书馆知识构建研究’’(编号:70973044)和教育部高等学校博士学科点专项科研基金“基于领域本体的开放存取资源在线集成服务门户研究”(编号:2010006ll 10085)的研究成果1.引言 开放获取一般有2种实现途径:金色道路(Gold Road)即开放获取期刊(OA Journals)和绿色道路(GreenRoad)即作者自存档(Author selfarchiving)。
OA期刊和OA仓贮为研究人员获取学术资源提供了一条崭新的途径。
目前有代表性的开放存取资源集成服务平台DOAJ和OPEN.Jgate分别集成了8千多种OA期刊,并提供统一检索服务。
但是,由于许多OA资源是分散存放在世界各地不同的服务器和网站上的,因此用户很难直接全面地检索到这些资源。
基于用户的信息需求和信息检索角度考虑,既有必要对世界上重要的OA期刊和OA仓贮资源进行全面的收集和整理,也有必要支持对重要OA期刊和OA仓贮资源进行统一检索,因此,建设一个整合的、揭示OA资源和为用户提供OA资源的一站式检索服务的门户,是提高OA资源利用率,推动OA运动的重要途径。
本文通过引入模糊形式概念分析的理论模型来处理和分析OA提供源的知识内容,建立基于领域本体知识结构的RSS(Really Simple Syndication)源,实现基于语义的OA资源获取与推送,并结合门户PORTAL技术(类似目前出现的新的研究热点MASHUP技术),探索建立一个积木式、个性化的OA期刊语义门户。
【I】2.系统模型 系统主要由概念关系生成器、本体生成器、RSS处理器和门户容器等几个主要部件构成,如 图l所示。
系统通过对OA资源的语言分析获取领域概念集和形式背景,通过概念关系生成器和本体生成器来进行基于形式概念分析的领域本体构建。
门户系统通过领域本体来进行RSS组件的分类组织,通过语义映射获取相关的概念及实际检索词,进而生成RSS种子.通过解析RSS种子 从OA资源库中获取组件的内容。
用户通过定制相关的组件.搭建个性化的门户页面。
122 2011 q十Ill情报学m j”卞¥le J¨0tH B目#*bⅢ嘲Ⅻ≈ 田I系统结构圈2.1橱域概惫粜的篪取 本文选取了DOAJ中关于digital resouTr.2s的文章吾20篇作为样本空问,应用Stanford Parser对其进行统计分析.分别得出了两个系统的关于digital resouree¥的概念集。
2 2基于概惫椿的檀城奉体构建 利用Stanford parser针对digitallibrary文献中关于digital reso—s概念和属性的提取和形式化处理。
我们得到了OAjournal database、Press database、secondary document database、institutionalrepository等几个对孽。
获取了be nee、bc open access、authorize、时web、periodicity、fulltext,E-only等形式背景.如图2所示。
在概念格的基础P建立领域奉体。
这项
工作由奉体生成器来完成。
木体生成器通过基于OWL 的语义表述,自动生成一个领域本体。
¨1具体的生成原理如下”’: (1)樊映射 为概念格中的每个对象映射一个奉体中的对象。
通过概念的内涵和外延模糊背景分析,来构建适当的本体类。
在这个过程中.需要人工对自动映射牛成的本体类标签进行修正。
在本文中最高层次的概念应该标识为“database resources”,而自动映射则会标识为“Concept_l”。
(2)层次映射 层次映射就足通过分析,用相应的谓词来描述概念间的关系。
样水文中所有的列象与上位概念‘’datable resources‘|嘟是予娄的关系,这种关系的表述i簧词是“坩B:sullClassOr’,在OWL樊的定 义中.”c-journal”是“database t’e¥ource”的具体化(SlX!Cia〕ization)。
(3)关系映射 将概念的内涵(就是在形式背景中的一系列属性)到本体属性的映射。
在本文中.就是将“be frce.beopen accc#、authorize、byweb、periodic时、fulltext、E-only等形式背景”映射为本体的属性. 2011年生目情m学*i十学术论k酪t蜒 信息技术5J;用研宅 眵叫≯ R… 酽‖一 目2 CoNc。
ptLtttit* (4)生成本体 作为本体构建的最后一步.此步骤将根据上述兰个层次的映射.生成既包含概念格中全部概念、又包含有概念关系谓诃描述和属性的领域本体窭例。
(5)构建本体映射知识表 在基于大量文本的语言分析统计基础上,建立概念集对应的叙词字典。
就是将获取的概念集与 文本中实际出现的用词根据词额等指标建立映射字典,在这里我们称之为本体映射知识表。
主要功能是将本体查询转化为针对某个数据源应用的关系型数据库的检索。
在本文中概念‘’OA{ournal”在知识表中对应“OAjournal”、“Own蝴journal”、“freejoumal”等检索诃。
2 3RS¥种子的生成覆Rss解析 (1)基于SparQL(Simple Protocol andRDFQueryLangua套e)的本体查询 在领域本体生成后,我们将应甩sparQL(Simple Protocol and RDF Query L矾guage)来进行本体查询。
SPARQL是为RDF开发的一种查询语言和数据获取协议,它是为W3C所开发的RDF数据模型所定义,但是可以用于查询任何可以用RDF来表示的信息资源。
SPARQL提供了强大的摹于图形匹配的查询功能:提炼奇询结果(ORDER BY.PROJECTION,DISTINCT.REDUC.D,OFFSET,LIMIT)、可选旺配(optional)、值约束条件(filter)、替换匹配、以及直接回菩YES/NO等其他形式的查询。
最简单的图形模式是三元组模式.一个三元组模式与RDF的三元组类似,不同的是三元蛆模式允许查询变量出现在主体、谓词或者客体的位置上.=元组模式台并形成个基本的图形模式。
(2)RSS种子生成 RSS也叫聚台RSS,是在线菇享内容的一种简易方式.是网络中最流行的内容分麓格式之~.它基于XML语言,继承了简单.可扩展性和灵活性:通过种子(RSS feeds)实时地跟踪多种变化的内容(如同站,维基更新,在版本控制工具的源
代码的变化),RSS击除广告等网页噪音,只关注网站的主要内容.大大减少访问网站最新的网站更新和某主腥最新的数字出版所需要的时间。
作为web20的主要技术之.RSS已经成为构建个性化门户和信息推送服务的主要造径, 通过本体映射知识表将本体裔询转化为针对某一数据潭的本体
查询,井将结果通过RSS种子牛成工具进行处理,使得检索结果符合RSS的格式标准。
通过构建RSS种子.我们就可以将用户通过领域本体的定制的概念.转化为个或者多个实际的RSS种子。
在门户中实时地将结果推送给用户,实现语义推送的功能。
201 1年全围t丰报学博士牛学术论坛
论文集 信息技术与应用研究 (3)RSS解析
网络用户可以在客户端借助于支持RSS的聚合工具软件(例如SharpReader,NewCrawler、FeedDemon),在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。
而本文要实现RSS的在线阅读,并将RSS阅读集成到门户系统中,使得每个RSS种子都对应一个门户组件(widget)。
2.4门户系统构建2.4.1门户平台选择 本文选择了push作为门户平台。
Push是一个
开源个性化门户平台。
其用户体验类似Netvibes、iGoogle等平刽51。
采用PHP/MySQL/Ajax开发。
提供窗tad,部件管理,用户管理,Tab管理,皮肤管理,插件扩展,社交网络(Social network),书签,全文检索等。
最为重要的是posh内置了RSS的支持,不但支持RSS的在线解析和阅读,还将RSS组件化,可以便捷地实现基于RSS的信息推送。
2.4.2门户系统语义功能集成 PUSH功能强大,但其不具备语义功能,本文要实现的语义定制与推送需要对平台进行二次开发。
按两个路径进行开发:路径一,将本体知识映射表,集成到
系统的数据库结构中,在用户定制时实现概念到检索词的转化:路径二,用户信息中加入其学科背景属性。
这样使得用户
注册后第一次登录时,系统就可以根据其身份选择模块库中的相关学科的组件,为其组织一个缺省的个性门户页面。
3.系统实现 为了和Push平台更好地结合,系统采用PHP作为开发语言,MYSQL作为数据库系统,采用APACHE作为发布平台。
在SPRAQL查询中使用了
开源ARC2作为中间件。
选择Lattice Miner作为概念格建格工具,用Protege构建本体。
RSS种子生成器3.1 每一种OA期刊都提供了对其资源的检索功能,例如,Urban Library Journal,!!丛P;厶丝丛nY!i坠刨曼§:Q旦圣盘!j§丛n鱼曼苎:乜bP出lj厶趔曼堡垒Y绝!坚g缸羔凸&堡坠E曼曼鱼Q堑曼塑坌Y£!丛gi型垡墨2)是其网竭占击黾1共的最新目次的RSS种子,但是这个种子只能提供最新目次的浏览。
本文中我们关注的是,用户通过领域本体定制概念,通过本体知识映射表转换后的关键词在这个OA期刊网站的检索结果。
通过分析协议
软件(http sniffer),我们得到该刊的检索URL构造形式为, 其中http://cunylibraries.org/ojs/index.
php/u!i/search/results?querv=open+aecess&searchField=2一,SearchFeiid为检索点定义,取值情况为Authors=l、Title=2、Abstract---4、Index terms=120、Full Te)【t=128,query为输入的检索词。
在获得了检索式构造方式后,需要将检索结果页面进行处理,生成RSS种子。
这里我们确定 种子所需要的信息格式为, <?I_l verlll’On=,I.0J onooding=’utf-Ir7> <rs-vor|iOn=’2.0’> (channel> <title>Orbu Librtury Journal(/titlu) ‘link>hatp://cunylibrm-ies.or_,oj·/ind·I.
php/uljillink) <deicription>Urban Library Journal</de_cription) <1angunJie)en—OS<llanaua41e> (mmm.gln=Editor>li BL finderQsnail.oom(/nanqlnsgditor> OmbMaster>nbergerecitytech.cuny.edu(1lonic-BerBer)</webMalter> (pubDmteYllon,27 Jun 201I OO:00:00—0600</pubD-t·> <itea> <title>A Content Ansiy●I’-of th·Stritello PlUU of the Coalition of Urban Serving Universitl‘ee Autdetio Libraries <Ititl·> ‘link>http://cunylibrs.ri·-.ora/</link) (nuthorYTon Biel”itz</auther) <gui di#Perntd.i nk=’true。
> httv://cunrlibrsrio·.org/oj·/index.
php/ulj/artiule/vi·w/S3</suid) </ito-,) </ohanael> 125 201 1年全固情报学博iqi学术论坛
论文集 信息技术与j立用研究 种子生成器就是要将检索结果页处理成以上格式并输出。
以下
代码是RSS种子生成器和解析工具的处理过程:¥html=file__get_html(’http://eunylibraries.org/ojs/index.
php/uli/search/results?一』〕uery=open+access&searchField=2’);foreach(¥html->find(’div.article’)雒¥article){ ¥item〔’title’】 =¥article->find(’div.title’,0)一>plaintext; ¥item〔’author’】 =¥article->find(’div.intro’,O)->plaintext; ¥item〔’link’】=¥article->find(’div.1ink’,0)->plaintext; ¥item〔’guid’】。
¥article一>find(’div.guid。
,O)->plaintext; ¥articles〔】=¥item;)¥output=”qxml vel’sioll--”1.0”encoding=’uff-8’?> <rss version=’2.02 <channel> <title>Urban Library Journal</title> <link>http://eunylibraries.org/ojs/index.
php/ulj</link> <description>Urban Library Joumal</descfiption> <language>en-US</language> <managingEditor>lisa.finder@gmail.com</managingEditor> <webMaster>mberger@citytech.euny.edu(Monica Berger)</webMaster> <pubDate>Mon,27 Jtm 20 1 1 00:00:00-0600</pubDate>”;foreach(¥item){ ¥output.=”<item><title>”.htmlentities(¥item【ttitle’】).”</title> <author>”.htmlentities(¥item【.author’〕).”</author> <link>”.htmlentities(¥item【‘link’】).”训ink> <guidisPermaLink=hrue’>>”.htmlentities(¥item【-link’】).”</liTll(> </item>”;}¥output.=”</channel></rss>”;echo¥output; 这样我们就得到了提供用户定制和生成门户组件(widget)的RSS种子。
3.2本体查询和SPRAQL解析 本体查询模块由OWLClass、OWLModel、OWLlstance、OWLProperty等类组成。
OWLClass节点代表一个OWL本体描述特征类.OWLlnstanee代表了一个OWLClass简单的实例(个体),OwLProperty代表一个属性可以是一个数据类型属性或一个对象的属性,OWLModel是本体模型 的主体,定义本体的所有操作。
SPRAQL解析主要由SparqlEngine和SparqlParser两个类完成。
SparqiEngine执行针对RDF的SPARQL查询,SparqlParser处理SPARQL查询字符串,并返回一个查询对象。
3j门户系统的改造 这部分主要是将本体知识映射表集成到门户平台posh的数据库结构中,建立knowledge表,用以存储概念集合映射。
同时将USER表的备注字段启用,以标注用户的学科背景、知识背景, 以实现根据用户的身份自动生成缺省的个性门户。
l。
1 门户管理后台界面如图3所示,用于门户系统设置、门户组件管理、用户管理等。
126 2011日t目怙报学I目{4{学术论b、论t4; 信自技¥‘,m川研宅 w…一…一…一“!黧。
。
。
。
。
。
。
。
…。
。
。
。
。
…。
。
。
。
。
。
I“…”¨…~¨‘M口t f司 l—m…“m一““。
一普=;j。
器”。
…一““…w一…m一一“””1 l:::兰::羔xⅧm¨“ 翟 l口一8 i¨”1日R 田3门户瞥理蛾界面系统通过RSS种子建奇相关的组件,在本文中我们建立了二种OA期刊的组件 丽蒸;;丽 竺竺竺竺1 1面而面丽面 圈5用户定制的页面田4门户组件译加加图4为用户正在向自己的门户页面添加组件,图5、田6是添加后的效果界面 —————兰!!!型!!!!!!!!!!! 苎!l!i些!!! Im帆hd,‘J张*呻Ⅷ丽睁五厂磊磊面而鬲藉 ⅧMⅫ■d四l 盔墨富墨墨墨囊 hq¨女… d九l … “‘删·口一uw一“f Ⅻ四t “m*九q日h”l &四四∞Ⅲl E_*w∞删…nte 九 *☆一∞w“ 圈6用户定倒的页面 4.总结 本文通过概念格和形式概念分析来改普概念间的语义关系,并在此基础上构建7领域本体。
利 用构建的领域本体.通过SPRAQL查询、映射和RSS种子构建,将语义植入现有的门户系统平台 中,实现了OA费源的sBamh&m埔v“到explore出play的过渡,【9坦OA费源整合服务的新的揉 索。
作者简介鲍玉来,1975年生,副研究馆员,吉林走学博士研究生,研究万向为数牟圈书馆 信息贵源管理:导师:毕强教授. 参考文献z 【1Ic DeMaio,G Fcnza,V Loi0.S s四∞Ontol027/-based knowledgem眦mn“g∞8pplicmI伽onRSS FeexisK】Proddingof H…SystmIntemfioas,lEEEPmss,2009 ⅢHongH S,Col锄b RM Ontologympping beMemhe加gencous目四for…吐web〔J〕Jo啪al时Km龃 Infomatlon Science Soeiety,2004lfll:25-32 H}szhouttLing,Mltan,HzhⅫgOntologyG四ffomRelational p涨采仁.榻i奇,基于自熬*言埋解∞SPARQL奉俸軎询lq“算机席用,20io,(12j:3j97.3400.andInflation Selence 2010 3(2):263-267 Databasc Based on J¨aⅢJ一1 ofCccapu【口 【5m“p:柑w“印^∞co∞rⅢw曲sl咄“印navm血x phplOLl 【61MoMmcdAmlneChaai,Malthi∞Jarkc.M玳m Spcchl.Ulrik Sc;woe帆DanlclDaM Modebdfiv帅m∞huppersormll…g cnvironmems〔J〕〕nl∞allonal Jouml ofT%hnologyEnhanccdLeming.201I 3(I):21-39【7】李}E涠书镕橐成融£m务研究川tll#帼:ttlltttl技术,2C09,(12):1{【8】RokiaBend∞ut协mckTa∞s锄咖“∞Napoli PACTOLE:AMetho<lologyⅫd aSyst啪for Semi-am帅aticaJlyEndchlngmOmolo‖‰aCollection ofTOaS〔C〕Proccedings conforeⅫonConceptual ofthel6thinicfngionalSm日…KnowledgeⅥ叫田tl…dR∞…&Joul…h¨cc【9】c DeM“o,GIClProceedings464-470 Fen丑,VLo‰州S ofthe 2ndc∞feren∞o|l H四Sy Scnal呲嘶lo盯ma*d knowledge s叽d吲“g姐3即】l口6邮onRSSfe.cds Intcracdo|ls(HsI_091 IEEEt”a:ss Pigeataway,NJ USA,.