的信息,下面详细讨论这一 过程.如果知道所要检索的网络数据库的URL和
查询字符串的构成,就可以通过HTTP协议来访问
已有的网络数据库.下面以甘肃省科学技术情报研 究所的清华同方CNKI中国学术期刊全文数据库为 例进行分析. 清华同方CNKI中国学术期刊全文数据库的镜 像地址是http://cnki.gsinfo.net.cn/knsS0/Navi- gator.aspx?ID=1.打开这个网页,可以看出可供 选择的参数有:论文范围、排序、匹配模式、论文年 度、每页显示记录数,最后就是布尔检索的设置,最
统一检索系统实现的难点主要在于性能和稳定 性的实现,采用PHP5.0作为开发工具,优势主要
在于优异的字符运算处理速度和可靠性,通过与A—
PACHE 2.0
多可设置5个.还要分析网页中的JavaScript代码,
看看这些检索参数是如何编码然后传送到WEB服 务器的.一定要注意里面的隐藏参数,同时要注意表 单的提交方式(POST或者GET),为了得到所有查 询字符串参数,可以借助于工具软件Sniffer来获 取.经分析得到的参数如下: ID=1//代表当前检索的是中国学术期刊全文数 据库 order=dec//代表检索结果按降序排列 searchmatch=1//代表检索匹配方式为精确 yearstart----1979//代表检索起始年限为1979年 yearend=2006//代表检索终止年限为2006年 RecordsPerPage=20//代表检索结果每页显示 20条 SearchRange=All//代表检索范围为所有专辑
Web服务器的组合使得统一检索系统
具备了良好的稳定性和性能E3]. 2.2网络数据库的描述 在统一检索系统对各网络数据库进行处理之 前,首先需要一种方法来描述各数据库的配置信息. 采用SQL sERvl璁2000来存储各数据库的配置 信息[4I,主要存储以下信息: 1)数据库基本信息,包括数据库在系统内部的 名称(英文)、对应模板、在原始检索系统中的内部数
据库名称、字段映射解析类型、数据库中文名称、提
供商、检索字段、原始网址、数据库类型、数据库语种 等.
万 方数据
第1期
王权等:基于PHP的统一检索系统
searchlnResult=0//代表不是在结果中检索
TableType=PY
篇文章的详细信息.对得到的详细信息页面HTML 文件进行分析,就可以得到所要的详细信息,然后将 它显示出来.有全文的就可以得到下载全文的信息. 目前的检索系统都应用了Session技术,为了 解决Session过期的问题,采用检索时一次性释放 检索系统Session会话的机制,当翻页时再次建立 检索系统Session会话. 2.3.3统一检索系统完整的二次检索模型设计 完整的二次检索也是目前国内统一检索系统难
display=Chinese//代表检索结果显示为中文 encode=gb//代表检索结果编码方式为gb2312
userright=
VarNum=l//代表检索项为1项
hdnlsAll==true NaviField=
NaviDatabaseName=CJFDZJCLS//代表当前检 索数据库导航名称是中国学术期刊全文数据库
systemno= hdnFathorCode=sysAll TablePrefix=CJFD
以实现的瓶颈,通过构造一个合理的四元组模型可
以实现完整的二次检索. 构造的四元组是F(L,R,K,O)函数,其中:L 是资源库名,表示为L=enki,cnki为库名;R是检 索字段的组合,表示为R—fieldl,field2,…,field为 检索