能力。
生命科学数据中心作为上海市“一网两库”系统“上海科技基础数据库”
的重要组成部分,承担着上海生物信息技术研究中心的数据共享等工程性任务,是
上海市科技数据
共享服务系统的重要环节之一。
其主要目标包括: ●通过建立数个生命科学综合数据库及一批
主体数据库,
整合上海市各 学科的数据资源,并充分利用
国外、国内生命科学数据资源为国内所 用,从而
促进生命科学数据资源在国内的共享、
流动和高效利用。
·通过自行
研发、二次开发、整合等技术手段,对中心开发的生命科学 数据分析处理
算法进行规范化、工程化和产品化。
并提供
典型生命科 学数据分析算法和流程的在线服务。
●通过直接与
引导中间
机构加入等多种方式,提供各类科学数据相关服 务,促进生命科
学科研、
教育的发展,
以及推动
医药产业、信息服务 业的发展。
k海人学硕士学位
论文 ● 生命科学数据中心还兼具上海市生命科学领域科学数据管理职能,是 上海市生命科学领域科学数据的汇交接收单位,肩负着此类数据的接 收、
加工、整合、建库、发布、数据
分发等职能。
BioEngine是为LSBI数据库建立
一个搜索引擎,它能够根据
用户输入的关键词,在可以容忍的
时间段内,从数据库中查找到所有符合用户要求的数据。
这样用户可以利用它轻松检索LSBI的数据资源。
1.4论文的主要研究
内容 本论文是以作者攻读硕士学位期间承担课题的工作为基础,共五章: 第一章阐述了课题研
究的来源、
目的、意义以及国内外研究
的现状; 第二章阐述了BioEngine搜索引擎架构
的实现
原理和它的使用流程;
第三章阐述了BioEngine具体实现所
需要的平台和关键技术; 第四章介绍了BioEngine相关的XML文件定义工具BioEngine XMLDeveloper
的原理、
设计与实现;
最后第五章
总结全文对BioEngine的
前景做出
展望。
6 L海大学硕寸:学位论文 第二章BioEngine搜索引擎架构2.1关系数据库和结构化查询语言(SQL)2.1.1关系数据库简介 关系数据库是应用
数学方法来处理数据库中的数据,它是一组已经被组织为表(Table)结
构的相关信息的集合。
每个表中都包含很多行(Row),这些行又被进一步组织为列(Column)。
这些表在数据库中都被存储在成为模式(Schema)的结构中。
所谓
模式就是数据库用户可以
存储自己的表的
地方。
每个用户可以为其他用户授予
访问自己的表的权限。
最早将这类方法应用于数据处理的是1962年CODASYL发表的“信息代数”,之后1968年David Child在7090机上实现了集合论数据结构,但系统而严格地提出关系
模型的是美国IBM公司的E.ECodd。
他于1 970年在Communications of the ACM(Association forComputing Machinery)上发表了一篇题为“A Relation2Ll Model of Data for LargeShared Data Bank”的论文,之后他又连续发表了多篇论文,奠定了关系数据库的
理论基础。
用来管理数据库的系统称为数据
库管理系统,当今世乔比较
流行的数据库管理系统包括:Oracle公司的Oracle,微软公司的SQL SERVER,IBM公司的DB2以及SYBASE
公司的SYBASE数据库等。
在上海生物信息技术研究中心开发的生物数据库LSBI中,主要应用的是ORACLE数据库。
BioEngine的功能就是分析前端输入的关键字然后生成相应的SQL语句到指定的数据库中查找符合条件的记录。
在实际的应用中,各子数据库全部在Oracle 109中建立。
2.1.2结构化查询语言(SQL)
简介 SQL全称是“结构化查询语言(Structured Query Language)”,是一种介于关系代数和关系演算之
间的数据库查询和
程序设计语言,用于存取数据以及查询、 7E海人学顾十学位论文更新和管理关系数据库系统,是一个
通用的、功能极强的关系数据库语言。
美国国家标准局(American Natio