意义上的生物信息学。
因此,可以说容纳管理各类生物数据的生物数据库是生物信息学的基础。
大型综合生物数据库具有以下的重要特点,使之对搜索引擎有着限制性的要求: 1.容纳的数据量庞大。
以数据字节量而言,从2002年开始,全世界大型数据库中积累的生物信息科学数据,已经超过理论物理的数据积累而跃居数据量第一位。
以DNA序列数据为例,一台454测序仪在一天之内就可以产生超过500MB的数据,而完成一个简单的微生物的基因组测序,就可以产生上百GB的数据。
如此大量的数据,对于搜索引擎的数据检索速度提出了很高的要求。
2.容纳的数据种类繁多。
NCBI、EBI等国际大型综合生物数据库容纳了包括核酸序列、蛋白质序列、各种变异序列、基因、生物途径、蛋白质相互作用、蛋白质结构、表达谱、蛋白质组学、物种及文献等各种类型的数据。
每种数据I:海人学硕一{:学位论文的结构与内容千差万别。
因此,这些综合数据库都是由多个针对不同数据类型的数据库组合而成。
这要求搜索引擎能够有效的工作于多个不同结构的数据库之上。
另外,由于总是存在添加新的数据类型/数据库的可能,因此也要求搜索引擎能够比较容易的扩展。
3.数据之间有复杂的关联关系。
生命体是一个互相联系的有机体,核酸、蛋白质、基因以及它们的转录、表达等数据之间都是相互关联的。
因此,大型综合生物数据库中的各子库之间,数据相互有着密切的联系。
体现在数据检索的工作中,表现为查询一个子库中的数据,往往要其他子库中数据的配合。
举个简单的例子,用户需要在核酸序列数据库中搜索到所有关于“Mus musculus”这个物种的DNA序列。
但是用户输入的关键词也许是这个物种的英文俗名 “mouse”或者“house mouse”,甚至可能是中文名称“小鼠”。
核酸序列数据库中保存着每条序列所属物种的物种号,但是不可能保存该物种的所有名称。
这就需要搜索引擎能够自动的根据关键词“mouse”或者“小鼠”,在物种数据库中找到其对应的物种号,再根据该物种号从核酸序列数据库中检索出所有对应的序列提供给用户。
从这个简单例子中可以看出,针对大型综合生物数据库的搜索引擎,其智能化要求是比较高的。
因此,在开发大型生物数据库的同时,开发一个高可用性的生物数据库搜索引擎具有很大的现实意义。
它的性能直接影响着生物数据库在科学研究中的应用程度,可以说是打开生物数据库大门的一串钥匙。
1.3国内外研究概况1.3.1国外研究概况 1)美国NCBI ENTREZ 美国于1988年建立了国家生物技术信息中心(National Center for Biotechnology Information,简称NCBI).它的任务包括:(1)发展新的信息 技术帮助理解能影响健康和疾病的分子和遗传过程。
(2)建立关于分子生 物学,生物化学,和遗传学知识的存储和分析的自动系统。
(3)全世界范 2l:海人学硕一l:学位论文 围内的生物技术信息收集的合作努力。
(4)研究关于基于计算机的信息处 理的分析生物学重要分子和复合物的结构和功能的先进方法等【2】。
NCBI的Entrez引擎‘3,4】使用了异常复杂的自主构建的index文件系统, 由生物领域的专家们组成维护小组,对这些index文件进行经常性的更新与 维护。
可以通过对”AND”、”OR”和”NOT”等布尔操作符及括号的支持使其 具有灵活的检索组合方式,可以以限定词(Qualifier)的形式,支持用户更 灵活精确的限定搜索范围。
在Entrez的主页上,用户可以全局检索在NCBI 的每一个子数据库中快速得到与关键词匹配的检索条件的记录总数。
若用 户想进一步得到关键词在某个子数据库中的更详细信息,则只需点击相关 链接。
Entrez还可以在几个数据库间进行跨库检索,比如检索一个蛋白质序 列,同时也可以得到它的编码DNA序列,或者是它的三维结构等【3】。
2)欧洲EBI EB—eye 欧洲分子生物信息实验室(European Molecular Biology Laboratory, EMBL)也建立了欧洲生物信息学研究所(European Bioinformatics Institute, EBI)【51。
它的任务包括:(1)为促进科学发展提供免费的科研中所有方面 的可获得的数据和生物信息学服务。
(2)通过生物信息学的基础调查研究 推动生物学的发展。
(3)提供面向所有从博士研究生到研究人员的高级生 物信息学的培训服务。
(4)提供生物行业的尖端技术【6】。
而EBI的EB.eye引擎,则是通过授权,采用Apache的开源Java搜索 引擎框架包Lucene开发的检索工划7】,它也可以通过对”AND”、”OR”和 ”NOT”等布尔操作符及括号的支持使其具有灵活的检索组合方式。
3)日本DDBJARSA 日本的DDBJ(DNA Data Bank of Japan)是日本开发的生物数据库。
它的主要任务就是搜集原始的DNA序列数据,然后将它们注释后发布。
这 些数据的提交者大多来自日本的研究人员【引。
作为国际核酸序列数据库 (Imemational Nucleotide Sequence Database,简称:INSD)的成员他们的 数据也与NCBI的GenBank和EBI的EMBL Bank共享。
在DDBJ中安装了 高速关键词检索工具ARSA,它的检索范围包括DDBJ,UniProt等在内的上海人学硕Jj学位论文 23个数据库【91。
各发达国家在生物信息化建设方面已经走在了前面,目前,它们的相关技术比如生物数据库的搜索引擎技术也已经非常完善。
它们的发展模式给我国生物方面的信息化建设提供了很好的经验。
同时,发达国家的成绩也鞭策着我国作为一个大国在生物信息领域必须付出艰苦的努力以与他们保持在同一个水平线上,为我国的生物以及医学研究打下良好的,坚实的基础。
1.3.2国内研究概况 我国在生物信息资源的管理和利用方面还很落后。
北京大学、北京微生物研究所、遗传所和中科院上海生命科学研究院相继建立了EMBL和DDBJ等国际核酸序列数据库的镜像,开发了我国的核酸序列数据库、生物芯片数据库、蛋白质二维凝胶电泳图谱数据库和水稻基因组数据库,一些基因组研究中心也建立了一些自有数据库。
但是我国的生物信息科学数据绝大部分必须存放到NBCI,EBI和DDBJ三个数据库里,才能得到科学界的承认。
美国、欧洲和日本对中国等第三世界国家已经形成了实际上的数据资源的垄断。
这种垄断在一定程度上已经影响到了国内生物信息科学、医学科研及相关产业的发展。
建设国内的大型生物数据库,对建设这种大型生物数据库中的关键技术难题展开研究,成为刻不容缓的重要任务。
上海生物技术研究中心所属的上海生命科学数据中心在国家和上海市科教委的支持下目前正开发一个大型数据库综合网站LSBI(http://lifecemer.sgst.cn)。
基本职能包括生命科学数据的提交、发布和整合,生命科学数据库的开发、维护和更新,生命科学数据分析工具的开发、整合和在线服务。
围绕这三大基本职能,目前生命科学数据中心提供两大类服务:数据/数据库和数据分析软件在线服务。
数据中心开发与数据服务相关的系统包括以核酸为代表的在线/离线提交系统,与
上一篇:
WWW服务器防护系统检测引擎的研究与实现
下一篇:
关联分类方法在铝电解中的应用研究