BioEngine:生物大型综合数据库搜索引擎

BioEngine:生物大型综合数据库搜索引擎

Windows编程 2013-10-18　版权投诉上传资料复制论文网址上传用户：xiazai

意义上的生物信息学。

    因此，可以说容纳管理各类生物数据的生物数据库是生物信息学的基础。

     大型综合生物数据库具有以下的重要特点，使之对搜索引擎有着限制性的要求：１．容纳的数据量庞大。

    以数据字节量而言，从２００２年开始，全世界大型数据库中积累的生物信息科学数据，已经超过理论物理的数据积累而跃居数据量第一位。

    以ＤＮＡ序列数据为例，一台４５４测序仪在一天之内就可以产生超过５００ＭＢ的数据，而完成一个简单的微生物的基因组测序，就可以产生上百ＧＢ的数据。

    如此大量的数据，对于搜索引擎的数据检索速度提出了很高的要求。

     ２．容纳的数据种类繁多。

    ＮＣＢＩ、ＥＢＩ等国际大型综合生物数据库容纳了包括核酸序列、蛋白质序列、各种变异序列、基因、生物途径、蛋白质相互作用、蛋白质结构、表达谱、蛋白质组学、物种及文献等各种类型的数据。

    每种数据Ｉ：海人学硕一｛：学位论文的结构与内容千差万别。

    因此，这些综合数据库都是由多个针对不同数据类型的数据库组合而成。

    这要求搜索引擎能够有效的工作于多个不同结构的数据库之上。

    另外，由于总是存在添加新的数据类型／数据库的可能，因此也要求搜索引擎能够比较容易的扩展。

     ３．数据之间有复杂的关联关系。

    生命体是一个互相联系的有机体，核酸、蛋白质、基因以及它们的转录、表达等数据之间都是相互关联的。

    因此，大型综合生物数据库中的各子库之间，数据相互有着密切的联系。

    体现在数据检索的工作中，表现为查询一个子库中的数据，往往要其他子库中数据的配合。

    举个简单的例子，用户需要在核酸序列数据库中搜索到所有关于“Ｍｕｓｍｕｓｃｕｌｕｓ”这个物种的ＤＮＡ序列。

    但是用户输入的关键词也许是这个物种的英文俗名 “ｍｏｕｓｅ”或者“ｈｏｕｓｅｍｏｕｓｅ”，甚至可能是中文名称“小鼠”。

    核酸序列数据库中保存着每条序列所属物种的物种号，但是不可能保存该物种的所有名称。

    这就需要搜索引擎能够自动的根据关键词“ｍｏｕｓｅ”或者“小鼠”，在物种数据库中找到其对应的物种号，再根据该物种号从核酸序列数据库中检索出所有对应的序列提供给用户。

    从这个简单例子中可以看出，针对大型综合生物数据库的搜索引擎，其智能化要求是比较高的。

     因此，在开发大型生物数据库的同时，开发一个高可用性的生物数据库搜索引擎具有很大的现实意义。

    它的性能直接影响着生物数据库在科学研究中的应用程度，可以说是打开生物数据库大门的一串钥匙。

    １．３国内外研究概况１．３．１国外研究概况１）美国ＮＣＢＩＥＮＴＲＥＺ美国于１９８８年建立了国家生物技术信息中心（ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ，简称ＮＣＢＩ）．它的任务包括：（１）发展新的信息技术帮助理解能影响健康和疾病的分子和遗传过程。

    （２）建立关于分子生物学，生物化学，和遗传学知识的存储和分析的自动系统。

    （３）全世界范２ｌ：海人学硕一ｌ：学位论文围内的生物技术信息收集的合作努力。

    （４）研究关于基于计算机的信息处理的分析生物学重要分子和复合物的结构和功能的先进方法等【２】。

     ＮＣＢＩ的Ｅｎｔｒｅｚ引擎‘３，４】使用了异常复杂的自主构建的ｉｎｄｅｘ文件系统，由生物领域的专家们组成维护小组，对这些ｉｎｄｅｘ文件进行经常性的更新与维护。

    可以通过对”ＡＮＤ”、”ＯＲ”和”ＮＯＴ”等布尔操作符及括号的支持使其具有灵活的检索组合方式，可以以限定词（Ｑｕａｌｉｆｉｅｒ）的形式，支持用户更灵活精确的限定搜索范围。

    在Ｅｎｔｒｅｚ的主页上，用户可以全局检索在ＮＣＢＩ的每一个子数据库中快速得到与关键词匹配的检索条件的记录总数。

    若用户想进一步得到关键词在某个子数据库中的更详细信息，则只需点击相关链接。

    Ｅｎｔｒｅｚ还可以在几个数据库间进行跨库检索，比如检索一个蛋白质序列，同时也可以得到它的编码ＤＮＡ序列，或者是它的三维结构等【３】。

     ２）欧洲ＥＢＩＥＢ—ｅｙｅ欧洲分子生物信息实验室（ＥｕｒｏｐｅａｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＬａｂｏｒａｔｏｒｙ，ＥＭＢＬ）也建立了欧洲生物信息学研究所（ＥｕｒｏｐｅａｎＢｉｏｉｎｆｏｒｍａｔｉｃｓＩｎｓｔｉｔｕｔｅ，ＥＢＩ）【５１。

    它的任务包括：（１）为促进科学发展提供免费的科研中所有方面的可获得的数据和生物信息学服务。

    （２）通过生物信息学的基础调查研究推动生物学的发展。

    （３）提供面向所有从博士研究生到研究人员的高级生物信息学的培训服务。

    （４）提供生物行业的尖端技术【６】。

     而ＥＢＩ的ＥＢ．ｅｙｅ引擎，则是通过授权，采用Ａｐａｃｈｅ的开源Ｊａｖａ搜索引擎框架包Ｌｕｃｅｎｅ开发的检索工划７】，它也可以通过对”ＡＮＤ”、”ＯＲ”和 ”ＮＯＴ”等布尔操作符及括号的支持使其具有灵活的检索组合方式。

     ３）日本ＤＤＢＪＡＲＳＡ日本的ＤＤＢＪ（ＤＮＡＤａｔａＢａｎｋｏｆＪａｐａｎ）是日本开发的生物数据库。

     它的主要任务就是搜集原始的ＤＮＡ序列数据，然后将它们注释后发布。

    这些数据的提交者大多来自日本的研究人员【引。

    作为国际核酸序列数据库（ＩｍｅｍａｔｉｏｎａｌＮｕｃｌｅｏｔｉｄｅＳｅｑｕｅｎｃｅＤａｔａｂａｓｅ，简称：ＩＮＳＤ）的成员他们的数据也与ＮＣＢＩ的ＧｅｎＢａｎｋ和ＥＢＩ的ＥＭＢＬＢａｎｋ共享。

    在ＤＤＢＪ中安装了高速关键词检索工具ＡＲＳＡ，它的检索范围包括ＤＤＢＪ，ＵｎｉＰｒｏｔ等在内的上海人学硕Ｊｊ学位论文２３个数据库【９１。

     各发达国家在生物信息化建设方面已经走在了前面，目前，它们的相关技术比如生物数据库的搜索引擎技术也已经非常完善。

    它们的发展模式给我国生物方面的信息化建设提供了很好的经验。

    同时，发达国家的成绩也鞭策着我国作为一个大国在生物信息领域必须付出艰苦的努力以与他们保持在同一个水平线上，为我国的生物以及医学研究打下良好的，坚实的基础。

    １．３．２国内研究概况我国在生物信息资源的管理和利用方面还很落后。

    北京大学、北京微生物研究所、遗传所和中科院上海生命科学研究院相继建立了ＥＭＢＬ和ＤＤＢＪ等国际核酸序列数据库的镜像，开发了我国的核酸序列数据库、生物芯片数据库、蛋白质二维凝胶电泳图谱数据库和水稻基因组数据库，一些基因组研究中心也建立了一些自有数据库。

    但是我国的生物信息科学数据绝大部分必须存放到ＮＢＣＩ，ＥＢＩ和ＤＤＢＪ三个数据库里，才能得到科学界的承认。

    美国、欧洲和日本对中国等第三世界国家已经形成了实际上的数据资源的垄断。

    这种垄断在一定程度上已经影响到了国内生物信息科学、医学科研及相关产业的发展。

    建设国内的大型生物数据库，对建设这种大型生物数据库中的关键技术难题展开研究，成为刻不容缓的重要任务。

     上海生物技术研究中心所属的上海生命科学数据中心在国家和上海市科教委的支持下目前正开发一个大型数据库综合网站ＬＳＢＩ（ｈｔｔｐ：／／ｌｉｆｅｃｅｍｅｒ．ｓｇｓｔ．ｃｎ）。

    基本职能包括生命科学数据的提交、发布和整合，生命科学数据库的开发、维护和更新，生命科学数据分析工具的开发、整合和在线服务。

    围绕这三大基本职能，目前生命科学数据中心提供两大类服务：数据／数据库和数据分析软件在线服务。

     数据中心开发与数据服务相关的系统包括以核酸为代表的在线／离线提交系统，与

首页 123 4 下一页尾页
版权说明
上一篇：WWW服务器防护系统检测引擎的研究与实现
下一篇：关联分类方法在铝电解中的应用研究

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

BioEngine:生物大型综合数据库搜索引擎