恩.福斯特(Ian Foster)认为网格应用包括分布式超级计算、分布式仪器系统、数据密集型计算和远程沉浸四种。
网格研究应用较早的国家有英国、美国和日本等国家和地区,其中英国的 CLRC 数字科研中心牵头英国的数字科研项目,部署的科研项目包括网格中间件、我的网格、网格计算、网格可视化研究和网格标准规范等;美国的数字科研项目包括 NASA InformationPower Grid、Particle Physics Data Grid、Condor Project 和 Global Grid Forum(全球网格论坛)。
欧盟也资助开展了 DataGrid 的数字科研研究。
网格涉及的项目包括存储、计算、文档服务器、信息可视化、电子邮件等,网格并不具体上述服务,而是建立规范和标准化框架机制,将上述各种系统集成和整合,网格也 1大量采用因特网流行的 XML 来描述信息,并利用 Web 服务的方式建立不同应用系统之间的互操作机制。
代表性的应用是 Globus Toolkit(简称 GT)。
全球网格论坛(GGF)下属的Globus项目组开发的Globus Toolkit标准工具包是建立网格系统和开发网格软件事实的参考标准,它由安全架构、信息架构、资源管理、数据管理、通信和错误监测等部分组成。
CNRI的句柄系统(Handle System)自 2005 年也纳入GT中担任命名和解析网格服务(Grid Service)的功能 1 。
2006 年 5 月 Globus 联盟正式启动了将句柄系统纳入 GT 的研究,是在现有的Web 服务的基础上,为网格部署过程中涉及的政策、能力和密钥等 Web 服务提供元数据的标识和解析服务。
这种代理服务类似 GT 中 SAML 属性的查询、WSRF 在服务组的属性查询等。
CNRI 提供的演示系统中:首先下载支持句柄解析的网格服务组件,然后就可在 Web 服务的界面下演示服务的命名和解析。
登记系统 唯一标识符 发现 发布 查询 定位 科学家或 Agent 应用系统和资源 图 1:唯一标识符在网格应用中的定位 2 整个因特网也希望建立类似 Windows 操作系统注册表(Registries)的机制,不过因特网登记系统或者“注册表”登记的系统和资源要更复杂。
如图所示:科学家需要使用连接到因特网提供共享的仪器、设备和数据库,他即可以采取直接访问,也可以通过登记系统查询,后者提供的选择更多更权威,但对于所有的应用系统和资源,均需要在登记系统中注册才能被更好的利用,而任何注册都涉及唯一标识的问题,如操作系统或者因特网针对软件的 GUID,或者针对 Web 服务的 UDDI,都采取了唯一标识符的注册、解析和定位机制。
CNRI 的 Handle System系统也不例外,它主要充当登记系统在 GT 框架内提供网格服务(Grid Service)的命名、注册和解析服务。
登记系统不但面对科学家,也为计算机代理程序(Agent)提供查询服务,因特网的登记系统面向不同领域,接口和标准不同,如元数据登记系统、UDDI、基于 Handle System 的全球标识符登记系统(GHR)等采用的唯一标识符结构也不尽相同,这也促使为登记系统设计的“登记系统”的产生。
1 Handle System - Globus Toolkit Integration Projecthttp://www-unix.globus.org/toolkit/projects/handle_system.html2 http://www.ggf.org/documents/GFD.31.pdf 22.2 科学数据库 科学研究的成果不仅仅是发表文献和申请专利,在科学研究过程中利用和产生了大量的科学数据,如地质学家研究中利用的遥感卫星图、现场测量产生各种地质数据,试验中利用的地质科学常数等等,将科学研究中利用和产生的各种数据(包括文本、数字、图谱、视频音频等)汇总形成数据库,为科学家之间共享研究成果提供了便利,但是如何在不同组织机构建立的科学数据库之间实现共享,也涉及到对科学数据进行唯一标识的问题,下面介绍德国国家科学图书馆、中国科学院科学数据库和 NCBI 的 RefSeq 的作法。
德国国家科学图书馆(TIB)在德国研究基金会(DFG)的支持下开展利用 DOI号码对科学数据进行标识的研究,试图规范科学文献的引文部分对科学数据的引用。
世界气候数据中心的米歇尔(Michael Lautenschlager)主持此项目,利用 DOI号码对从观测站、卫星等活动的科学数据进行标识,以便于研究人员引用和使用。
通过 DOI 号码,研究人员希望科学数据也可以向科技文献那样被科研人员引用,并形成类似 SCI 的引文索引。
比如:世界气象数据中心的研究人员获得了汉诺威2003 年的气象数据,该数据集合被 TIB 分配了 DOI 号码和有关元数据,那么研究人员就可在文章中引用上述科学数据:DOI:10.1594 /WDCC/W_Han_2003_MMB_2,其中 10.1594 是 TIB 在 IDF 注册的 DOI 前缀,WDCC/W_Han_2003_MMB_2 是后缀。
上述 DOI 号码是可以被直接解析的。
同样的 DOI 号码也被用来标识科学分类 。
(Taxonomy)和科学术语(Nomenclature) 中国科学院在长期的科学研究实践中,通过观测、考察、试验、计算等多种途径产生和积累了大量科学数据和资料,涵盖了化学、生物、天文、材料、等多种学科,截至 2005 年 12 月,通过中国科学院全院统一建设,科学数据库数量超过1000 个,总数据量超过 10TB。
数据类型包括观测类数据、探测类数据、实验类数据、调查类数据、科研项目成果数据、专项数据等,数据格式可分为属性数据、空间数据、栅格数据、文本数据等。
针对科学数据库还制订的标准规范,以统一40 多个参建研究所的工作,最新颁布的“核心元数据标准V2.0 版2004-09-24”采用URI机制对科学数据集和服务集合进行了唯一标识定义如下 3 :一、数据集标识1)、标识字符组成:(1)26 个英文字母,不区分大小写;(2)quot0,1,2,3,4,5,6,7,8,9quot十个数字 ;(3)quot-quot(英文中的连词号)。
2)、对于有注册域名的数据集拥有单位,采用域名注册分级模式定义其数据集标识: =DatasetURI: lt顶级域名标识gt.lt二级域名标识gt…lt终级域名标识gt.lt数据集实体标识gt3)、特别规定科学数据库项目内部所有数据集的标识为:3 http://www.sdb.ac.cn/list.jspboardid0.projects.standard 3DatasetURI:=cn.csdb.lt三级域名gt或 lt主体数据库标识gt.lt数据集实体标识gt二、服务标识科学数据库项目内通用的服务URI 命名格式为:ServiceURI: sdbs://ltIdentity of Service Providergt/service/ltService-typegt/ ltService-namegt其中:1、sdbs 表示科学数据库项目内所定义的各种服务(SDB Service);2、ltIdentitiy of Service Providergt 为统一分配给所有主体数据库的科学数据库域名,后缀为csdb.cn,如纳米主体数据库的域名为nano.csdb.cn;3、ltService-typegt 为服务类型,当前有五种类型的服务,分别dbms(数据集连接服务)、middleware(中间件服务)、grid(网格服务)、www(网络服务)、ftp(下载服务);4、ltService-namegt 由服务提供者自行命名,可以是由“/”分隔的层次名字空间。
美国生物技术信息中心(NCBI)建立并维护的基因序列数据库(GenBank)提供统一的基因序列号的申请、登记和查询机制。
国际权威的生命科学杂志要求在文章发表之前提供相应序列的基因数据库的提交信息,序列访问号码 (accessionnumber)就可以出现在文章中,并可在GenBank中查询。
在此基础上,NCBI的参考序列计划(RefSeq)将为“中心法则中”自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。
RefSeq标准为人类基因组的功能注解提供一个基础。
它们为突变分析,基因表达研究,和多态发现提供稳定的参考点 4 。
2.3 机构知识库 机构知识库(Institutional Repository,
上一篇:
2013江苏高中信息技术学业水平测试复习资料
下一篇:
手机媒体营销分析