【JSP开源代码栏目提醒】:网学会员为广大网友收集整理了,李映红_06156021_基于WEB的KEGG 通路重构和分析平台开发(小论文) - 培训资料,希望对大家有所帮助!
哈尔滨医科大学学士学位
论文 基于WEB的KEGG 通路重构和分析平台开发 摘 要 生物信息学研究深人的同时产生了很多基因组和代谢组信息如何从中提取出基因间、代谢子间的功能关系成为生物信息领域中的一个热门话题。
而KEGG中包含了大量生物通路信息这些通路都是由基因酶和代谢子之间的反应构成从而把基因和代谢子注释到通路在通路中对其功能进行研究成为可能。
目前大多数通路注释工具仅对基因进行全通路注释如PathExpressPathwayExplorerPathwayMiner等。
然而对基因的注释工具很少深入子通路针对代谢子的注释工具几乎没有更没有整合基因、代谢子共同注释的工具。
这些工具也没有提供较好的可视化功能。
本课题开发基于KEGG的通路重构和分析平台能对基因、代谢子、基因-代谢子进行全通路和子通路注释此平台能帮助研究者把基因、代谢子注释到代谢、非代谢通路上然后对其功能进行研究。
为了提供给用户与KEGG原图相似的可视化图片我们将KEGG中的通路图转换成R中的igraph对象在R中对KEGG中的通路图进行了系统而全面的转换这样得到的图片几乎没有丢失原图中的信息可满足不同用户的需求。
本平台为用户提供的服务有1基因、代谢子、基因-代谢子相关通路及子通路注释2统计学显著性p值计算及校正3较优的可视化机制。
关键词通路重构通路注释子通路KEGG可视化 哈尔滨医科大学学士学位
论文 1.平台简介 本平台是一个对基因、代谢子、基因-代谢子进行通路注释通路识别及基因相似性分析功能的在线分析系统。
我们首先从KEGG提供的ftp下载中下载xml数据库下载地址ftp://ftp.genome.jp/pub/kegg/然后利用R编程从中提取出各通路的数据组织成图的数据结构并存储为R中的数据结构用于通路注释再利用这些数据用R编写出子通路寻找算法等并将R中的数据和算法打为R包iSubPathwayMiner。
本平台的用户界面设计用
jsp完成把核心的数据和算法都放在R包中在用户输入兴趣集基因、化合物、基因-化合物数据后我们首先把数据传入Rserve1 2中Rserve再调用iSubpathwayMiner包并用包中的数据和方法对输入数据进行通路重构和注释然后把结果返回到
jsp中显示。
我们将KEGG中的图片转换成R中的igraph对象在R中对KEGG中的通路图进行了系统而全面的转换然后生成dot文件再结合Graphiviz软件进行图形化显示。
这样得到的可视化图片与KEGG原图有很高的相似性。
技术路线见图1 图1 本平台的技术路线哈尔滨医科大学学士学位
论文 2. 数据获取和处理 我们首先在KEGG的GENES数据库中下载基因与酶的对应关系如人类的的基因与酶的对应关系在KEGG fip中的hsa_enzyme.list中见表1。
其次在KEGG的GENES数据库中下载基因与ko的对应关系如人类的基因与ko号的对应关系在KEGG fip中的hsa_ko.list中包含酵母基因编号与ko的对应关系见表2。
然后把这些表格存储为R中的数据结构方便R中的其他函数调用。
表1 人类基因-酶对应关系数据表 表2 人类基因-KO对应关系数据表 基因编号 酶编号 Has:7172 ec:2.1.1.67 Has:1543 ec:1.14.14.1 Has:1006 ec:3.1.1.1 Has:10702 ec:2.4.1.17- 再次从KEGG提供的ftp下载中下载通路图对应的
xml文件下载地址ftp://ftp.genome.jp/pub/kegg/然后利用R编程从中提取出各通路的数据组织成图的数据结构并存储为igraph对象用于通路注释再利用这些数据用R编写出子通路寻找算法等并将R中的数据和算法打为R包iSubPathwayMiner。
3.平台的创建工具或技术 TomcatTomcat服务器是一个
免费的开放源
代码的Web应用服务器它是Apache
软件基金会Apache Software Foundation的Jakarta项目中的一个核心项目由Apache、Sun和其他一些公司及个人共同开发而成。
JSP
Java Server Page
JSP是一个动态网页编写语言它是在传统的
HTML网页文件中加入java
代码而得到java
代码可以完成很多工作比如操作后台数据库、调用其他外部程序等等。
JSP是跨平台的网页
设计语言在
linux和windows等操作系统下都能运行。
当网络服务器接收到访问
JSP的请求时先执行
JSP网页中的java
代码部分并把结果和
jsp中的非java
代码部分整合生成html文件返回给客基因编号 ko编号 Has1544 K07409 Has7498 K00106 Has10 K00622 Has7498 K00106 哈尔滨医科大学学士学位
论文 户端。
GraphvizGraph Visualization Software的缩写是一个由ATT实验室启动的
开源工具包用于绘制DOT语言脚本描述的图形。
Igraph包Csardi and Nepusz 2006是一个非常强大的R包它可以快速轻松的创建、绘制和分析无向图、有向图并提供很多图论有关的算法如最短路径、深度优先
搜索算法等等。
Rserve从本质上来讲就是一个R包但是它与普通的R包不同它可以独立于R控制台
工作并且可以和其他语言交互安装方法也与普通的R包不同。
Rserve也是一个允许其他
程序来调用R中方法的TCP/IP服务。
每一个连接都有一个独立的工作空间。
4.子通路挖掘方法与富集分析 全通路识别方法是大家很熟悉的通路识别方法现它的应用也很广泛。
然而全通路识别也有一些自身的缺陷比如寻找显著富集的通路过严格32 33。
对于一些较大的通路基因、代谢子的注释效率会很低几乎得不到显著富集的通路。
所以我们采用了一种新的通路识别方法叫做“子通路识别”方法。
它能把大的通路打碎变成若干小的子通路。
这样就能解决前面提到的很难找到显著富集通路的问题。
对于代谢通路而言有两种情况一是代谢ec图上子通路挖掘二是代谢ko图上的子通路挖掘。
我们转化代谢ec通路图为酶、代谢子的无向图。
边为对应各个组分酶代谢子之间的生化反应关系。
按照这种方式代谢通路被简化为由酶和代谢子为节点的无向图。
这样就能用图论里的子图划分算法来代替代谢通路中的子通路挖掘
问题大大提高了子通路挖掘的速度。
但是这些子通路挖掘操作都基于一个假设即通路中任意两个节点的距离越近则表示他们的功能越相近34 35。
这里我们使用社会
网络分析中的k-clique算法来挖掘代谢通路对应的无向图中的所有子图。
图中节点间的距离在小于等于k的点组成的图就为一个子图36。
把得到的子图作为一个子通路看待在这样的子通路中的所有节点有较高的功能相似性。
对于代谢ko通路图先转换为以ko、代谢子为节点的无向图在进行k-clique算法。
对于非代谢通路而言与代谢通路子通路的挖掘相似不同的是只能以基因产物为节点。
哈尔滨医科大学学士学位
论文 k-clique算法的步骤 1首先从KEGG 提供的ftp中下载通路图对应的XML文件。
2从XML文件中提取酶之间、ko节点之间、酶与代谢子之间、ko节点与代谢子之间的关系对。
然后对代谢和非代谢通路进行简化得到以酶、ko节点、代谢子为节点的无向图。
3设置距离参数kk1 2 3 …k越大得到的子通路会越少而且子通路中节点的功能相似性也越低k越大得到的子通路会越多而且子通路中节点的功能相似性会越高。
4对每个通路对应的无向图使用k-clique算法挖掘所有的k-clique子图。
本平台用R语言编写k-clique算法得到具有生物学意义的子通路并把这些子通路作为子通路注释的背景数据。
对于一个通路全通路、子通路根据基因-酶或基因-ko或代谢子-代谢子对应关系把基因代谢子注释到通路中。
对于人的通路注释而言假设人类一共有m个基因代谢子注释到这个通路的基因代谢子的数量为t提交的数据集合中有n个基因代谢子其中有r个基因代谢子注释到通路中则可以通过累计超几何分布公式计算统计学显著性如下 trxnmxntmxtrxXP 5. 平台展示 本平台是基于Web的通路注释工具它可用于基因、代谢子、基因-代谢子集合的整体注释分析能够帮助用户在通路中获得基因的功能。
不仅仅能进行代谢子通路的注释还可以进行非代谢子通路的注释而且具有良好可扩展性可以用于其它物种的通路及子通路的注释。
最后根据KEGG的需求还可以通过KO编号进行子通路的注释。
在这里仅介绍gene-metabolite平台的操作界面见图2 哈尔滨医科大学学士学位
论文 图2 gene-metabolite分析界面 Organism物种选项有has和sec。
geneID type基因ID类型选项有ncbi-geneid、ensemble-has、symbol。
list of genes基因列表可以直接输入到文本框或是上传文件。
compoundID type化合物代谢子ID类型选项只有KEGGid。
list of compounds化合物
列表可以直接输入到文本框或是上传文件。
Metabolic:选择注释到代谢通路还是非代谢通路。
By通过EC或KO注释。
Direction选择注释到全通路或子通路。
P threshold显著性阈值。
Shows:选择结果中是否显示显示p值、q值、lfdr。
我们以分析结肠癌差异基因和差异代谢子为例。
其中基因的数据是从GEO中下载的表达谱数据GSE86718该数据集包括了64个样本包括来自32个个体的成对的结肠腺瘤粘膜和结肠正常粘膜的基因表达谱得到差异基因2053哈尔滨医科大学学士学位
论文 个。
代谢子的数据我们运用了以往研究中得到的与结肠癌显著相关的代谢子一共90代谢子。
对gene集和代谢子集通过KO进行代谢全通路注释结果注释到29个通路上见图3。
第一列为通路ID第二列为通路名称第三列为可视化按钮第四列为注释上的基因代谢子ID第五列为注释上的基因代谢子与输入基因代谢子集合的比第六列为通路总的基因代谢子与背景基因代谢子的比第七列为累积超几何分布得出的p值。
图3 分析结果 点击通路名称可以连接到KEGG中的该通路图。
点击view可以得到用Graphviz画出来的图。
图中长方体的KO节点椭圆为代谢子红色的点表示注释上去的基因或代谢子用户可以更改图片的大小和注释上的点颜色。
见图4 哈尔滨医科大学学士学位
论文 图4 graphviz画出的图 结 论 本平台是一个基于WEB平台的工具为研究者提供在线分析支持主要是对KEGG提供的FTP XML文件数据进行处理结合WEB开发技术TomcatJSPRserve。
本
系统在WindowsXP sp2和windows7下测试通过。
本平台是一个集通路注释通路重构及相似性分析功能的在线分析系统。
它不仅实现了通路的注释和识别而且实现了代谢网络的子通路的注释和识别。
我们的系统主要在以下几个方面优于以前开发的通路注释系统1能对基因、代哈尔滨医科大学学士学位
论文 谢子、基因-代谢子进行注释。
2提供了一种在线的全通路子通路注释工具3提供了一种新的而又灵活的模型来挖掘子通路4提供了通路结果的统计学检验5提供与KEGG原图相似的可视化。
用户可以根据需要对输入的兴趣集合分析处理帮助研究者从系统的角度进行通路分析研究使我们认识到复杂基因集合的规律性和通路间内部的遗传机制。
这些发现为研究者更清楚更深入的认识疾病和代谢通路之间关系提供新的途径和帮助。
参考文献 1. Xia J. and D.S. Wishart MetPA: a web-based metabolomics tool for pathway analysis and visualization. Bioinformatics 2010. 2618: p. 2342-4. 2. Xia J. and D.S. Wishart MSEA: a
web-based tool to identify biologically meaningful patterns in quantitative metabolomic data. Nucleic Acids Res 2010. 38Web Server issue: p. W71-7. 3. Ergun A. et al. A network biology approach to prostate cancer. Mol Syst Biol 2007. 3: p. 82. 4. Fowler J.S. et al. Comparison of monoamine oxidase a in peripheral organs in nonsmokers and smokers. J Nucl Med 2005. 469: p. 1414-20. 5. Ogata H. et al. A heuristic graph comparison algorithm and its application to detect functionally related enzyme clusters. Nucleic Acids Res 2000. 2820: p. 4021-8. 6. Gao L. et al. Macrophage migration inhibitory factor in acute lung injury: expression biomarker and associations. Transl Res 2007. 1501: p. 18-29. 7. Tsalatsanis A. et al. A social network analysis of treatment discoveries in cancer. PLoS One 2011. 63: p. e18060. 8. Sabates-Bellver J. et al. Transcriptome profile of human colorectal adenomas. Mol Cancer Res 2007. 512: p. 1263-75.