【VC++开源代码栏目提醒】:网学会员VC++开源代码为您提供“中国教育经济信息网”建设中数据挖掘技术的研究与应用 - 硕士论文参考,解决您在“中国教育经济信息网”建设中数据挖掘技术的研究与应用 - 硕士论文学习中工作中的难题,参考学习。
西安建筑科技大学硕士学位
论文 “中国教育经济信息网”建设中数据挖掘 技术的研究与应用 专 业:计算机应用技术 硕士生:刘光辉 指导教师:董丽丽 摘 要 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。
激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。
如果不借助强有力的挖掘工具,仅依靠人的能力来理解这些数据是不可能的。
虽然目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。
数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。
数据挖掘从大量数据中提取出隐藏在数据之后的有用的信息,它被越来越多的领域所采用,并取得了较好的效果,为人们的正确决策提供了很大的帮助。
本文主要内容是对数据挖掘技术在中国教育经济信息网(CEE)中应用的研究,并在此基础上设计和开发了数据挖掘系统CEE Data Miner,简称CEEDM。
本文结合数据挖掘系统CEEDM的设计与系统中作者负责实现的关联规则挖掘技术部分,对数据挖掘技术中的一些重要的概念、方法和策略进行研究,集中讨论了关联规则挖掘技术在CEEDM系统中的应用与实现,并针对Apriori算法的固有缺陷,对不产生候选挖掘频繁项集方法…FP growth频集算法进行分析并加以实现。
本文的主要贡献主要体现在以下几个方面: ●成功的实现了数据挖掘技术在中国教育经济信息网(CEE)中的应用。
●完成了对数据挖掘系统CEEDM的总体设计。
●针对Apriori算法的固有缺陷,对不产生候选挖掘频繁项集方法…FP growth频集算法进行分析并加以实现。
关键词:数据挖掘;关联规则;频繁项集;FP.growth算法; 西安建筑科技大学硕士学位
论文 A Study and Application of Data Mining Technologies in‘‘Chinese Educational Economic Information net” Specialty:Application of Computer Technology Name:Liu Ouanghui Instructor:Dong Lili Abstract With the rapid development of database technologies and the broad usage of databasemanagement systems,the data piped up more and more,We expect to analyze the data from higherlayer so that we can make good use ofthe data.However’it is impossible to undemtand the data onlydepend on ourselves ifwe do not use powerful tools.At present,although the database systems coulddo inpuL enquire and statistic effectively,they could not discovery the relations and the roles amongthe data.they also could not forecast the廿end by the data we have had. Data mining technologies appears fur large scale data analyzing and processing.Data miningtechnologies carl abstract the useful information from numerous data.the technologies is adopted bymole and more fields and the result is satisfied,we can make decisions correctly by data miningtechnologies. The content of the paper is fl study of the application of data mining technology in ChineseEducational Economic net,and design and develop the data mining system(abbreviated as CEEDM)based on this.The paper adopts the design of the CEEDM and the association role miningtechnology which is charged by the author,studies the important nomfion,method and stratcgy ofdata mining technologies,discusses the application and realize ofassociation rule mining technologyemphatically,and aims at the inherent fault of the Apriori algorithm,analyzes and realizes theFP—growth which does not generate candidate mining frequent itemset. The contribution ofthe paper is summarized as following: ●Realized the application ofdata mining technologies in Chinese Educational Economic net. ●Completed ofsystematic design ofCEEDM. ●Aims at the inherent fault of the Apfiofi algorithm.analyzes and realizes the FP-growthwhich does not generate candidate mining frequent itemsat.Key words:data minin&association role,frequent itamset,FP-growth algorithm II Y 6170 4 l 声 明 本人郑重声明我所呈交的
论文是我个人在导师指导下进行的研究工作及取得的研究成果。
尽我所知,除了文中特别加以标注和致谢的地方外,
论文中不包含其他人已经发表或撰写过的研究成果,也不包含本人或其他人在其它单位已申请学位或为其它用途使用过的成果。
与我一同工作的同志对本研究所做的所有贡献均已在
论文中作了明确的说明并表示了致谢。
申请学位
论文与资料若有不实之处,本人承担一切相关责任。
论文作者签名:纠办蚜.日期:砒彤.杉 关于
论文使用授权的说明 本人完全了解西安建筑科技大学有关保留、使用学位
论文的规定,即:学校有权保鼠送交
论文的复印件,允许
论文被查阅和借阅;学校可以公布
论文的全部或部分内容,可以采用影印、缩印或者其它复制手段保存
论文。
(保密的
论文在
论文解密后应遵守此规定) 敝储躲到僻导师始扔历吼。
仁/.哆 西安建筑科技大学硕士学位
论文 第一章绪论1.1课题的研究背景 随着数据库技术的迅速发展以及数据库
管理系统的广泛应用,人们积累的数据越来越多。
有数据表明,进入二十世纪90年代,人类积累的数据量以每月高于15%的速度增加。
激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。
如果不借助强有力的挖掘工具,仅依靠人的能力来理解这些数据是不可能的。
虽然目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。
缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。
数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。
数据挖掘从大量数据中提取出隐藏在数据之后的有用的信息,它被越来越多的领域所采用,并取得了较好的效果,为人们的正确决策提供了很大的帮助。
数据挖掘的前景被人们普遍看好。
国际知名调查机构Gartner Group在高级技术调查报告中,将数据挖掘和人工智能列为“未来--N五年内将对工业产生深远影响的五大关键技术”之首,还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。
Gartner的调查
报告预计:到2010年,数据挖掘在相关市场的应用将从目前少于5%增加到超过80%。
美国银行家协会预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。
1.2数据挖掘技术在0EE系统应用的必然性 为适应政务信息化建设需要,实现教育、财政主管部门等的教育管理信息化,提高工作效率,建立科学的财务决策系统,由教育部和财政部决定建立、覆盖全国教育系统、集工作与服务为一体的多功能网络应用系统“中国教育经济信息网” (China Education Economy,CEE)。
通过该系统的建设,各级教育、财政部门可以直接进行教育财务信息及其他相关专项信息的采集和远程上报,为教育、财政主管部门提供准确、及时、全面的教育经济信息,为政府科学管理和决策提供依据;实现主管部门与直属高等学校及地方教育行政管理部门之间的电子文件交换、信息发布与网上工作交流;促 西安建筑科技大学硕士学位
论文进各级教育行政管理部门的内部信息化建设工作,提高基层管理水平;同时,为社会公众提供教育经济政策
查询、教育经济关注热点介绍以及高等学校相关信息服务。
随着建成后系统的应用普及,所采集、存储的数据量将会急剧增多,而这些数据背后隐藏着许多十分有用的信息。
存储数据的爆炸性增长要求我们要能够处理这些数据、充分利用这些数据,并且将这些数据转化为有用的信息,来指导政府部门的科学管理和正确的决策。
因此,从这些数据中发现有用的信息,提高教育经济决策的水平是很有意义的。
为实现上述目的,建立数据仓库(DataWarehouse,DW),并以联机分析处理(On--LineAnalytical Processing,OLAP)和数据挖掘(Data Mining)等技术为实现手段的决策支持系统是解决这一
问题的可行有效手段。
数据挖掘,也可以称为数据库中的知识发现(Knowledge Discover Database,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。
它与其它领域的许多技术密切相关,如数据库、数据仓库、知识库、人工智能、神经网络、模式识别、统计等技术。
数据挖掘利用这些技术的理论和方法,可以应用到不同的领域中。
数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。
今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术进入了实用的阶段。
因此,数据挖掘(Data Mining)技术在CEE中的成功应用,必将极大的提高管理部门数据分析能力,准确及时的作出科学的决策,最终提高教育、财政行政部门的管理能力。
1.3作者完成的主要工作 我于2002年11月加入该项目,具体完成以下工作: ●理解构建“中国教育经济信息网”(CEE)的相关知识及其功能需求。
●参加数据挖掘系统CEEDM的设计及开发。
●负责CEEDM系统中关联规则挖掘部分的。
在一年多的开发过程中,从CEEDM系统总体
设计到主要功能的实现,我完成了以上工作,总工作量为2000余小时。
1.4本文的主要工作 本文主要内容是对数据挖掘技术在中国教育经济信息网(CEE)中应用的研 2 西安建筑科技大学硕士学位
论文究,并在此基础上设计和开发了数据挖掘系统CEE Data Miner,简称CEEDM。
本文结合CEEDM系统的设计与系统中作者负责实现的关联规则挖掘技术部分,对数据挖掘技术中的一些重要的概念、方法和策略进行研究,集中讨论了关联规则挖掘技术在CEEDM系统中的应用与实现,并针对Apriori算法的固有缺陷,对不产生候选挖掘频繁项集方法…FP growth频集算法进行分析并加以实现。
本文的主要贡献主要体现在以下几个方面: ●成功的实现了数据挖掘技术在中国教育
经济信息网(CEE)中的应用。
●完成了对数据挖掘系统CEEDM的总体设计。
●针对Apriori算法的固有缺陷,对不产生候选挖掘频繁项集方法…FP growth频集算法进行分析并加以实现。
1.5
论文组织结构 针对本文研究的主要内容,本
论文的组织如下:第二章简要描述了中国经济信息网(CEE)的概况,并对CEE系统功能、运行环境和系统结构进行了介绍。
第三章简要介绍了数据挖掘的相关知识。
第四章对数据挖掘系统CEEDM系统体系结构进行了介绍,并描述了目前系统所完成的主要功能和
工作流程。
第五章和第六章主要结合CEEDM系统对数据挖掘中的数据预处理、数据预分析技术进行了介绍,并说明了CEEDM系统中所采取和实现的数据预处理和数据预分析功能,以及使用的策略与方法。
第七章作为本文的重点,介绍了关联规则挖掘的相关知识,对算法的设计原理与改进
方案进行了研究,并针对Apriori算法的固有缺陷,对不产生候选挖掘频繁项集方法.-FP—growth频集算法进行分析并加以实现。
西安建筑科技大学硕士学位
论文 第二章中国教育经济信息网(OEE) 本章简要描述了中国经济信息网(CEE)的概况,并对CEE系统功能、运行环境和
系统结构进行了简单的介绍。
2.1 中国教育经济信息网概述 “中国教育经济信息网”(China Education Economy,CEE)是为适应政务信息化建设需要,实现教育、财政主管部门等的教育管理信息化,提高工作效率,建立科学的财务决策系统,由教育部和财政部决定建立、覆盖全国教育系统、集工作与服务为一体的多功能、依托中国教育和科研计算机网(CERNET)实现的
网络应用系统。
学 图2-1 中国教育经济信息网的组成 4 西安建筑科技大学硕士学位
论文 中国教育经济信息网由中心站、教育部和财政部两个分站及各级数据采集站点依托中国教育和科研
计算机网(CERNET)组成,如图2-1所示。
通过该系统的建设,各级教育、财政部门可以直接进行教育财务信息及其他相关专项信息的采集和远程上报,为教育、财政主管部门提供准确、及时、全面的教育经济信息,为政府科学管理和决策提供依据;实现主管部门与直属高等学校及地方教育行政管理部门之间的电子文件交换、信息发布与网上工作交流;促进各级教育行政管理部门的内部信息化建设工作,提高基层管理水平;同时,为社会公众提供教育经济政策查询、教育经济关注热点介绍以及高等学校相关信息服务。
中国教育经济信息网的核心部分是包括数据采集与审核、数据统计加工和分析在内,符合教育财政管理要求的业务和统计分析应用系统(简称CEE系统)。
2.2 GEE系统功能设计 该系统的功能模块如图2-2所示。
图2-2系统功能模块 其完成的主要功能有: ●建立信息流通的必备条件,最大限度地保证信息的可达范围和信息的可取 范围:分期实现全国各级各类学校及财政、教育主管部门的网络连接a ●提供数据录入平台,保证信息的可取型:数据录入是该信息网的主要信息 西安建筑科技大学硕士学位
论文来源。
●提供一般信息的直接获取平台,方便广大普通用户:各用户都可通过WEB浏览方式,直接获取所需的普
通信息。
●提供决策支持平台,实现对信息的再生与管理:信息中心及其它授权人员可通过该平台管理信息,并针对相应主题,采用数据挖掘等数据分析技术,进行数据提取、分析、展示等,为用户提供决策支持服务。
●提供信息应用平台,提高信息的可用性。
各用户根据应用权限,分别通过WEB浏览方式或客户端访问方式,进行相关项目的应用或决策支持工作。
●提供信息中心业务管理平台,为信息中心的正常运转提供系统保障。
信息中心的工作人员可通过该管理系统规范日常工作,确保中心工作长期、稳定的正常运转。
●提供技术支持与应用培训,保证最终用户可以正确使用该信息网:广大用户可提供该平台获得必要的技术支持和技术培训,以提高该信息网的使用效率。
●提供公文处理平台,实现对信息流的定向控制:各用户可通过WEB浏览方式发行公文,并根据制定的流程转交指定人员处理后归档保存。
●提供信息交流平台,实现信息的交互性能。
其中,CEE系统中的决策支持功能是本文讨论的重点,将在后续章节中进行详细介绍。
2.3 OEE系统运行环境2.3.1软件环境 ●操作系统:W’mdows 98/ZOOO/XP Windows满足对操作系统的需求:功能稳定性、兼容性、操作稳定性、互操作性和扩展性。
●应用服务器:WebLogic 7.0及以上 BEA WebLogie Server作为新一代基于JAVA的WEB应用服务器,在提供传统的应用服务器功能的同时,还针对当今的Intemet技术和JAVA技术提供了众多丰富的功能。
使用WebLogic作为应用服务器主要基于以下考虑:提高开发人员工作效率,增强企业的经营管理,提高运营效率,提供增强的Web Services和其它集成功能,对J2EE 1.3的全面支持,来自业内领先的合作伙伴的支持,业内性价比最好的服务器,等等。
●Web服务器:Apache+Tomcat 6 西安建筑科技大学硕士学位
论文 Tomcat是一个
免费的
开源的Serlvet容器,它是Apache基金会的Jakarta项目中的一个核心项目。
Tomcat不仅仅是一个Servlet容器,它也具有传统的Web服务器的功能:处理Html页面。
但是与Apache相比,它的处理静态Html的能力就不如Apache。
我们的系统将把Tomcat和Apache集成到一块,让Apache处理静态Html,而Tomcat处理Jsp和Servlet。
这种集成只需要修改一下Apache和Tomcat的配置文件即可。
●数据库系统:Oracle 8i/9i 使用Oracle作为数据库服务器主要基于Oracle强大的功能和优良性能。
Oracle 8i/9i服务器是~个完善的信息管理环境。
它是一个大量数据的储藏所,并给用户提供对这些数据的快速访问。
Oracle 8i/9i服务器允许应用系统之间共享数据,信息存放在一个地方并由许多应用系统来使用。
Oracle 8i/9i服务器可运行在Sun系列以及WindowsNT上。
Oracle 8i/9i服务器支持主机、C/S、分布式处理、WEB计算等配置,具有可靠性、有效性和有用性等开放系统特征。
此外,Oracle8i/9i服务器的“归档模式备份”、数据完整性管理、对过程组件的支持、分布式处理方式、并行查询、强大的企业管理器等功能为数据库开发、存储、管理提供了坚实基础和有力保证。
2.3.2硬件环境 ●服务器根据实际应用需求确定。
●终端PC CPU: 奔腾IIl450以上 内存:>64M 硬盘:>4.3G 网卡: 100M…… ●其他硬件设备光盘刻录机、打印机、扫描仪…..2.4 CEE应用系统结构 系统采用C/S结构和B/S结构相结合的方式,各取其所长,并使其有机地结合成一个整体。
C/S结构主要用来实现系统内部的管理,而B/S结构用来实现信息共享发布、WEBGIS平台以及办公自动化等功能。
●C/S结构 西安建筑科技大学硕士学位
论文 C/S结构是Client/Server结构体系的简称,该体系自上个世纪九十年代中期发展至今已比较成熟完善,在局域网业务的环境中得到了广泛的应用。
对于特定复杂的应用,采用c/s模式开发工具比较丰富,如一些图形化的应用。
在本系统的应用中,对于如模型计算、图表定制、统计报表、通讯网络编程、以及涉及系统底层编程的应用采用C/S。
开发工具采用微软的VC。
●B/S结构 B/S结构,即Browser/Server(浏览器朋&务器)结构,即客户端是标准的浏览器 (如Intemet Explore,Netscape Navigator等),服务器端为标准的WEB服务器协同应用服务器响应浏览器的请求。
如图2.3所示,B/S模式是一种三层结构的系统。
第一层客户机是用户与整个系统的接口。
客户的应用
程序精简到一个通用的浏览器软件,如Netscape Navigator,微软公司的IE等。
浏览器将HTML
代码转化成图文并茂的网页。
网页还具备一定的交互功能,允许用户在网页提供的申请表上输入信息提交给后台,并提出处理请求。
这个后台就是第二层的web服务器。
第二层Web服务器将启动相应的进程来响应这一请求,并动态生成一串HTML
代码,其中嵌入处理的结果,返回给客户机的浏览器。
如果客户机提交的请求包括数据的存取,Web服务器还需与数据库服务器协同完成这一处理工作。
第三层数据库服务器的任务类似于C/S模式,负责协调不同的Web服务器发出的SQ请求,管理数据库。
客户机服务器 请求 固镌 I...—-..--------··--_J 0==》 响应 处理K=爿烈站厍f 逻辑 1 L. / 琵 B/S体系结构 处理k=爿戳坫厍I 辑逻 l L / 图2—3系统体积结构 8 西安建筑科技大学硕士学位
论文 采用B/S结构,可以集中化管理和维护,客户端的免安装和零维护,极大的降低了维护成本。
实现了用户层、WEB服务器、应用服务器、数据库服务器的合理分布,实现应用服务器的群集,整个系统具有很高的可扩展性和安全性以及可靠性。
客户层具有任意可替换性,完全实现移动办公。
9 西安建筑科技大学硕士学位
论文 第三章数据挖掘概述 本章简要介绍了数据挖掘技术的出现及其概念和功能,并对数据挖掘的步骤和数据挖掘系统的总体结构进行了描述,阐述了对数据挖掘的研究需求,最后还对数据挖掘的分类和研究现状进行了介绍。
3.1数据挖掘的出现 随着计算机硬件和
软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋。
如何有效利用这一丰富数据海洋的宝藏为人类服务,业已成为广大信息技术工作者的所重点关注的焦点之一。
与日趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者提供其决策支持所需要的相关知识。
于是,一个新的挑战被提了出来:在这被称之为信息爆炸.