【VC++开源代码栏目提醒】:网学会员为需要VC++开源代码的朋友们搜集整理了支持向量机融合方法的研究 - 硕士论文相关资料,希望对各位网友有所帮助!
武汉理工大学 硕士学位
论文支持向量机融合方法的研究 别:硕士 专业:
计算机应用技术 指导教师:钟珞 20090501 中文摘要 近年来,机器学习算法一直受到学者广泛的关注,并且得到了各个领域的应用。
同时信息融合方法在近十几年也得到了大量的实际应用。
那么,将这两种方法结合起来,互相弥补缺陷而保持各自的优点对于智能方法理论的研究就可以更进一步。
支持向量机是当前应用最为广泛的机器学习算法之一,它以Vapnik的统计学习理论为基础,其中VC维理论和结构风险最小化原则是支持向量机理论基础的核心。
支持向量机具有良好的泛化能力,适用于小样本问题,并且能够避免局部最优解,所以能够很好的应用于许多分类和回归问题中。
支持向量机的实现中最重要的就是它的训练算法,当前有多种训练算法,而最常用的就是序贯最小优化算法。
原始的支持向量机只能解决二类分类问题,然而现实生活中的问题往往需要多类分类,所以学者们提出了几种用于建立多类支持向量机的方法。
为了适应更多的应用需求,研究者们还提出了一些建立支持向量机概率输出的方法。
信息融合技术已经被提出多年,而近几年对它的研究和应用开始十分广泛,因此信息融合的方法也非常多。
其中最常用的包括贝叶斯推理和DS证据理论。
贝叶斯推理以概率论为理论基础,已经成功应用于多个领域。
DS证据理论可以很好的解决不确定性问题,而且可以看作是贝叶斯推理的推广,在实际应用中也体现了良好的性能。
本文的研究目的就是为了将支持向量机与信息融合方法相结合,从而使这两种技术互相取长补短,从而更好的解决分类问题。
本文通过对支持向量机以及几种信息融合方法的研究,将两者相结合,提出了几种基于支持向量机的信息融合策略,包括最大和策略、贝叶斯推理策略、DS证据推理策略以及两层支持向量机策略。
在分析了这几种融合策略的理论可行性之后,本文使用libSVM作为支持向量机的源
代码来实现上述四种信息融合策略。
同时用实现的方法进行了大量的实验。
通过观察分析实验结果可以发现,本文提出的几种基于支持向量机的信息融合策略具有较好的提高分类的效果。
同时这些融合策略最大的特点是可以处理小样本分类问题,特别是使用DS证据理论作为信息融合的方法。
支持向量机使用于处理小样本问题,DS证据理论适用于不确定性问题的处理,这两点众所周知。
所以,实验结果充分证明了这两点理论的正确性。
这也更进一步说明本文提出的基于支持向量机的信息融合策略适用于小样本分类
问题。
关键词:支持向量机,信息融合,DS证据理论,贝叶斯推理,小样本 II Abstract Machine learning algorithms have got extensive attentions of scholars and havebeen applied in various fields in recent years.At the same time,data fusion methodshave been used in a great deal of practical application in the past decade.If these twomethods are combined together to make up each other’S defects and keep theiradvantages,then the intelligent methods Can be further improved. Support vector machine is one of the most popular machine learning algorithms.Support vector machine is derived from Vapnik’S statistical learning theory,and thecore of it is Vapnik Chervonenkis dimension and structural risk minimization theory.It has good generalization ability,applied to small samples,and is able to avoid localoptimal solution,SO it Can be used well to resolve problems of classification andregression.The most important thing in implementing support vector machine is itstraining algorithm.There are some training algorithms now,but the most popular oneis the sequential minimal optimization algorithm.Support vector machine isdeveloped for binary classification at first.But in real world,we usually have toclassify samples belong to more than two classes,SO scholars propose some methodsto construct multi-class support vector machine.And there are some strategies tomake support vector machine outputs probabilistic results. Data fusion strategy has widely applied in the military and civilian areas in recentyears,and there are a lot of data fusion methods.The most commonly used datafusion methods are Bayesian theory and Dempster-Shafer theory.The basis ofBayesian theory is probability theory.And the Dempster-Shafer theoryDempster-Shafer theory is applied to uncertain cases,it Can be seen as the extensionof Bayesian theory.So these two methods are both used widely. The purpose of this paper is to combine support vector machine and other datafusion methods,then both of these two technologies can be completed to obtain abetter classification methods.In this paper,some multiple sources data fusionstrategies base on MSVM are proposed,including sum strategies,Bayesian strategies,DS strategies and 2-Layer MSVM strategies.After the analysis of these theoretical IIIfeasibility about these data fusion strategies,they ale implemented by using IibSVM.Then many experiments ale taken placed.From the experiments’results,we can seethat the data fusion strategies proposed in this paper Call get better classificationresults.These data fusion strategies have a distinct advantage--they Can handle smallsample classification problems,especially、) ̄,itll the DS theory.Support vectormachine is fit for small data sets,and DS theory shows good performance aboutuncertain cases,SO the experimental results proved the correctness of these twotheories.These can further explain that the data fusion strategies based on supportvector machine proposed in this paper ale fit for classification with small sample.Keywords:support vector machine,data fusion,Dempster-Shafer theory,Bayesian theory,small sample IV 独创性声明 本人声明,所呈交的
论文是本人在导师指导下进行的研究工作及取得的研究成果。
尽我所知,除了文中特别加以标注和致谢的地方外,
论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在
论文中作了明确的说明并表示了谢意。
签名:垄蜇 日 学位
论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位
论文的规定,即:学校有权保留并向国家有关部门或机构送交
论文的复印件和电子版,允许
论文被查阅和借阅。
本人授权武汉理工大学可以将本学位
论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位
论文。
同时授权经武汉理工大学认可的国家有关机构或
论文数据库使用或收录本学位
论文,并向社会公众提供信息服务。
(保密的
论文在解密后应遵守此规定)研究生(签名).杏遁 导师(签名’彳夕曰期跏t炙2口 武汉理工大学硕士学位
论文 第1章绪论1.1研究背景及意义1.1.1研究背景 机器学习是现代人工智能技术中的一个重要研究内容和方向,它的主要研究目的是从已有数据(训练样本)出发寻找一些固定的规律,并利用这些规律对未来数据或无法观测的数据进行预测。
支持向量机(Support Vector Machine,简称SVM)是Vapnik在1995年首先提出来的,是近年来机器学习研究的一项重大成果,是Vapnik的统计学习理论的具体体现【l】。
具体的说支持向量机是建立在统计学习理论的VC维理论和结构风险最小化原则基础上的。
与传统的人工神经网络相比,支持向量机不仅结构简单,而且各种技术性能尤其是泛化(generalization)能力明显提高。
信息融合(Information Fusion)也称数据融合(Data Fusion),信息融合技术可以将多个单个来源的信息整合起来,从而使信息之间相互补充以得到对观测对象最完整详细的描述。
Kolmogolov曾经提出了一条有关信息集成的定理:对于一个系统,将多个单维信息集合成多维信息,其信息量必然会比任何一个单维信息的信息量大【2J。
当前支持向量机和信息融合方法的应用研究已经十分广泛,它们各自单独使用都可以取得优秀的性能表现。
所以对二者的结合使用也是很有研究意义的。
1.1.2研究意义 支持向量机作为一种先进的机器学习算法,它的优点是可以很好的处理小样本问题,同时有良好的可扩展性‘31。
而信息融合方法也可以根据多方面信息整合出最完整、最能体现观测对象特征的数据。
因此,二者都具有处理不确定性的良好性能。
如果将二者结合,使它们各自的优点得以保留,而互相弥补缺陷, 武汉理.【大学硕十学位
论文那么就可以更好的解决分类问题。
同时这种方法也可以为这两个领域的结合开拓新的研究空间。
1.2国内外研究现状1.2.1支持向量机的研究现状 支持向量机是一种以Vapnik的统计学习理论为基础的机器学习算法【l】,具有良好的泛化能力,适用于小样本问题,并且能够避免局部最优解,所以能够很好的应用于许多分类和回归问题中。
随着支持向量机理论研究中的不断深入,现在出现了多种支持向量机。
其中包括Vapnik提出的可调参数C的支持向量机,统称为C.SVM系列。
Sch61kopf提出的用于分类和回归的v.SVM系列。
Mangasarian等人的通用支持向量机(Generalized SVMs)。
Suykens提出的一种新型支持向量机一最小二乘支持向量机(Least Squares SVM,LS.SVM)等等【41。
对支持向量机的学习算法的优化是提高支持向量机实时性的关键。
Vapnik提出了一个分割方法,即“Chunking”算法,Osuna提出了
工作样本集方法【5】。
但它们应用于实际工程的效率都不是十分理想。
直到1998年,Platt提出了更为有效的支持向量机训练算法,即序贯最小优化算法【6J。
这种算法使支持向量机在实际应用中取得了较好的效果。
但是算法每次迭代都要更新b值,但是该值有可能是无法确定的,这就可能存在某些达到最优值的样本却不满足优化条件的情况,从而影响了该算法的效率。
现在又有大量的学者对SMO算法进行了改进,并得到了较好的结果。
同时为了符合实际应用的需求,学者们还提出了支持向量机的多类分类方法,可以采用One.against-Rest,One.against.One以及DAGSVM等方法构造多类支持向量机【71。
同时,由于很多应用住需要概率值,所以J.Plattt8】和Chih.JenLint9J分别提出了几种构建二类以及多类支持向量机的概率输出的方法。
由于支持向量机在处理分类及回归问题上的良好性能,它现在已经被应用与多个研究领域,包括工业、医学、生物等等〔10-14】。
在这些应用研究的过程中可以发现,支持向量机的往往能得到比神经网络更好的分类效果〔15-16】。
2 武汉理工大学硕士学位
论文1.2.2信息融合的研究现状 信息融合技术在上世纪70年代就已经被提出,经过不断地研究改进,在近十几年开始逐渐得到广泛的应用。
信息融合也叫做数据融合,而且往往是对多源信息进行融合。
多源信息融合则是指对不同知识源和传感器采集的数据进行融合,以实现对观测现象更好的理解ll¨。
信息融合在国内外已成为日益受到重视的新的研究方向。
当前信息融合的方法有很多,其中包括已经成熟使用的经典推理法、Bayesian理论、Dempster-Shafer理论、聚类分析法、卡尔曼滤波法、参数模版法、物理模型法、熵法、品质因数等等。
同时这些年智能方法的快速发展也对信息融合领域给出了极大帮助,从而发展出一系列智能融合方法,包括模糊集理论、神经
网络、粗糙集理论、小波分析理论以及支持向量机等【17】。
其中又以贝叶斯推理和DS证据理论最为成熟。
贝叶斯推理法是基于统计学的融合方法,有成熟的数学理论基础,但它定义先验似然函数比较困难,现多个可能的假设或多个条件相关事件时显得很复杂,缺乏分配总不确定性的能力,因此实际应用中比较难。
DS理论采用信任函数而不是概率作为度量,通过对一些事件的概率加以约束以建立信任函数,因此不必给出精确的难以获得的先验概率。
一般情况下,使用多源信息融合建立的系统可以有更强的容错能力和自适应性,也就是说使得
系统的决策能力得到了更多的提高。
随着数据融合研究的深入和应用领域的扩大,各个领域的研究人员都开始认识到数据融合技术的重要性,并积极的在各自领域开展了该方面的研究,尤其是在机器人和智能仪器系统、图像分析与处理、目标识别与跟踪等研究领域,数据融合技术已经成为了研究的热点。
从军事领域起步,并逐步渗透到非军事工业的各个领域将是数据融合技术发展的一个趋势。
1.3本文的主要研究内容 本文主要是以支持向量机为基础,研究几种信息融合策略。
通过二者的互补达到对分类问题的更好的求解这一目的。
所以本文主要的研究工作包括: l较深入的研究了支持向量机的相关理论,包括统计学习理论,支持向量机 武汉理_T大学硕士学位
论文的训练算法、多类分类算法以及构建它的概率输出的方法。
2研究融合算法的研究方法,学习当前常用的信息融合方法,理解息融合算法的重要性,并要详细了解几种
常用的信息融合方法。
其中重点要了解贝叶斯推理和DS证据理论的基本理论基础。
3对支持向量机和常用的信息融合算法进行分析、总结,并根据各自的特性寻找结合点。
4提出了几种基于多类支持向量机的多源信息融合策略,从理论方面分析它们的可行性,并分析各自的优缺点。
5实现支持向量机的
代码作为实验工具以适应本文中融合策略的实现。
在此基础上实现自己提出的基于多类持向量机融合策略。
6在实现算法的基础上做实验,并对实验结果进行了深入对比分析,发现并总结其中的规律。
1.4本文的组织形式 本文的组织结构如下: 第1章绪论。
介绍本文的研究背景及意义、研究现状、主要研究内容以及本文的组织形式。
第2章支持向量机。
介绍支持向量机的理论背景、分类算法、多类支持向量机的构建方法、支持向量机概率输出的构建方法。
第3章信息融合。
介绍了信息融合的基本概念、信息融合的常用算法。
其中重点讲述了贝叶斯推理以及DS证据理论。
第4章基于支持向量机的信息融合策略。
这一章主要讲述基于支持向量机的信息融合策略的基本思想,以及四种策略的理论:最大和策略、贝叶斯推理策略、DS证据推理策略和两层支持向量机融合策略。
第5章算法实现及实验。
介绍了一种优秀的
开源支持向量机
代码IibSVM,同时实现了基于多类支持向量机的信息融合策略,并在此基础上进行了大量实验,并对实验结果进行了总结分析。
第6章总结与展望。
最后一章对文章的工作做了总结并对下一步研究进行了展望。
4 武汉理工大学硕士学位
论文 第2章支持向量机2.1支持向量机的理论背景 支持向量机是由以Vapnik为首的研究小组在AT&T贝尔实验室研究出的一种机器学习算法【4J。
从1992年提出支持向量机算法的最初模型到1995年提出完整的基于统计学习理论的支持向量机学习算法,仅仅三年时间,支持向量机得到了巨大的发展【2】,同时也得到越来越多的学者的注意。
从其发展的过程可以看出,支持向量机是由统计学习理论发展而来的一种机器
学习算法,其中VC维理论和结构风险最小化原则是其理论基础的核心。
2.1.1经验风险最小化‘18l 对于输出y与输入x,一般会存在未知的依赖关系,可用联合概率F(x,力表示。
而机器学习的过程就是根据r1个独立同分布的样本Gl,y1),(砚,妮),…,(h,肌)在一个函数集ff(x,co))(其中碇广义参数)中求取一个特定函数y(x,coo),使得期望风险 R(co)=I L(y,f(x,oJ))dF(x,少) (2一1)最小的过程。
其中(fix,动)被称为预测函数集,可以表示任何函数集;三(y,f(x,co))是损失函数,表示用似,动对J,进行预测造成的损失。
由于期望风险无法直接计算和最小化,所以人们经常根据大数定理的思想用算术平均逼近期望风险 R。
叩(∞)=圭∑£(y,,f(xi国)) ’‘I=l (2-2)这就是经验风险。
用经验风险最小值代替期望风险最小值就是经验风险最小化 (empirical risk minimization)原则,简称ERM原则。
许多研究者对经验风险最小化和期望风险最小化进行了研究,并且认为从期望风险最小化到经验风险最小化并没有可靠的理论依据,知识直观上合理的想 武汉理.T大学硕士学位
论文当然做法。
同时,即使在样本无穷大时可以保证得到最优结果,当样本数有限时还是无法保证可以得到最优解。
但是在机器学习领域中,经验风险最小化原则依然是一个具有决定性的角色。
在很多解决特殊学习问题的传统方法中都是用到了经验风险最小化原则。
2.1.2学习一致性条件‘1,18】 建立任何理论都需要使用一些基本的概念,然后根据这些概念来发展其它的理论。
在统计学习理论中,使用描述一致性的充分必要条件的概念是十分重要的。
因为它能保证所建立的理论的一般性。
换句话说,学习一致性是统计学习理论的基础。
只有满足一致性条件,在经验风险最小化原则下得到的最优解才能够保证在样本数无穷大时得到的结果趋近于使期望风险最小的最优结果,即当前的学习算法是有效的。
设QO,嘶)是对给定的独立同分布观测Xl,X2,…,Xi使经验风险泛函 1 f R唧=÷∑Q(%口) ‘k=l (2·3)最小化的函数。
定义2.1如果下面两个序列依概率收敛于同一个极限, R(a。
)—坞in乞。
^R(a) 尺。
。
(口,)—j2斗il吒。
A R(a) (2-4)那么我们说经验风险最小化原则对函数集∞,功,口∈4和概率分布函数瞰)是一致的。
如图2.1所示 也就是说,对于一个经验风险最小化的方法,如果它是一致的,那么必然能够找到一个函数序列∞,仍),f_l,2….,对于这个函数序列,期望风险和经验风险的极限都收敛到可能的最小的值。
定义2.1保证了所达到的风险收敛于最好的可能值,以及可以在经验风险的取值基础上估计最小可能的风险。
由于在学习过程中,经验风险和期望风险都是预测函数的泛函。
我们的目的不是用经验风险去逼近期望风险,而是通过求经验风险最小化的函数来逼近能使期望风险最小化的函数,因此,其一致性条件比传统统计学中的一致性条件更严格。
6 武汉理工大学硕士学位
论文 infR(仅) a m 图2.1经验风险最小一致性2.1.3 VC维11,19-20】 VC维的定义【l J:一个指示函数集Q(z,∞,oreA的VC维,是能够被集合中的函数以所有可能的2^种方式分成两类的向量zI,z2,…,锄的最大数目h(也就是能够被这个函数集打散的向量的最大数目)。
如果对任意的刀,总存在一个刀个向量的集合可以被函数集Q(z,∞,口∈4打散,那么函数集的VC维就是无穷大。
也就是说,如果存在h个样本的样本集能够被函数集打散,而不存在能被此函数集打散的且有h+1个样本的样本集,则函数集的VC维就是h。
如果对于任意的样本数,总能找到一个样本集能够被这个函数集打散,则函数集的VC维就是无穷大。
关于两类分类问题,对指示函数集中的所有函数(包括是经验风险最小的函数),经验风险尺删p(动和实际风险R(妫之间至少以1.,7的概率满足 g(co)≤R唧(∞)+ (2-5)其中h是函数集的VC维,疗是样本数。
可以看出,实际风险是由经验风险和置信范围两部分组成的。
所以实际风险可以简单的表示为 R(OJ)≤尺唧(国)+O(h/n) (2-6) 经验风险最小化虚席过程一致的充分必要条件是函数集的VC维有限,且这 武汉理1=大学硕士学位
论文时的收敛速度是快的【l】。
可以看出,VC维是统计学习理论中的一个核心概念,它是目前为止对函数集学习性能的最好描述指标,在此概念基础上发展出了一系列关于统计学习的一致性、收敛速度、推广性能等的重要结论。
但是遗憾的是,目前尚没有通用的关于如何计算任意函数集的VC维的方法,只有对一些特殊的函数集的VC维可以准确知道,而对于一些复杂的机器学习算法(如神经网络),其VC维除了与函数集选择有关外,通常也受学习算法等的影响,因此其确定将更加困难。
对于给定的学习函数集,如何用理论或实验的方法计算它的VC维仍是当前统计学习理论中有待研究的一个问题。
2.1.4结构风险最小化 假设函数Q(z,叻,aEAI约集合S可以分解为一系列嵌套的函数子集sk={Q(z,叻,口∈/1),即 S c曼c……c最c…… (2-7)其中,各个函数子集的VC维从小到达排列,即 7ll c h2 c……c吃c…… (2-8)在每个子集中找经验风险最小的函数,在所有子集间折衷考虑经验风险和置信范围,从而找到实际风险的最小。
这就是结构风险最小化(SRM)原则【1,18,201。
图2.2结构风险最小化 武汉理工.