美结合模型解释北京英泰慧雪科技有限公司-32-一套符合各项规范的可重用组件■Java API ■C API■COM DCOM组件■CORBA组件■KJDM组件KDD模式Knowledge Discovery in Database模型输出为各种源码■SQL■PMML■C■JAVA■……KXEN的集成优势北京英泰慧雪科技有限公司-33-预处理----自动化模型性能验证----自动化最优模型搜索----自动化模型商业解释----全面化传统工具KXEN使用对象数据分析师决策者/数据分析师建模时间数周数小时成本gt30000约500上帝的归上帝上帝的归上帝撒旦的归撒旦撒旦的归撒旦数学的归数学的归KXENKXEN商业的归用户商业的归用户上帝的归上帝上帝的归上帝撒旦的归撒旦撒旦的归撒旦数学的归数学的归KXENKXEN商业的归用户商业的归用户KXEN自动化数据挖掘北京英泰慧雪科技有限公司-34-“减少了数据准备时间从以前的整个建模周期的70到现在的几乎不用花什么时间。
”“KXEN的模型比传统工具创建的模型更精确/健壮。
”“即使经验不是很多的分析员也可以创建高质量的模型。
”“一年自动维护几百个模型。
”“期望生产力提高10倍。
”发表于2005 Teradata 用户大会客户评价KXEN北京英泰慧雪科技有限公司-35-KXEN在这里来源Gartner评测报告KXEN代表未来在Gartner发布的《07年2季度客户数据挖掘魔力象限》报告中KXEN位居“远见卓识”象限。
这意味着KXEN技术真正代表着未来的发展于KXEN之中客户可以获取最先进的数据挖掘技术最好的性价比洞悉客户行为提升企业竞争力北京英泰慧雪科技有限公司-36-来源德国技术咨询公司mayatoKXEN :2009最具性价比数据挖掘软件最近德国技术咨询公司mayato发布数据挖掘挖掘软件的评估报告《2009最具性价比数据挖掘软件》考察了SAS EM、SPSS Clementine 、KXEN等12种产品最终结果KXEN名列第一。
KXEN处理数据的速度的确非常值得称道。
具体请下载Data Mining Software 2009: Successful Analyses at Affordable Prices November 2008。
北京英泰慧雪科技有限公司-37-模型性能及产量比较模型准确性模型产量北京英泰慧雪科技有限公司-38-高低1.算法数目2.模型成本3.建模时间4.ETL amp 数据操作5.可视化6.性能7.模型数目8.处理高维数据能力9.易用性10.模型部署能力11.嵌入业务系统能力KXEN/SAS amp SPSS比较01234561234567891011SASSPSSKXEN 05KXEN 09北京英泰慧雪科技有限公司-39-公司简介KXEN产品介绍■产品解决的问题背景■产品定位■产品特点■与传统数据挖掘产品比较■理论基础■产品组成■产品应用案例KXEN产品及应用案例简介北京英泰慧雪科技有限公司-40-基于Vladimir Vapnik’的结构风险最小化方法Russian 数学家Structured Risk Minimization支撑向量机Support Vector Machines简称SVM是基于统计学习理论的一种新的机器学习技术。
采用了使用结构风险最小化原则替代经验风险最小化原则First book in 1991 –Springer Verlag.建模理论基础北京英泰慧雪科技有限公司-41-结构风险最小化的岭回归算法一种kmeans算法“第三代”算法Frequent Pattern Vertical一种概括了ARIMAGAR等算法的优化方法结构风险最小化的岭回归算法一种kmeans算法“第三代”算法Frequent Pattern Vertical一种概括了ARIMAGAR等算法的优化方法稳健回归K2R稳健回归K2R聪明分群K2S聪明分群K2S关联规则KAR关联规则KAR时间序列KTS时间序列KTSKXEN核心模块的主要算法介绍KXEN不需要客户去选择算法而且算法的参数设置是一个自动的流程自动把一个数据集分为三部分估计集验证集和测试集自动汇报最好的模型保证了模型的拟合能力与泛化能力北京英泰慧雪科技有限公司-42-训练集数据集自动分割等分割策略模型2模型1模型n测试集验证集选择最好模型验证性能模型数据集分割北京英泰慧雪科技有限公司-43-学习范式回归鉴于已知观测集试图找到一个基本的过程模型 fXw :YxfXwM. X32 岁收入100Y toquotClosequot wfX ...xxXxTARGET MODEL INPUT321北京英泰慧雪科技有限公司-44-哪一个是好的模型 -SRM创建的模型已知数据新数据学习理论问题在训练集的错误在新数据集上的错误两者间的关系模型推广能力怎样低拟合性/ 高泛化性训练错误测试错误稳健模型低训练错误低测试错误过拟合/低泛化没有训练错误 高测试错误北京英泰慧雪科技有限公司-45-经验风险或预期风险SRM的核心思想是减小方程中的两项传统的学习理论经验风险预期风险假设预期风险lt 经验风险 置信区间未知从训练数据Function h LVapnikWhere h VC 维 L 样本大小北京英泰慧雪科技有限公司-46-错误风险模型复杂度结构风险最小化是关键最佳模型全部风险置信区间拟合性拟合性::一个模型能描述你当前的数据到怎样的程度一个模型能描述你当前的数据到怎样的程度 通过最小化错误来取得通过最小化错误来取得..可靠性可靠性::一个模型能预测未来的数据到怎样精确的程度一个模型能预测未来的数据到怎样精确的程度 通过最小化可靠区间来取得通过最小化可靠区间来取得..拟合性拟合性::一个模型能描述你当前的数据到怎样的程度一个模型能描述你当前的数据到.
上一篇:
【精品】数据结构课程设计完整版
下一篇:
国有商业银行的经营绩效研究