软件模块故障倾向预测方法研究-免费论文

软件模块故障倾向预测方法研究

Windows编程 2013-10-21　版权投诉上传论文复制论文网址上传用户：zzyll625

【VC++开源代码栏目提醒】：以下是网学会员为您推荐的VC++开源代码-软件模块故障倾向预测方法研究 - 会议论文，希望本篇文章对您学习有所帮助。


第３５卷第５期武汉大学学报·信息科学版Ｖ０１．３５Ｎｏ．５２０１０年５月ＧｅｏｍａｔｉｃｓａｎｄＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅｏｆＷｕｈａｎＵｎｉｖｅｒｓｉｔｙＭａｙ２０１０文章编号：１６７１—８８６０（２０１０）０５—０５６２—０４文献标志码：Ａ软件模块故障倾向预测方法研究罗云锋１普杰１贲可荣１（１海军工程大学计算机工程系，武汉市解放大道７１７号，４３００３３）摘要：研究了在区分故障严重程度下的软件模块故障倾向预测方法，将故障分为高严重程度和低严重程度两种类型，用统计分析和机器学习方法分析静态代码度量与敌障倾向之间的关系。

    以公开和私有两种类型的失效数据集作为实验数据，分析发现，故障的严重程度影响预测性能，预测不同严重程度的故障需要选择不同的度量和分类模型，预测低严重程度故障的性能好于预测高严重程度故障的性能。

     关键词：软件模块故障倾向；故障严重程度；统计分析；机器学习中图法分类号：ＴＰ３９３利用软件度量信息能有效地预测软件故障，为５个严重等级，将等级１划分为高严重程度（占通过选取不同的度量、分析方法和数据集等方式，总故障数的８．５％）和低严重程度〔６〕。

    私有数据可建立较好的预测模型。

    但这些研究忽略了故障集来自于某控制系统，记为ＡＡ，采用Ｃ语言编的特性，未区分故障的严重程度。

    静态代码度量写，代码规模为４Ｋ，包含８４个模块和１２个故主要包括方法层度量和类层度量〔１〕。

    代码行数、障，分布在１１个模块中，严重程度划分为４个等ＭｃＣａｂｅ和Ｈａｌｓｔｅａｄ度量是最主要的方法层度级，分别为致命、严重、一般、轻微，将致命和严重量。

    ＮＡＳＡＭＤＰ的多数项目已包含了方法层度划为高严重程度（占总故障数的３３．３％），一般和量（ｈｔｔｐ：／／ｍｄｐ．ｉｖｙ．ｎａｓａ．ｇｏｖ）。

    Ｍｅｎｚｉｅｓ和Ｎａ— 轻微错误划为低严重程度。

    两组数据均收集了ｇａｐｐａｎ认为，方法层度量可用于故障倾向预测，２０个度量，分为基本代码行度量、圈复杂度度量但并没有最好的度量属性，应考虑所有静态代码和Ｈａｌｓｔｅａｄ度量三种类型。

    度量，从中选取部分度量〔２’３〕。

    类层度量的主要１．２数据分析方法度量有ＣＫ度量、ＭＯＯＤ度量和ＱＭ００Ｄ度量。

     在获取故障数据后，将故障按严重程度等级Ｊａｎｅｓ和Ｇｙｉｍｏｔｈｙ研究了ＣＫ度量预测故障倾进行划分，通过相关分析、一元Ｌｏｇｉｓｔｉｃ回归分析向的能力〔４’５〕。

    Ｚｈｏｕ在考虑故障严重程度的前提选取合适的度量，用多元Ｌｏｇｉｓｔｉｃ回归、Ｊ４８、下，研究了类层度量和类故障倾向之间的关系〔６〕。

     ＮａｉｖｅＢａｙｅｓ分析度量与故障倾向之间的关系。

    本文研究了方法层度量与模块故障倾向之间的关１．２．１相关分析系。

    为了减少分类算法的影响，借鉴文献〔７３的方相关分析是处理变量之间关系的一种统计方法，采用Ｌｏｇｉｓｔｉｃ回归、ＮａｉｖｅＢａｙｅｓ和决策树三法，用于确定两个变量之间关系的密切程度。

    常种常用的分类算法构造预测模型。

     用的相关分析方法有Ｐｅａｒｓｏｎ相关分析和Ｓｐｅａｒｍａｎ秩相关分析。

    前者要求数据满足正态１研究方法分布或近似正态分布，后者没有限制。

    相关性分析为构造预测模型提供度量选取依据，相关性高１．１数据源的度量不应同时选人模型，应重点关注相关性低为了减少数据集对预测性能的影响，采用公的度量，它们可能包含了其他度量没有的信息。

    开和私有两种类型的失效数据集‘８１。

    公开数据集１．２．２Ｌｏｇｉｓｔｉｃ回归分析采用ＭＤＰ中的ＪＭｌ数据，故障总数为２０９８，分Ｌｏｇｉｓｔｉｃ回归是一种常用的统计分析模型，收稿日期：２０１０—０３—１５。

     项目来源：国防预研基金资助项目（５１３２７０１０４）。

     第３５卷第５期罗云锋等：软件模块故障倾向预测方法研究５６３其数学模型如下：模型性能和效果，若关注错误分类带来的影响，则ｌｇ（ｐ／（１一声））＝届＋届Ｘ一＋…＋晟Ｘ。

    （１）Ｉ、Ⅱ类错误率是较好的评价指标。

    其中，九为自变量的个数；届、角、…、岛是系数；Ｘ，、Ｘｚ、…、Ｘ。

    是预测变量。

    导出预测系数和权重后，２实验结果最后的预测输出值为：户＝ｇ（Ｘ）／（１＋ｇ（Ｘ））（２）２．１相关分析其中，ｇ（Ｘ）＝ｅｘｐ（届＋屈Ｘｌ＋…＋晟Ｘ。

    ）。

     由于ＪＭｌ的数据不满足正态分布的要求，故１．２．３机器学习方法采用Ｓｐｅａｒｍａｎ秩相关分析，分析过程在ＳＰＳＳＮａｉｖｅＢａｙｅｓ是一种简单、有效且在实际应用１３．０中完成。

    通过相关性分析可知，度量之间有中较为成功的分类方法，它将未知其类别属性的的高度相关，有的基本不相关。

    对于高度相关的样本数据归类于具有最大后验概率的已知类别属度量，如Ｈａｌｓｔｅａｄ类型中Ｅｒｒｏｒ—Ｅｓｔ、Ｐｒｏｇ—性中。

     Ｔｉｍｅ、Ｅｆｆｏｒｔ等度量，只需要选择其中一个。

    而Ｊ４８以自顶向下递归的分治方式构造〔９〕，其对于与其他不相关的度量，如Ｈａｌｓｔｅａｄ—Ｌｅｎｇｔｈ训练过程是根据训练集｛（ｚｉ，Ｙｉ））构造一棵决策度量，应当重点关注。

    此外，选择度量时，应尽量二叉树，这里ｚ；是第ｉ个采集到的度量数据向量，减少同种类型中相关性高的度量。

    Ｙ；是相应的期望输出。

    决策二叉树的所有非叶子２．２一元Ｌｏｇｉｓｔｉｃ回归分析节点均有两个子节点和一个判定准则。

     采用一元Ｌｏｇｉｓｔｉｃ回归预测算法，通过分析１．３评价准则回归模型中的统计量来比较单个度量与不同严重准确率是对所有模块正确分类的百分比，Ｉ程度故障的关系，并为多元Ｌｏｇｉｓｔｉｃ回归分析提类错误率是指将原本没有故障模块划分为有故障供度量选取依据。

    表ｌ给出了分析结果。

    其中，模块中的百分比，Ⅱ类错误率是指将原本有故障Ｐ值是显著性概率统计量，Ｐ值越小，表明回归方模块划分到没有故障的模块中的百分比。

    准确率程越可被接受；Ｒ２表示回归方程的拟合程度，Ｒ２是对评价模型优劣的基本指标，但无法全面衡量越大，表明拟合程度越好。

     表１单变量分析结果Ｔａｂ．１ＲｅｓｕｌｔｓｏｆＵｎｉｖａｒｉａｔｅＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ不区分严重程度故障低严莆程度故障高严重程度故障度量截距Ｐ值Ｒ２截距Ｐ值Ｒ２截距Ｐ值Ｒ２Ｌｏｔ．＿Ｂ１ａｎｋｌ ● ７２１ＯＯ ● Ｏ３８ ● ８１ｌＯ０ ● Ｏ３０．０２６Ｏ０．００２Ｌｏｔ＿Ｃｏｄｅ＿ａｎｄ—Ｃｏｍｍｅｎｔｓ１ ● ５Ｏ３ＯＯ ● Ｏ１４ ● ５９３ＯＯ ● Ｏｌ０．０８４０．００５０．００１Ｌｏｃ＿Ｃｏｍｍｅｎｔｓ１ ● ５６５Ｏ０ ● Ｏ２Ｚ ● ６５ｌＯ０ ● ０２０．０３１００．００３Ｌｏｔ＿Ｅｘｅｃｕｔａｂｌｅｌ７５７ＯＯＯ４２８３６０Ｏ ● Ｏ３０．００９Ｏ０．００６｝ｉ ● ● ● ８２３Ｏ０Ｏ４８９１４Ｏ０Ｏ４０．０３２Ｏ０．００３Ｃｙｃｌｏｍａｔｉｃ＿Ｃｏｍｐｌｅｘｉｔｙ ● ｉ ● ● ● Ｄｅｓｉｇｎ＿Ｃｏｍｐｌｅｘｉｔｙ ● ７９８ＯＯ ● Ｏ４２ ● ８８６ＯＯ ● Ｏ４０．０３５Ｏ０．００２ＥｓｓｅｎｔｉａｌＣｏｍｐｌｅｘｉｔｙ ● ６５ＯＯＯ ● Ｏ２５１ ● ７４２０Ｏ ● Ｏ２０．０２７００．００１Ｈａｌｓｔｅａｄ—Ｃｏｎｔｅｎｔ８３Ｏ００ ● Ｏ３１１８９６ＯＯ ● ＯＺ０．０１１Ｏ０．００７１ ● ● ７５４ＯＯＯ２５１８３８０ＯＯ２０．０１５Ｏ０．００２Ｈａｌｓｔｅａｄ—ＩＮｆｆｉｃｕｌｔ ● ● ● ● Ｈａｌｓｔｅａｄ—Ｅｆｆｏｒｔ ● ５０８ＯＯ ● Ｏ１６１ ● ５９２０Ｏ ● ０ｌ６．１×１０—６ＯＯ．００ｌＨａｌｓｔｅａｄ＿Ｅｒｒｏｒ＿Ｅａｔ１ ● ６６５００ ● Ｏ３７１ ● ７４３ＯＯ ● Ｏ３０．７６２Ｏ０．００６Ｈａｌｓｔｅａｄ—Ｌｅｎｇｔｈ１ ● ７Ｏ８ＯＯ ● ０３８１ ● ７８４０Ｏ ● Ｏ３０．００２００．００７Ｈａｌｓｔｅａｄ—ＬｅｖｅＩＯ ● ９９７００ ● Ｏ３５１ ● Ｏ９１０Ｏ ■ Ｏ３ —４．９５００．００６Ｈａｌｓｔｅａｄ—Ｐｒｏｇ＿Ｔｉｍｅ１ ● ５Ｏ８Ｏ０ ● Ｏ１６１ ● ５９２０Ｏ ■ Ｏ１１．１×１０—５０．０１５０．００１Ｈａｌｓｔｅａｄ＿Ｖｏｌｕｍｅ１ ● ６６５ＯＯ ● Ｏ３７ ● ７４３Ｏ０ ● ０３２．５×１０—４Ｏ０．００６Ｎｕｍ＿Ｏｐｅｒａｎｄｓｌ ● ７ＯＯＯ０ ● Ｏ３７１■１ ● ７７５ＯＯ ● Ｏ３０．００５００．００８Ｎｕｍ＿Ｏｐｅｒａｔｏｒｓ１ ● ７Ｏ６Ｏ０ ● ０３７１ ● ７８３ＯＯ ● Ｏ３０．００３００．００６１８９ＯＯＯ０４８１９６５Ｏ０Ｏ４０．０２５Ｏ０．００９Ｎｕｍ＿Ｕｎｉｑｕｅ＿Ｏｐｅｒａｎｄｓ ● ● ● ■ ＮｕｍＵｎｉｑｕｅ＿Ｏｐｅｒａｔｏｒｓ２ ● ０７２Ｏ０Ｏ２９２ ● １６８０Ｏ ● Ｏ２０．０４５００．００３垃＝里！！！！：！！！！！：！！！！：！！！！！：！！！！：！！！！！：！！！从表１可看出，在不区别严重和低严重程度相关性最大。

    这表明故障的严重程度影响预测的情况下，Ｎｕｍ—Ｕｎｉｑｕｅ—Ｏｐｅｒａｎｄｓ、Ｃｙｅｌｏｍａｔｉｃ— 性能，预测不同严重程度的故障需选择不同的Ｃｏｍｐｌｅｘｉｔｙ、Ｌｏｃ＿Ｔｏｔａｌ三个度量与故障倾向相度量。

    关性最大，Ｎｕｍ—Ｕｎｉｑｕｅ—Ｏｐｅｒａｎｄｓ、Ｎｕｍ—Ｏｐｅｒ— ２．３度量组合用于故障倾向预测ａｎｄｓ、Ｌｏｃ＿Ｔｏｔａｌ三个度量与高严重程度故障的采用度量组合预测软件模块在不区别严重程武汉大学学报·信息科学版２０１０年５月度、高严重程度和低严重程度故障三种情况下的取得较好的预测性能），第四组选择Ｌｏｃ—Ｔｏｔａｌ作故障倾向，依据相关分析和单变量回归分析结果为度量基准，如表２所示。

    利用Ｌｏｇｉｓｔｉｃ回归、选择度量，每种情况选择四组度量，其中三组包含Ｊ４８和ＮａｉｖｅＢａｙｅｓ三种分类模型预测故障倾向，３个左右的度量（文献〔２〕指出，３个左右的度量可分析过程通过ＷＥＫＡ工具完成‘１０〕，比较准确率、表２度量组合Ｔａｂ．２ＣｏｍｂｉｎａｔｉｏｎｏｆＳｏｆｔｗａｒｅＭｅｔｒｉｃｓ度胃组合不区分故障Ｎｉ：Ｃｙｅｌｏｍａｔｉｃ＿Ｃｏｍｐｌｅｘｉｔｙ，Ｎｕｍ＿Ｕｎｉｑｕｅ＿Ｏｐｅｒａｎｄｓ，Ｌｏｃ＿Ｅｘｅｃｕｔａｂｌｅ，Ｈａｌｓｔｅａｄ＿Ｌｅｎｇｔｈ严重程度Ｎ２：Ｎｕｍ＿（）ｐｅｒａｎｄｓ，Ｌｏｔ＿Ｅｘｅｃｕｔａｂｌｅ，Ｈａｌｓｔｅａｄ－Ｌｅｎｇｔｈ，Ｄｅｓｉｇｎ＿ＣｏｍｐｌｅｘｉｔｙＮｓ：Ｃｙｃｌｏｍａｔｉｃ＿Ｃｏｍｐｌｅｘｉｔｙ，Ｎｕｍ＿Ｕｎｉｑｕｅ＿Ｏｐｅｒａｎｄｓ。

    Ｌｏｃ＿Ｔｏｔａｌ低严重程度Ｌ１：Ｃｙｃｌｏｍａｔｉｃ＿Ｃｏｍｐｌｅｘｉｔｙ。

    Ｎｕｍ＿Ｕｎｉｑｕｅ—Ｏｐｅｒａｎｄｓ，Ｌｏｃ＿Ｅｘｅｅｕｔａｂｌｅ，Ｈａｌｓｔｅａｄ－ＬｅｎｇｔｈＬｚ：Ｎｕｍ＿Ｕｎｉｑｕｅ—Ｏｐｅｒａｎｄｓ，ＬｏｃＥｘｅｃｕｔａｂｌｅ，Ｈａｌｓｔｅａｄ—Ｌｅｎｇｔｈ，Ｄｅｓｉｇｎ＿ＣｏｍｐｌｅｘｉｔｙＬｓ：Ｎｕｍ＿ＵｎｉｑｕｅＯｐｅｒａｎｄｓ，Ｃｙｃｌｏｍａｔｉｃ＿Ｃｏｍｐｌｅｘｉｔｙ，Ｌｏｃ＿Ｔｏｔａｌ高严重程度Ｈｉ：Ｎｕｍ＿Ｏｐｅｒａｎｄｓ，Ｈａｌｓｔｅａｄ—Ｌｅｎｇｔｈ，Ｌｏｃ＿ＴｏｔａｌＨ２：Ｎｕｍ＿０ｌｐｅｒａｎｄｓ。

    Ｈａｌｓｔｅａｄ—Ｌｅｎｇｔｈ，Ｌｏｃ＿ＥｘｅｃｕｔａｂｌｅＨｓ：Ｎｕｍ＿Ｕｎｉｑｕｅ一（）ｐｅｒａｎｄｓ，Ｈａｌｓｔｅａｄ—Ｌｅｎｇｔｈ，Ｌｏｃ＿ＴｏｔａｌＩ类错误率和Ⅱ类错误率，结果如图１所示。

    对比图１（ｂ）和１（ｃ）可知，高严重程度下的Ⅱ类错误率明显高于低严重程度的。

    从总体上来看，Ｊ４８的Ⅱ类错误率较低，ＮａｉｖｅＢａｙｅｓ的Ｉ类错误率较低。

    可见，故障的严重程度影响预测性能，预测不同严重程度的故障需要选择不同的度量组合和分类模型，预测低严重程度故障的性能好于预测高严重程度故障的性能。

    ３故障倾向预测工具原型及应用依据前面的结论，构造不区别严重程度、高严重程度和低严重程度故障三种情况的预测模型，每种情况有两种模型，模型１对应较低的Ｉ类错误率，模型２对应较低的Ⅱ类错误率，高严重程度情况下只关注较低的Ⅱ类错误率。

    基于上述模型开发了区分软件故障严重程度的模块故障倾向预测工具原型（以下简称预测工具），并以失效数据集ＡＡ作为应用实例。

    预测工具采用ＶＣ十十６．０开发，提供了Ｌｏｇｉｓｔｉｃ回归、Ｊ４８和ＮａｉｖｅＢａｙｅｓ三种分类算法，算法实现借鉴了开源工具ＷＥ—ＫＡ。

    预测工具运行过程包括样本信息输入、模型选择、生成模型和结果输出四个步骤。

    将工具应用于失效数据集ＡＡ，得到的预测结果见表３。

    从表３可以看到，若采用ＪＭｌ作为ＡＡ的先验信息，模型预测效果很差，Ⅱ类错误率高，有的甚至.

原创
版权说明

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
- 相关文章
- 最新文件
特别推荐

免费论文,原创论文,参考论文,论文源代码-网学

软件模块故障倾向预测方法研究