SAS虽然中和技术性能较好但是也是统计分析软件中最贵的一个与其只租不售的销售策略有关。
虽然R的标准包仅包含了常用的统计分析但可以免费获取和功能无限扩展恰好能弥补R在综合性价比方面所处的劣势。
3、与SPSSStatistical Package for the Social Sciences社会科学统计软件包的比较 易用性方面SPSS提供命令行和菜单两种操作形式尤其以菜单模式见长。
对支持的统计分析模型初学者完全可以仅借助鼠标即可完成所有的统计分析操作。
开放性和可扩展能力SPSS通过OLE和ActiveX技术来实现系统的开放性与R相比稍逊。
数据获取能力和成本方面SPSS可以读取多种数据格式数据获取能力要较R强。
但因为SPSS是商业软件所以其数据获取成本还是要较R高。
灵活性SPSS中的各类分析模块和分析操作流程只能是预制并固化到系统中的不仅修改周期长而且灵活性也较R有所欠缺。
3社会调查数据平台在线分析功能的R实现 社会调查数据平台是我院信息化立项项目的成果平台建设的出发点主要是为了改善调查数据资料分散、难以共享的现状希望通过平台对各类社会调查数据和资料进行收集和整理并借助标准化和规范化工作完成对信息资源的整合从而提高社会调查类数据和资料的利用价值进而探索社会调查数据和资料的发布和共享机制。
平台一期现已通过验收并开始为院内用户提供包括数据资料采集、数据校验、数据上传下载、数据检索和数据在线第七届2009两岸三院信息技术与应用交流研讨会论文
报告集 153 分析等方面的功能服务。
其中的数据在线分析功能正是基于R进行二次开发后实现的。
3.1在线分析功能 一般来说统计分析分为统计描述和统计推断两大部分其中的统计描述就是数据的描述性分析是对数据的分布特征进行表述是进行数据分析的基本步骤也是进行统计推断的基础。
因此科研人员在进行数据的详细分析之前通常会对可获取的数据进行一般性的描述性统计分析以便了解数据的基本特征发现数据的内在规律进而根据数据的相关特性选择进一步的数据统计分析方法。
基于此社会调查数据平台中专门设置了在线分析功能希望通过此功能模块为平台使用者提供一个初步熟悉平台所收录数据的操作环境并且希望通过一些简单相关性或描述性统计分析功能的提供使数据的使用者可以基本了解可获取社会调查数据的基本数据分布特征。
从上面的介绍可以看出社会调查数据平台中在线分析功能的定位主要表现为以下三点 提供一般性的描述统计分析方法。
了解可获取数据的分布情况。
熟悉可获取数据的基本特征。
结合上一章节介绍的R的特点通过R与三大商业统计软件的优劣势比较我们认为无论从可行性、成本投入、性价比、二次开发的便利性等方面考虑统计分析软件包R完全可以胜任现阶段院内用户对在线分析功能的需求因此决定将统计分析软件包R内嵌通过对R进行二次开发来实现社会调查数据平台中的在线分析功能并基于此功能为平台使用者提供符合实际分析操作习惯的在线式描述性统计分析服务。
3.2理论基础 描述性统计分析时描述数据分布特征的统计数主要为表示数据分布中心位置的统计数和表示数据离散程度或称为数据变异程度的统计数。
这两种统计数相辅相成共同反映出数据分布的全貌。
社会调查数据平台的在线分析功能主要是对社会调查数据进行包括上述两种统计数的描述性统计分析即对数据的所有变量的具体值进行统计性的描述主要包括数据的频数分析、数据的集中趋势分析、数据的离散程度分析、数据的分布分析、数据的交叉分析以及基本统计图形的输出等所涉及到的统计分析方法和主要特征指标如下 1、数据的频数分析Frequency通常用来进行数据的预处理如通过进行数据的频数分析和交叉频数分析来检验异常值。
另外通过频数分析也可以发现数据的一些统计规律如城市被调查者的生活水平提高满意度比农村被调查者低等。
但值得注意的是这些规律仅是数据分布的表面特性需要在后续的具体分析中进行检验。
2、数据的集中趋势分析通常用来表示数据分布的一般水平可以反映出数据值之间的差异程度常用的指标有平均值、中位数和众数等其中 平均值mean是数据取值的平均值。
它描述了数据取值的平均位置是衡量数据分布中心位置的重