【SQL开源代码栏目提醒】:网学会员鉴于大家对SQL开源代码十分关注,论文会员在此为大家搜集整理了“社会调查数据平台中基本统计分析功能的R实现 - 期刊论文”一文,供大家参考学习
第七届2009两岸三院信息技术与应用交流研讨会论文报告集 150 社会调查数据平台中 基本统计分析功能的R实现 杨东娴 中国社会科学院
计算机网络中心 北京 100732 【摘要】自Linux开始开源思想在软件界可谓盛极一时此类以源代码开放共同创新为基本思想的软件的兴起不仅降低了使用者的成本支出同时也降低了使用者开发的难度提高了再开发和定制修改的成功可能性。
本文从自由软件R的介绍入手通过对比R与主流统计分析软件的优劣阐述引入R的原因。
同时结合院内相关基础平台的建设情况着重介绍利用统计软件包R定制开发数据基本统计分析功能的理念和实现方法。
【关键词】自由软件 R 描述性统计分析 在线分析功能 1前言 改革开放以来我国经历着巨大的社会变迁和迅猛的经济发展我院与社会
经济方面相关的许多研究所一直采用实证研究的方法使用大量的问卷调查来关注、描述和研究这一伟大的历史变迁。
深入剖析我院众多科研人员的相关科研活动和研究方法后不难发现我院很多学者的社会科学研究工作已经逐步从描述性研究为主向定量分析转化转化后的社会科学定量分析研究通常都是基于足够大的样本空间——大量的社会调查数据或问卷数据使用现代定量分析方法——尤其是计量分析技术利用先进的辅助统计分析工具——统计分析软件来对大数据样本进行深入的分析和挖掘进而生产出高质量的研究成果。
也就是说大样本空间和统计分析辅助工具已经成为我院众多科研人员进行科研工作不可或缺的两大支持。
从我院的现状来看现存的大量一手问卷调查资料保证了科研工作者对大样本空间的需求而包含了众多实用统计分析方法的统计分析软件则可以为科研工作者提供有效的、综合性的数据处理手段。
因此2008年开始院内根据
社会学研究所的实际业务需求和数据应用需求以促进院内社会调查类数据资料的整合、共享和增值应用为目标建立了院一级的社会调查数据平台并在其中通过内嵌R统计软件包来实现对平台中社会调查数据的基本统计分析功能——在线分析功能本文将主要从R统计软件包的引入和具体实现方面来阐述平台中的在线分析功能。
2统计分析软件包R R是遵循了自由软件基金会Free Software Foundation的GNU通用公共许可General Public LicenseGPL并进行源代码开放的一款自由软件Free Software是贝尔实验室Bell Laboratories的Rick BeckerJohn Chambers和Allan Wilks开发的S语言的一种具体实现S-Plus是S语言的另一种具体实现。
它最早1995年作为一个计划Project出现由新西兰Auckland大学统计系的Robert Gentleman和Ross Ihaka共同创立并因创始者的姓名中都含有字母“R”而得名后由R核心开发小组R Development Core TeamRDCT进行维护和发布目前可获取的最新版本是2009年6月发布的R2.9.1。
据R官方网站http://www.r-project.org的介绍R是一个GNU的计划GNU project是可以进行统计计算statistical computing和图形显示graphics的语言language和环境environment。
也就是说R既是一个通过充分设计并且结构统一的环境——统计分析软件包R又是一门可进行编程的语言——R语言。
它不仅为使用者提供了一个集成大量现成统计分析方法和模型的数学操作环境而且还为使用者提供了最大限度的灵活性——修改现有模块或新建模块来提高环境的统计分析能力最大程度的满足使用者的需求。
由此可以看出R在功能集成化和使用灵活性上已经达到了一种平衡。
2.1 R的特点 第七届2009两岸三院信息技术与应用交流研讨会论文报告集 151 统计分析软件包R具有以下特点 自由免费的自由软件。
R是一款开放
源代码的自由
软件这就意味着R不仅是完全免费的而且任何一个使用者或第三方都可以基于此随意使用、修改或进行相应的二次开发工作。
可编程的程序
设计语言。
R是一门相当完善简洁又高效的解释性程序设计语言它包括循环语句、条件语句、用户自定义函数和各类输入输出接口因此使用者可以不必拘泥于当前已封装好的模块而编写出符合自己意愿的统计分析模块。
更新频率高和开发周期短 R不仅开发周期短而且更新速度也很快。
除了标准包以外可使用的扩展包不仅种类繁多而且更新迅速、更新频率高。
互动性强。
R具有很强的互动性它不仅实时的在命令行窗口中显示输入命令的错误而且还可以记忆并重现使用者所使用过的命令便于进行命令的修改和重复执行。
另外在输出显示方面除了图形信息输出时是新建窗口以外其余的结果输出将与命令输入共用一个窗口进一步增强了界面信息的可读性和延续性。
良好的可接入性 经过不断的完善R已经和其它编程语言如C、Java、perl等和数据库如Oracle、SQL、MySQL等有了良好的交互接口。
完整的数据统计分析 R拥有一系列完整的统计分析方法可以进行连贯而又系