• 论文导航
  • 论文专题
  • 论文源代码
  • 设计资源
  • 原创论文
  • 交流互动
  • 作业答案
  • 工具
  • 会员
  • 设计专题

首页|原创论文|原创论文|论文全套|点数论文|实用文档|课程设计|定作论文|毕业论文|考试资料|知识在线|密码保护|大学生|论文帮助|保健养生|健康家园|期刊导航|创业资料|毕业论文|站长学院|学习娱乐|演示文稿|免费论文|源代码|博士论文|研究论文|参考论文|下载分类|写作指导|应用文|英语论文|文化|哲学|艺术类|计算机|工学|教育类|文学|社会学|政治|医药学|理学|法学|公共管理|财务管理|工商管理|会计审计|管理学|证券金融|财政税收|经济学|论文范文|网络学院|早教|就业指导|求职英语|简历|公务员|动漫频道|作文大全|土木工程|法学|计算机|护理学|会计学|交通运输|工商管理|汉语言|原创|计算机论文全套|计算机点数论文|点数参考论文|ASP设计|ASP.NET设计|VB设计|JSP设计|C#设计|PHP设计|JAVA设计|VF设计|DELPHI设计|PB设计|VC++设计|计算机网络|机械论文|单片机论文|电子论文|asp源码| asp精品| php精品源码| vb精品| vfp精品源码| Java精品|Asp.net精品源码|Jsp精品|定作论文

BS| CS | vb| VC | 设计| 系统 | 毕业| JSp | web| net | PLC| FLASH | sql| PHP | CAD| 源码 | pb| delphi | 方案| ppt | J2ee| HTML | android| access | vfp| 模具 | j2me| service | photo| CPA | TCP| J2ME | ASP| java | ATL| 案例 | 单片机| Ajax | powerbuilder| frontpage | div| 报告 | 毕业设计| 电工 | 课程| 嵌入式 | 通讯| 软件测试 | Unix编程| 3D图形编程 | 人工智能| 图形 | Internet/IE编程| 界面编程 | SQL Server| 代理服务器 | 系统编程| 单片机开发 | 人工智能| 文件操作 | RichEdit| 屏幕保护 | 网格计算| uCOS | JspServlet| 驱动编程 | Shell编程| MTK | Java编程| 酒店行业 | 其他小程序| 外挂编程 | VC书籍| .net编程 | 教育系统应用| 中间件编程

下载目录|论文及源代码|asp源码|asp精品源码|php精品源码|vb精品源码|vfp精品源码|Java精品源码|vc++精品源码|ACCESS精品源码|Authorware精品源码|Asp.net精品源码|Jsp精品源码|DIV+CSS模板|FLASH精品源码|PB精品源码|Android源码 |asp代码|ajax代码|php代码|html代码|java代码|jsp代码|pb代码|Ruby代码|sql代码|vfp代码|数据结构与算法|汇编语言|Perl代码|delphi代码|flash代码|js代码|net代码|vb代码|vc代码|DVD光盘源代码|ipad源代码|后台模板|CSS菜单|CSS图表|图片图标|精美Word模板|精美EXCEL模板|精美PPT模板|系统操作视频和下载|ASP在线学习|PHP在线学习|JSP在线学习|JAVA在线学习|NET在线学习|VC在线学习|VB在线学习|VFP在线学习|SQL在线学习|PB在线学习|PHOTOSHOP在线学习|Delphi在线学习|计算机点数论文|点数参考论文|ASP设计|ASP.NET设计 |VB设计|JSP设计|C#设计|PHP设计|JAVA设计|VF设计|DELPHI设计|PB设计|VC++设计|计算机网络|机械论文|单片机论文|电子论文

C++|VB|ASP|VF|DELPHI|JSP|电气|计算机|经济|打包下载|查询工具|设计定作|设计专题|ASP,网站,C/S,设计等定作

网站首页|原创系统|工商管理|护理学|会计学|行政管理|计算机|土木工程|汉语言|机械设计|交通运输|法学|卫生法学

内涵段子| 冷笑话| 幽默笑话| 短信笑话| 其它笑话| 大杂烩| 青芜校园| 社会广角| 动漫风云| 征婚交友| 股票基金| 私房话|社会趣闻| 手机地带| 其它笑话 动漫风云| 冷笑话

作业答案| 小学作业| 高中作业| 中专作业| 初中作业| 大专作业| 大学作业| 研究生作业|原创论文|论文下载|下载源代码|精器资源|会员中心| 查询资料| 暑假作业| 家庭作业

IP地址查询 搜索IP地址所在的地理位置 | 英文词典、在线翻译 在线新华字典/生字查找 | 网速测试 测试网络连接速率 | 文件扩展名文件后缀名查询 | 下载地址转换 迅雷/快车下载地址转换 | 在线生成Favicon图标 | 繁体与简体自由转换工具 | 论坛常用发帖代码 | 在线制作个性邮箱图标 || 汉字拼音及五笔编码查询 | 汉字拼音查询 | 查询域名或同IP下所有站点 | Google PageRank查询 | 查看域名WHOIS信息 | ALEXA世界排名查询服务 | HTML转换JS代码 | 将代码以BASE64方式加密/解密 | JS在线加密/解密 | 字符转UTF-8编码 | 链接地址16进制加密 | 字符串32位MD5加密 | 将代码以Escape加密/解密 | 字符串转换为ASCII码器 | 代码美化、压缩、混淆加密 | ASCII字形生成器 | 页面转换效果生成器 | 正则表达式检测器

会员中心|会员登录|我要充值加点|我要充值论文

全套论文|设计下载|源码|原创论文|下载目录|论文总站|论文搜索|最新论文| 万能工具|定作论文|定作设计|毕业设计 |Word格式|管理系统 课程设计|论文专题 |保存到桌面 |演示|系统 | 设计 | 毕业 | 通信 | 模具 | 单片机 | 方案 | 答辩PPT|J2EE

您现在的位置:网学>>免费论文>>论文导航>>Windows编程>>SQL开源代码
  • 分布式环境下的文档相似度研究与实现

    栏目导航 Windows编程 2013-10-18 2013-10-18  版权 版权投诉 上传资料 上传资料 复制论文网址 复制论文网址 上传用户:wxxldjy
    uce 调用执行。

        但是包含“”的查询,Hive 不会生成 MapRedcue 任务,因此程序开发中应尽量避免“”的使用,充分发挥分布式并行优势。

        可以看出,它与关系型数据库的SQL 略有不同,但也支持了绝大多数的 SQL 语句如 DDL、DML 以及常见的聚合函数、连接查询、条件查询。

         相比 Hbase9,Pig10,MapReduce 等等分布式数据处理工具,Hive 平台主要优势是: 1、将复杂紧耦合的 MapReduce 数据处理过程变成简单可松耦合的 SQL 语句查询,使分布式数据处理更简捷易懂; 2)、支持基于 X/Open 的 SQL 调用级接口 JDBC/ODBC 和 Thrift11服务开发框架,这使得开发人员可以使用更熟悉常用的方式访问分布式环境中的数据;3、分布式的文档相似度开发运行环境 根据海量文档相似度计算总体策略和思路,充分利用 Hadoop 和关系型数据库在处理海量数据时的优缺点12,本文将需要大数据存储和计算的部分交给 Hive 平台完成,将需要较强表达能力的查询交互部分交给关系型数据库完成,形成可靠性高及数据处理能力强的大规模计算系统环境。

        整个系统主要包括四部分,分布式环境(Hadoop),数据处理平台 ,开发平台(Eclipse)(HivePostgresql13) ,Web 应用平台(Tomcat)。

         3.1 开源分布式环境 Hadoop 是 Hadoop 是 Apache 软件基金会管理的一个项目, Google 开发的用来支持互联网级数据处理的 MapReduce 编程模型和底层文件系统 GFS 的开源实现4,6。

        在实际搭建 Hadoop环境时要注意选择稳定性较高的版本,同时也要考虑和其他系统组成部分(如 Hive 平台)的兼容性,本文选用 Hadoop0.20.2 版本。

        搭建 Hadoop 环境的简要步骤: 1)、安装 Hadoop 之前,预安装 JAVA 环境,配置 SSH 服务,修改防火墙策略; 2)、解压安装配置 Hadoop,参数配置包括:在所有节点上配置 conf/core-site.xml,conf/hdfs-site.xml,conf/mapred-site.xml,conf/hadoop-env.sh 及/etc/hosts 等文档,在主节点上配置 conf/master 和 slave 等文档。

        同时,可考虑将 Hadoop 配置文件与其安装目录分离、配置适当的 Hadoop 数据冗余值和 PID 文件位置,构建更稳定的 Hadoop 分布式环境。

         3)、启动 Hadoop 分布式环境,通过”jps”命令查看 Hadoop 启动后所有进程情况,正常应看到 NameNode,SecondaryNameNode,JobTracker,DataNode 和 TaskTracker。

         3.2 数据处理平台 HivePostgresql 分布式并行计算环境中,对于大数据的处理,Hive 是通过将 HQL 语句转换成 Hadoop 环境中可运行的 MapReduce 程序来实现数据的并行处理的,同时 Hive 中的表结构信息需要保存在关系型数据库中,因此,Hive 服务启动前,除了必要的 Hadoop 分布式并行运行环境,还需安装配置关系型数据库系统环境作为 Hive 的元数据存储库。

        Hive 默认使用嵌入式的Derby 数据库系统,本文使用 PostgresSql 数据库系统保存 Hive 的表结构信息,包括表名字、属性、表的列和分区及其属性、表数据所在目录等等,并通过配置 hive-site.xml 中数据库的 URL,用户名,密码将表结构信息和实际 Hive 数据连接到一起。

        而 Hive 表的实际数据内容保存在 Hadoop 的 HDFS 文件系统中,所以本文的相似度计算的数据处理系统环境由Postgresql 和 Hive 两部分组成。

        主要实现步骤如下: 1)、安装配置 Postgresql 数据库系统,创建用于保存 Hive 表结构信息的数据库,默认数 据 库 名 为 “ default ” 及 相 关 的 用 户 名 和 口 令 ; 在/usr/java/jdk1.6.0_16/jre/lib/security/java.policy 文件中添加如下配置信息,开放Postgresql 的 socket 端口权限。

         permission java.Net.SocketPermission quot127.0.0.1:5432quot,quotresolve,connectquot; 、 2 ) 安 装 配 置 Hive , 将 Postgresql 驱 动 放 到 ampHIVE_HOME/lib/ 目 录 下 , 在hive-default.xml 中,配置 Postgresql 数据库的 URL,用户名,密码等信息,关键代码如下: ltpropertygt ltnamegtjavax.Jdo.option.ConnectionURLlt/namegt ltvaluegtjdbc:postgresql://serverip/defaultlt/valuegt //URL 内容:接口方式、服务器名、数据库名 lt/propertygt ltpropertygt ltna

    首页12345下一页尾页

    版权说明
    【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
    •  相关文章 相关文章
      ·教育论文—中国交通教育研究会第三次交通教
      ·宜宾商业职业中专学校发展战略研究
      ·微型课程的设计研究——以“老年人学电脑”
      ·【精品】2010年自考《社会研究方法》复
      ·农村中小学教师心理健康状况调查及对策研究
      ·宜宾商业职业中专学校发展战略研究
      ·泸州市2012年现代教育技术与实验教学优
      ·高职语文教学对接企业文化研究与实践
      ·高职高专学生职业英语能力培养研究与实践
    •  最新文件 最新文件
  • 特别推荐