【asp源码栏目提醒】:网学会员鉴于大家对asp源码十分关注,论文会员在此为大家搜集整理了“ETL需求分析,ASP.net,JSP,JAVA - 课程设计”一文,供大家参考学习
功能需求Extraction 数据源的支持: 如 支持目前市场主流数据库, Oracle、DB2、Mysql、Sqlserver 等和 Greenplum 的数据源配置和数据抽取 抽取规则:对源数据可进行规则清洗配置,可以按条件抽取数据Transformation 数据流程的控制:具有可视化的流程编辑工具,提供流程定义和流程监控功 能。
流程定义:具有可视化编辑工具,支持数据流的拖拽,目标表的数据结构可 根据源表和对应关系自动生成 流程定义扩展:提供接口可进行扩展开发,支持系统日期、规则名称等变量 传递,按规则自动生成流程定义 转换规则定义;提供函数集支持常用规则传唤方法 1、直接映射,数据源与目标数据一致,如果数据源字段和目标字段长度或 精度不符,需要注意看是否真的可以直接映射还是需要做一些简单运算。
2、字段运算,数值型字段,数据源的一个或多个字段进行数学运算得到的 目标字段,如 SQL 标准中的 sumcountavgminmax 等 3、参照转换,在转换中通常要用数据源的一个或多个字段作为 Key,去一 个关联数组中去搜索特定值,而且应该只能得到唯一值。
4、字符串处理,从数据源某个字符串字段中经常可以获取特定信息,例如 身份证号。
而且,经常会有数值型值以字符串形式体现。
对字符串的操 作通常有类型转换、字符串截取等。
但是由于字符类型字段的随意性也 造成了脏数据的隐患,所以在处理这种规则的时候,一定要加上异常处 理。
5、空值判断,对于空值的处理是数据仓库中一个常见问题,对于可能有 NULL 值的字段,不要采用“直接映射”的规则类型,必须对空值进行 判断,建议是将它转换成特定的值。
6、日期转换,在数据仓库中日期值一般都会有特定的,不同于日期类型值 的表示方法,例如使用 8 位整型 20040801 表示日期。
而在数据源中,这 种字段基本都是日期类型的,所以对于这样的规则,需要一些共通函数 来处理将日期转换为 8 位日期值、6 位月份值等。
7、日期运算,基于日期,我们通常会计算日差、月差、时长等。
8、聚集运算,对于事实表中的字段,他们通常要进行 join、union、filter 等 操作, 9、既定取值,这种规则和以上各种类型规则的差别就在于它不依赖于数据 源字段,对目标字段取一个固定的或是依赖系统的值。
Loading 支持常见数据库的导入工具方式上载数据,主要一定要支持 Greenplum 的 gpfdist 方式并行导入 gpfdist 方式导入数据的参数输入可以手工指定 流程控制:具有可视化控制工具,支持工作流程开发,定时执行,错误重试 等 流程监控:具有可视化监控工具,错误报警性能需求整体 ETL 性能,千兆网支持,硬件配置足够的情况下瓶颈不在 CPU、内存、磁 此套设计包括开题源程序论文答辩稿可以直接作毕业论文/设计使用.盘 I/O,数据 ETL 到 Greenplum 至少达到 10M/s 需要此套毕业设计论文请联系 QQ 810354974 先加此 QQ 为好友再联系 整体 ETL 性能, 数据从 Greenplum 到其他数据库, 保证瓶颈在对方数据库上, 即 GP 的 reader 性能大于其它数据库的 writer 性能运行需求 操作系统环境至少支持 Linux Redhat5.4 或以上,Suse linux 10.2 或以上版本 支持 HA,保证业务的高可用性