etl工具

开源ETL工具:Talend系列

醉酒当歌 提交于 2019-12-04 19:57:03
Talend Open Studio(拓蓝开放工作室) Talend的旗舰产品, Talend Open Studio ,提供了迄今市场上最为开放,最具效力并最有创造力的数据集成方案。 拥有一个多功能合一,即装即用的应用平台, Talend Open Studio 可以满足所有组织机构的数据集成要求——无论其集成技术的高低或是项目规模的大小。 Talend Open Studio 秉承一贯的活力,将其强大的功能贯穿于数据集成的复杂过程中,即使在最为严苛的环境中也毫不逊色。 Talend Integration Suite(拓蓝集成套件) Talend Integration Suite 是一套业界领先的开源企业数据集成解决方案,它不仅满足了最为严格的企业发展要求,甚至可以完成针对最大规模数据和最为复杂过程的集成任务。 Talend Integration Suite 提供为您量身打造的订阅服务,并借此扩展了Talend金奖产品 Talend Open Studio 的各项功能,让用户享有了更多专业级别的技术支持和补充功能,有助于更大规模的团队合作,促进了面向企业规模的部署的产业化。 Talend Integration Suite MPx(拓蓝集成套件MPx) 依托Talend荣获金奖的企业数据集成技术, Talend Integration Suite MPx 具有高度的扩展性

ETL工具之kittle使用案例整理

隐身守侯 提交于 2019-12-03 17:09:56
主花了一下午时间,收集全网,学习了下kittle,觉得该大v写的不错,特意整理给大家!学会这几个案例kittle基本就没问题了。 1.kettle案例一抽取gz格式文本内容保存到mongodb https://blog.csdn.net/zzq900503/article/details/78658649 2.kettle案例二抽取mysql数据保存到mongodb https://blog.csdn.net/zzq900503/article/details/78678030 3.kettle案例三抽取json数据保存到mongodb https://blog.csdn.net/zzq900503/article/details/78745397 4.kettle案例四使用java脚本进行数据处理 https://blog.csdn.net/zzq900503/article/details/78745359 5.kettle案例五使用js脚本进行json数据处理新增行 https://blog.csdn.net/zzq900503/article/details/78952318 6.kettle案例六数据表关联--排序记录-记录集连接-过滤记录 https://blog.csdn.net/zzq900503/article/details/78962029 7

【转】ETL讲解(很详细!!!)

匿名 (未验证) 提交于 2019-12-03 00:40:02
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。   ETL的实现有多种方法,常用的有三种。一种是借助ETL工具(如Oracle的OWB、SQL Server 2000的DTS、SQL Server2005的SSIS服务、Informatic等)实现,一种是SQL方式实现,另外一种是ETL工具和SQL相结合。前两种方法各有各的优 缺点,借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。SQL的方法优点是灵活,提高ETL运行效 率,但是编码复杂,对技术要求比较高。第三种是综合了前面二种的优点,会极大地提高ETL的开发速度和效率。    一、 数据的抽取(Extract)   这一部分需要在调研阶段做大量的工作,首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS,是否存在手工数据,手工数据量有多大,是否存在非结构化的数据等等,当收集完这些信息之后才可以进行数据抽取的设计。    1、对于与存放DW的数据库系统相同的数据源处理方法   这一类数据源在设计上比较容易。一般情况下,DBMS(SQLServer、Oracle)都会提供数据库链接功能

ETL数据抽取工具

匿名 (未验证) 提交于 2019-12-03 00:30:01
ETL负责将分布的、异构数据源中的数据如关系数据、 平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。 旗鼓相当: Datastage 与 Powercenter : 就Datastage和Powercenter而言,这两者目前占据了国内市场绝大部分的份额,在成本上看水平相当,虽然市面上还有诸如Business Objects公司的Data Integrator、Cognos公司的DecisionStream,但尚属星星之火,未成燎原之势。 谈Datastage和Powercenter,如果有人说这个就是比那个好,那听者就要小心一点了。在这种情况下有两种可能:他或者是其中一个厂商的员工,或者就是在某个产品上有很多经验而在另一产品上经验缺乏的开发者。为什么得出这一结论?一个很简单的事实是,从网络上大家对它们的讨论和争执来看,基本上是各有千秋,都有着相当数量的成功案例和实施高手。确实,工具是死的,人才是活的。 在两大ETL工具技术的比对上,可以从对ETL流程的支持、对元数据的支持、对数据质量的支持、维护的方便性、定制开发功能的支持等方面考虑。 一个项目中,从数据源到最终目标表,多则上百个ETL过程,少则也有十几个。这些过程之间的依赖关系、出错控制以及恢复的流程处理,都是工具需要重点考虑。在这一方面

大数据模块开发----ETL

∥☆過路亽.° 提交于 2019-11-28 14:52:14
ETL工作的实质就是从各个数据源提取数据,对数据进行转换,并最终加载填充数据到数据仓库维度建模后的表中。只有当这些维度/事实表被填充好,ETL工作才算完成。 本项目的数据分析过程在hadoop集群上实现,主要应用hive数据仓库工具,因此,采集并经过预处理后的数据,需要加载到hive数据仓库中,以进行后续的分析过程。 1. 创建ODS层数据表1.1. 原始日志数据表 drop table if exists ods_weblog_origin; create table ods_weblog_origin( valid string, remote_addr string, remote_user string, time_local string, request string, status string, body_bytes_sent string, http_referer string, http_user_agent string) partitioned by (datestr string) row format delimited fields terminated by '\001'; 1.2. 点击流模型pageviews表 drop table if exists ods_click_pageviews; create table ods_click

「数据ETL」从数据民工到数据白领蜕变之旅(四)-有了PowerQuery还需要SSIS吗?

馋奶兔 提交于 2019-11-26 19:51:46
在真正的企业级BI项目中,使用PowerBIDeskTop那一套数据ETL是不可行的,需要使用专业的ETL工具完成数据仓库的搭建,再进行数据建模的工作。 鉴于笔者所能触达的读者群体,多数为业务背景的数据分析工作者,本篇给大家带来简单的入门实操演示,让大家减少对专业IT型工具的恐惧心理。 所有工具都是为人所用,都是想着尽可能简单易上手的,学习过PowerQuery的群体,笔者很有信心只需跨出信心的一步,SSIS掌握到够用的级别还是很容易实现的。 PowerQuery的局限性 作为一款自助式BI的轻量ETL工具,PowerQuery的确可以让我们享受许多数据处理的便利,无需专业的能力,大部分仅需通过界面的操作即可完成,无可否认PowerQuery的使用体验是非常棒的。 甚至很多在SSIS这样专业级ETL工具上实现起来繁琐的任务,在PowerQuery上可以非常流畅地完成如逆透视,简单网页抓取,空值填充,行列转置等。 但PowerQuery的局限性也是非常明显的。 首先,它的性能是非常容易出现瓶颈的,虽然数据处理逻辑很清晰,但就是要忍受漫长的等待时间,很多时候,数据量级别稍大一些,单单这点就要否决使用PowerQuery方案。 其实,对某些数据ETL它是有缺陷的,例如不能扩展性地使用正则表达式处理字符串数据; 最后,它很大的弊端是目标数据只能进入到PowerPivot层面