kettle

MaxCompute数据的上传下载

放肆的年华 提交于 2020-04-13 18:24:13
【今日推荐】:为什么一到面试就懵逼!>>> Tunnel Tunnel通常用来将本地的数据上传到maxcompute或将maxcompute数据下载到本地 1、MaxCompute数据的上传和下载 MaxCompute系统上传/下载数据包括两种方式 DataHub实时数据通道 Tunnel批量数据通道 OGG插件 大数据开发套件 Flume插件 DTS LogStash插件 Sqoop Fluentd插件 Kettle插件 MaxCompute客户端 Tunnel查看帮助信息 不带参数的tunnel或tunnel help查看帮助信息 也可tunnel help upload Available subcommands: upload 支持文件或目录(只一级目录)的上传; 每一次上传只支持数据上传到一个表或表的一个分区; 有分区的表一定要指定上传的分区,示例如下: tunnel upload d:testp1.txt yunxiang_01.t_test_p/gender='male' tunnel upload d:test yunxiang_01.t_test_p/gender='male' --scan=only 注释:yunxiang_01为项目; t_test_p为表;gender='male'为分区类;--scan=only表示只扫码数据不导入数据。 download

kettle 连接 mysql8

点点圈 提交于 2020-04-06 05:51:56
kettle默认使用的是org.gjt.mm.mysql.Driver,而mysql 8.0以上connector已经不再支持这个包名; 即使将mysql-connector-java-8.0.xx.jar包拷贝到data-integration/lib目录下,还是报错找不到驱动; 所以要用jndi方法配置kettle,用com.mysql.cj.jdbc.Driver作为驱动。 com.mysql.cj.jdbc.Driver兼容JDK8环境,不兼容JDK7环境,JDK版本不匹配时连接也会出错,如果服务器上JDK版本较低 要升级下 更新jdbc.properties文件,在simple-jndi目录下,新增新增jndi配置: Linux下则 vi data-integration/simple-jndi/jdbc.properties Myslq8_DB/type=javax.sql.DataSource Myslq8_DB/driver=com.mysql.cj.jdbc.Driver Myslq8_DB/url=jdbc:mysql://db_ip:3306/db_name?useUnicode=true&characterEncoding=UTF-8&allowMultiQueries=true&serverTimezone=Asia/Shanghai Myslq8_DB

Kettle中通过触发器方式实现数据 增量更新

穿精又带淫゛_ 提交于 2020-03-18 04:21:22
在使用Kettle进行数据同步的时候, 共有 1.使用时间戳进行数据增量更新 2.使用数据库日志进行数据增量更新 3.使用触发器+快照表 进行数据增量更新 今天要介绍的是第3中方法。 实验的思路是这样的,在进行数据同步的时候, 源数据表为A表, A表要对 目标表(target table) B 表和C表进行数据的同步更新。 即A表中的对应字段发生变化之后, 会通过触发器将对应变化的字段在A表中的主键值写入到一个临时表temp中(该表作为快照表使用)。 快照表中只有两个字段,一个是temp_id,是快照表的主键,另一个是 A_id,记录的是在A表中发生变化的字段对应的主键的值。 temp( temp_id int primary key auto_increment , A_id int ); 接下来,通过对快照表temp进行扫描,把在B表和C表中出现的与temp表中与A_id相匹配的字段, 从B,C两个目标表中进行移除。 在接下来,让A表作为源 让B和C作为目标 对B,C做插入/更新操作; 这样就实现了A表对B,C两个表的更新,在后续的操作中可以使用SQL语句将 temp表, 以及触发器进行 drop操作,以免其浪费内存资源。 在创建 trigger的时候,只要针对A表的 删除、 更新操作进行创建trigger 即可。 下面来分析一下,对A表进行的不同操作的情况: 1

kettle 读入 MongoDB 数据

这一生的挚爱 提交于 2020-03-15 19:47:55
  经过测试发现,如果 MongoDB 需要验证的话,kettle 的 “MongoDB input” 组件是无法连接 MongoDB 的。   (kettle 6.1 以及以下,如果你的连接成功了,请指教,谢谢,QQ:415426435)   那么我们怎么用 kettle 读入 MongoDB 的数据呢,笔者是如下操作的。 第一步:把 MongoDB 的数据导出成 JSON 文件   参考链接:http://www.cnblogs.com/wanggs/p/5737402.html 第二步:把第一步的操作设置成定时任务   参考链接:http://www.cnblogs.com/wanggs/p/5740163.html 第三步:读取 JSON 文件   经过测试发现,kettle 无法直接读取 MongoDB 导出的 JSON 文件。(参考链接:http://blog.csdn.net/hubeilihao/article/details/43567815) json 文件如下: {"_id":{"$oid":"57a2151ee4b04c98a83e27aa"},"content":{"localIP":"172.*.*.26","remoteIP":"171.*.*.166","timestamp":"2016-08-04 00:00:29"},"funcNo":

kettle的安装和使用

你离开我真会死。 提交于 2020-03-12 10:54:52
kettle被很多中小企业使用,且常常结合ERP系统、内部系统,低成本打通内外部系统的业务。 kettle是一款开源工具,更多用于数据同步,支持SQL配置、请求转发、读写数据库的功能,也有很多拓展的内部函数使用。基于JAVA开发的工具,本身也支持java的一些属性,所以强依赖于JDK。 kettle是通过工作流的方式,定义业务需要实现的节点进行拆解和实现,学习成本低,易上手。 其实我第一个关心的是性能,其次才是实现,作为开源工具,功能实现基本符合业务,应该没有太大问题。对于大业务量抽数需要重点评估,以免做了无用功。所以这里重点描述一下如何做调优 Kettle 调优 1 、 调整 JVM 大小进行性能优化,修改 Kettle 定时任务中的 Kitchen 或 Pan或Spoon 脚本。 修改脚本代码片段 set OPT=-Xmx512m -cp %CLASSPATH% -Djava.library.path=libswt\win32\ -DKETTLE_HOME="%KETTLE_HOME%" -DKETTLE_REPOSITORY="%KETTLE_REPOSITORY%" -DKETTLE_USER="%KETTLE_USER%" -DKETTLE_PASSWORD="%KETTLE_PASSWORD%" -DKETTLE_PLUGIN_PACKAGES="%KETTLE

kettle工具的介绍和使用

橙三吉。 提交于 2020-03-12 09:46:35
kettle详解(数据抽取、转换、装载) 原文地址链接: https://blog.csdn.net/qq_35731570/article/details/71123413 一:下载路径 当你要学习一个工具时,往往一开始就找不到下载路径,也不知道是为什么,连个官网都找不到,最后还是问的别人要的路径,做程序好心酸。 http://community.pentaho.com/projects/data-integration 下载路径 二:学习 kettle是什么? ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。kettle支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们的工作效率. Kettle是一款国外开源的ETL工具,纯 Java 编写,可以在Window、 Linux 、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

ETL利器Kettle实战应用解析系列一【Kettle使用介绍】

醉酒当歌 提交于 2020-03-12 09:46:12
本文主要阅读目录如下: 1、Kettle概念 2、下载和部署 3、Kettle环境配置 4、Kettle使用及组件介绍 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我介绍一个我在工作中使用了3年左右的ETL工具Kettle,本着好东西不独享的想法,跟大家分享碰撞交流一下!在使用中我感觉这个工具真的很强大,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们的工作效率,不过对于我这个.net研发者来说唯一的遗憾就是这个工具是Java编写的。 1、Kettle概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

ETL利器Kettle实战应用解析系列一【Kettle使用介绍】

匆匆过客 提交于 2020-03-12 09:45:56
: 一、ETL利器Kettle实战应用解析系列一【Kettle使用介绍】 二、ETL利器Kettle实战应用解析系列二 【应用场景和实战DEMO下载】 三、ETL利器Kettle实战应用解析系列三 【ETL后台进程执行配置方式】 本文主要阅读目录如下: 1、Kettle概念 2、下载和部署 3、Kettle环境配置 4、Kettle使用及组件介绍 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我介绍一个我在工作中使用了3年左右的ETL工具Kettle,本着好东西不独享的想法,跟大家分享碰撞交流一下!在使用中我感觉这个工具真的很强大,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们的工作效率,不过对于我这个.net研发者来说唯一的遗憾就是这个工具是Java编写的。 1、Kettle概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶

ETL利器Kettle实战应用解析系列一【Kettle使用介绍】

為{幸葍}努か 提交于 2020-03-12 09:45:18
本系列文章主要索引如下: 一、ETL利器Kettle实战应用解析系列一【Kettle使用介绍】 二、ETL利器Kettle实战应用解析系列二 【应用场景和实战DEMO下载】 三、ETL利器Kettle实战应用解析系列三 【ETL后台进程执行配置方式】 本文主要阅读目录如下: 1、Kettle概念 2、下载和部署 3、Kettle环境配置 4、Kettle使用及组件介绍 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据 的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我介绍一个我在工作中使用了3年左右的ETL工具Kettle,本着好东西不独 享的想法,跟大家分享碰撞交流一下!在使用中我感觉这个工具真的很强大,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的 数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们 的工作效率,不过对于我这个.net研发者来说唯一的遗憾就是这个工具是Java编写的。 1、Kettle概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。

ETL利器Kettle实战应用解析系列一【Kettle使用介绍】

梦想与她 提交于 2020-03-12 09:44:41
本系列文章主要索引如下: 一、ETL利器Kettle实战应用解析系列一【Kettle使用介绍】 二、ETL利器Kettle实战应用解析系列二 【应用场景和实战DEMO下载】 三、ETL利器Kettle实战应用解析系列三 【ETL后台进程执行配置方式】 本文主要阅读目录如下: 1、Kettle概念 2、下载和部署 3、Kettle环境配置 4、Kettle使用及组件介绍 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我介绍一个我在工作中使用了3年左右的ETL工具Kettle,本着好东西不独享的想法,跟大家分享碰撞交流一下!在使用中我感觉这个工具真的很强大,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们的工作效率,不过对于我这个.net研发者来说唯一的遗憾就是这个工具是Java编写的。 1、Kettle概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle