kettle

django定时运行kettle脚本进行数据迁移

半城伤御伤魂 提交于 2020-01-28 11:47:34
Djiango定时服务: 用django-crontab模块: https://pypi.org/project/django-crontab/ 测试时别用print()命令,输不出东西的,可以生成log日志进行测试 python执行kettle脚本: import os os.system('/usr/BigData/data-integration/kitchen.sh -file=/home/qel/Desktop/kettle_job/mongoToHbase/ID_xml.kjb ') 必须时job才能执行,transfer不能执行 把这个写进定时的函数里即可。 来源: CSDN 作者: BY@QEL 链接: https://blog.csdn.net/weixin_40532625/article/details/103810796

使用kettle链接数据库的问题

我只是一个虾纸丫 提交于 2020-01-26 17:39:43
工作地点JYKL:赢华国际广场 问题时间:2020.01.17 1.kettle链接数据库做表级数据抽取时,本地kettle没有安装mysql数据库驱动器。 第一次遇到这种情况,之前没有搞过,从问题出现到解决耗时3天(有点慢)。 下载: mysql-connector-java-5.1.41.tar ,解压文件中.jar文件复制到kettle的路径下。 以上。 来源: CSDN 作者: bysswm 链接: https://blog.csdn.net/bysswm/article/details/104087719

【实战】使用 Kettle 工具将 mysql 数据增量导入到 MongoDB 中

荒凉一梦 提交于 2020-01-24 23:39:22
最近有一个将 mysql 数据导入到 MongoDB 中的需求,打算使用 Kettle 工具实现。本文章记录了数据导入从0到1的过程,最终实现了每秒钟快速导入约 1200 条数据。一起来看吧~ 一、Kettle 连接图 简单说下该转换流程,增量导入数据: 1)根据 source 和 db 字段来获取 MongoDB 集合内 business_time 最大值。 2)设置 mysql 语句 3)对查询的字段进行改名 4)过滤数据:只往 MongoDB 里面导入 person_id,address,business_time 字段均不为空的数据。 符合过滤条件的数据,增加常量,并将其导入到 mongoDB 中。 不符合过滤条件的数据,增加常量,将其导入到 Excel 表中记录。 二、流程组件解析 1、MongoDB input 1)Configure connection Host name(s) or IP address(es):网络名称或者地址。可以输入多个主机名或IP地址,用逗号分隔。还可以通过将主机名和端口号与冒号分隔开,为每个主机名指定不同的端口号,并将主机名和端口号的组合与逗号分隔开。例如,要为两个不同的MongoDB实例包含主机名和端口号,您将输入localhost 1:27017,localhost 2:27018,并使 Port 字段为空。 Port:端口号

04 ,kettle 集成 jar 包,上传文件到 S3 ,发消息给 sqs ,异常处理 ,

心不动则不痛 提交于 2020-01-23 23:54:45
1 ,异常处理 : 报错 : kettle 报错 java.lang.NoSuchMethodError: org.joda.time.format.DateTimeFormatter.withZoneUTC()Lorg/joda/time/format/DateTimeFormatter; 原因 : 1 ,包不存在 : 排除了,因为在别处运行没问题,只在 kettle 运行有问题 2 ,包冲突 : 确定就是这个问题 3 ,解决办法 : 排除 S3 中的这个时间包 < dependency > < groupId > com.amazonaws </ groupId > < artifactId > aws-java-sdk-s3 </ artifactId > < version > 1.11.636 </ version > <!-- 排除重复包 --> < exclusions > < exclusion > < groupId > joda-time </ groupId > < artifactId > joda-time </ artifactId > </ exclusion > </ exclusions > </ dependency > 2 ,java 代码 : 来源: CSDN 作者: 孙砚秋 链接: https://blog.csdn.net/qq

Kettle学习

妖精的绣舞 提交于 2020-01-20 01:14:16
kettle连接mysql 从今天开始学习kettle,版本pdi-ce-8.3.0.0-371(安装在D:\pdi-ce-8.3.0.0-371),安装后先测试连接mysql-8.0.15. 1、需要下载mysql8.0.15驱动包“mysql-connector-java-8.0.15.jar”,并放入D:\pdi-ce-8.3.0.0-371\data-integration\lib目录下。 2、修改D:\pdi-ce-8.3.0.0-371\data-integration\simple-jndi目录下jdbc.properties文件,在末尾添加连接到我的数据库的配置: MYSQL8_DB/type=javax.sql.DataSource MYSQL8_DB/driver=com.mysql.cj.jdbc.Driver MYSQL8_DB/url=jdbc:mysql://localhost:3306/testdb?useUnicode=true&characterEncoding=utf8&useSSL=false&serverTimezone=GMT MYSQL8_DB/user=root MYSQL8_DB/password=password testdb:我的mysql数据库。 3、启动spoon,测试连接成功。 以上内容借鉴了网络的资料。 来源: CSDN

kettle安装部署及使用MySQL转DB2

穿精又带淫゛_ 提交于 2020-01-18 08:01:11
下载kettle 下载MySQL和DB2的驱动,解压驱动到文件夹lib下(驱动网上都可以找到) 双击运行kettle,时间会有点长,稍等1,2分钟左右 双击运行kettle,时间会有点长,稍等1,2分钟左右 进入kettle界面,转换输入表输入(按住‘表输入’往右边拖) 双击右边的‘表输入’进入配置数据库信息,点击新建,类型选择MySQL数据库 为了防止中文乱码,指定字符集characterEncoding utf8, 在kettle的启动文件添加字符集,即在 Spoon.bat 文件中添加 “-Dfile.encoding=UTF-8” 配置好后点击‘测试‘,如下图显示是为正常 点击获取SQL查询语句,选择对应的表之后(每次只能指定一张表),方可预览表中数据 同上,“表输入”配置完毕,接下来可配置“插入/更新”,输出->插入/更新(按住‘插入/更新’往右边拖),按住shift点击‘表输入‘再点击’插入/更新‘建立联系 双击‘插入/更新‘进行数据库配置,在’选项‘中配置utf8字符集(同上) 点击测试 选择‘目标模式‘、’目标表‘(每次只能指定一张表),点击’获取字段‘、’获取和更新字段‘是mysql表字段与之匹配 增量转换 首先获取某个字段的最大值,然后把这个值作为下个‘表输入’的条件 SELECT coalesce(max(字段名),0) maxId FROM 库名.表名

pentaho: error (stderr) =256m“”==“” was unexpected at this time. while calling kitchen command (dos command using shell script job entry) from job

坚强是说给别人听的谎言 提交于 2020-01-17 03:44:13
问题 I am getting following error while executing shell script in job (execute job inside script on windows platform) Blockquote 2015/05/20 12:24:56 - Shell - ERROR (version 5.2.0.0, build 1 from 2014-09-30_19-48-28 by buildguy) : (stderr) =256m""=="" was unexpected at this time. Please find link for job j_test.kjb [https://www.dropbox.com/s/0hf2yl09qo5x0f1/j_test.kjb?dl=0][1] i need to work on this, any hints will be appreciated 来源: https://stackoverflow.com/questions/30366219/pentaho-error

Pentaho Kettle split CSV into multiple records

这一生的挚爱 提交于 2020-01-16 06:41:09
问题 I'm new to Kettle, but getting on well with it so far. However I can't figure out how to do this. I have a csv which looks something like this a, col1, col2, col3 a, col1, col2, col3 a, col1, col2, col3 b, col1, col2, col3 b, col1, col2, col3 c, col1, col2, col3 c, col1, col2, col3 The first column starts with a key (a,b,c), and then the rest of the columns follow. What I want to do is read in the csv (got that covered) and then split the csv based on key, so I have 3 chunks/ groups of data

Kettle 学习笔记 — 界面

匆匆过客 提交于 2020-01-14 17:56:04
一、基础环境 操作系统:Windows 10 64位 Kettle版本:8.3.0.0 二、界面介绍 1、主界面 故障现象A:有时候主界面右上角的不显示【 Connect 】按钮。 故障现象B:在执行转换的时候后台报: Invalid byte 1 of 1-byte UTF-8 sequence 错误。 原因分析:在 kettle 的 配置文件 中存在 中文字符 ,导致 配置文件乱码 。 解决方案:请检查:C:\Users\%username%\.kettle\repositories.xml 、%kettle_home%\.kettle\repositories.xml 、%kettle_home%\.kettle\shared.xml 等文件中是否存在乱码,如果存在乱码,就将乱码内容删除。然后将同目录下的 .spoonrc 及 db.cache-* (*为 kettle 的版本号) 删除。重新运行 Spoon.bat 即可。 2、转换的核心对象 3、作业的核心对象 来源: CSDN 作者: 杨群 链接: https://blog.csdn.net/u011046671/article/details/103826804

Kettle下实现Excel数据导入导oracle数据库

会有一股神秘感。 提交于 2020-01-14 04:57:24
一、安装kettle 1. 解压下载下的压缩包,不需要安装 然后找到.bat批处理文件Spoon双击运行,运行过程中会出现命令提示符,运行成功后如下图所示; 二 Kettle软件的使用 打开软件之后然后在右边主对象树进行新建 双击“转换”; 点击页签"核心对象",展开"输入"列表将"Excel输入"模块拖入右侧空白区域; 双击“Excel输入”模块,展开Excel输入配置界面 在弹出框中选择“表格类型”为“Excel 2007 XLSX (Apache POI)”; 点击“文件或目录“后的“浏览”选择需要导入的Excel表格,点击“增加”添加至选中文件列表中; 单击“工作表”,在工作表页面选择“获取工作表名称”,选择相应的“可用项目”添加至“你的选择”中; 把number改为string类型 三 展开"输入"列表将"表输出"模块拖入右侧空白区域; 双击“表输出”展开“表输出”链接配置页面; 我的压缩包里面已经导入了oracle驱动 如果没有连接会报错 在“选型中”命名参数中填入“characterEncoding”,值中填入“utf8或gbk”,可以解决数据导入后中文乱码的问题; “目标表”后面的“浏览”,在“数据库浏览器”中选择事先在数据库中建好的表 可以直接把表名放进去 然后把2个模块连接起来 也可以按住Shift按键将两个模块依次连接起来 配置好后即可进行转换