pentaho

KETTLE-Hadoop文件数据抽取及输出

孤街浪徒 提交于 2020-08-13 06:29:43
一、需求说明 将源表(T_USER)中的用户信息同步到Hadoop中,然后再抽取Hadoop文件中数据到文本文件中。 二、启动kettle 双击 Spoon.bat 就能启动 kettle 。 三、创建转换 1.Hadoop集群配置说明 首先需要从hadoop集群中(/../hadoop-3.1.2/etc/hadoop)复制core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml文件到shim文件夹中(..\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514),替换已有的文件。 注意要修改这些配置文件。比如hadoop节点的地址是不是正确等。由于core-site. xml 里面用的 hostname 连接的,而我们配置的时候用的 ip,所以需要修改core-site.xml为ip,然后重启Spoon。 由于Hadoop权限管理是弱管理,此处用户名和密码可以缺省。不过往Hadoop创建文件需要进行权限鉴证,所以此处修改Hadoop中的core-site.xml文件如下所示,表示不经过任何验证,所有用户拥有全部权限。(修改此配置需要重启hadoop): <property> <name>hadoop.security

kettle报错couldn&apos;t convert string [1970-01-01 00:00:00] to a date using format [yyyy/MM/dd HH:mm:ss.SS

狂风中的少年 提交于 2020-08-10 02:45:40
报错的主要内容如下,意思很清楚,就是不能报那个日期字符串转化成日期,可是,很明显,格式是正确的 2020/04/10 15:12:12 - 插入 / 更新.0 - ERROR (version 8.2.0.0-342, build 8.2.0.0-342 from 2018-11-14 10.30.55 by buildguy) : Error in step, asking everyone to stop because of: 2020/04/10 15:12:12 - 插入 / 更新.0 - ERROR (version 8.2.0.0-342, build 8.2.0.0-342 from 2018-11-14 10.30.55 by buildguy) : org.pentaho.di.core.exception.KettleValueException: 2020/04/10 15:12:12 - 插入 / 更新.0 - Date : Unable to compare with value [String(100)] 2020/04/10 15:12:12 - 插入 / 更新.0 - 2020/04/10 15:12:12 - 插入 / 更新.0 - birthdate_1_1 String(100) : couldn't convert string [1978

requests: RecursionError: maximum recursion depth exceeded

こ雲淡風輕ζ 提交于 2020-08-02 07:37:46
问题 I am using Python 3.6.5 on the following remote server setup: Server: Windows 10 Python: 3.6.5 Requests: 2.18.4 Pentaho: 8.0 When I run request.get against URLs in the server's command prompt, it gets the JSON as expected: >>> import requests >>> response = requests.get(url, headers=headers) >>> json = response.json() >>> print(json) {'d': {'results': [{'_ ... However when I run the same script in CPython for Pentaho 8.0, I get RecursionError: maximum recursion depth exceeded Full log: 2018

过去的2017和已经到来的2018

扶醉桌前 提交于 2020-05-05 22:06:02
忙碌且充实的2017年 一、写个前言    看看博客园,好多园友都在写年终总结和下年计划,无法抚平心中的冲动,不写写总结,不写写规划,总感觉还不如一条咸鱼。 二、关于工作    目前任职于山西某大型超市信息中心,懂点业务,会点技术,算是尽心尽职且忙忙碌碌的一年,除了日常工作外,重点参与了两个项目:     1、数据报表项目,通过项目学会了Kettle、SSIS工具传输数据;     2、新零售转型项目,项目依然在进行中,项目中主要和第三方软件公司(厦门公司)的开发工程师对接接口,了解零售行业的园友们应该知道,无非就是些商品信息、库存、价格等基础资料;对接过程中,对厦门工程师的印象极好,敬业、专注;当然在对接过程自身水平还是有明显进步的,对平时接触不到的业务有所了解,当然T-SQL写的更溜了,哈哈。 三、关于生活    生活方面喜讯更多一点:     1、新房在年初装修好了,国庆的时候搬了进去。     2、小棉袄在11月初出生了,家里突然多了个小娃,手忙脚乱的。 四、关于读书    虽然干着IT边缘的工作,感觉在周围同事里水平算好的,但比起纯粹的开发或者专业人士,总是感觉差了点,有一种温水煮青蛙的感觉。应该好好的反思吧。    专业书籍     《收获,不止Oracle》(0.3,书写的通俗易懂,应该在2018年继续看完)               《图灵程序设计丛书:C

Kettle中JavaScript内置函数说明

♀尐吖头ヾ 提交于 2020-04-26 05:10:26
本文链接: https://blog.csdn.net/u010192145/article/details/102220563 我们在使用JavaScript组件的时候,在左侧核心树对象栏中可以看到Kettle为我们提供了很多简洁强大的内置函数,帮助我们在写脚本的时候对数据、参数变量等能很轻松的做处理,体验编码的感觉.本篇将详细介绍JavaScript组件中的函数功能 脚本组件包含的函数主要包括六大类,分别是: 字符串类型的函数(String Functions) 浮点型的函数(Numeric Functions) 日期类型函数(Date Functions) 逻辑判断型函数(Logic Functions) 特殊的函数(Special Functions) 文件处理类函数(File Functions) 字符串类型函数(String Functions) 顾名思义,字符串类型的函数肯定是针对字符串类型的参数、变量进行处理操作的函数 日期转字符串( date2str ) 日期转字符串函数date2str主要有4个方法,分别是: date2str(date):传入日期实例,转换成字符串类型 date2str(date,format):传入日期和格式化参数,进行格式化转换 date2str(date,format,iso):传入日期和参数格式化及ISO代码进行转换,(DE =

ETL定义、四大模块及子系统说明

我只是一个虾纸丫 提交于 2020-04-25 04:16:03
ETL定义、四大模块及子系统说明 ——《Pentaho Kettle解决方案 》读书笔记 罗小川 目前公司正在进行数据仓库的建设的前期需求整理和项目启动阶段,想简单来谈一下自己对目前公司在用的 ODS的kettle ETL的理解,针对日常运维中遇到的问题结合本书介绍的ETL子系统的建立可以更好的解决目前我们公司ODS系统的运维和运行效率问题,同时对后期数仓ETL的整体设计和四大组建进行梳理,笔记中有些内容直接引用原书。 一、什么是 ETL ETL: 抽取、转换和加载。将数据从OLTP系统中转移到数据仓库中的一系列操作的集合。 抽取:一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是 ETL解决方案成功实施的一个主要障碍。 转换:在抽取和加载之间,任何对数据的处理过程都是转换。这些处理过程通常包括(但不限于)下面一些操作: 1.移动数据 2.根据规则验证数据 3.数据内容和数据结构的修改 4.集成多个数据源的数据 5.根据处理后的数据计算派生值和聚集值 加载:将数据机载到目标系统的所有操作。加载并不仅仅是将数据批量装载到目标表。加载过程还包括对代理键的管理和对维度表的管理等。 ELT(抽取、加载和转换)同ETL在数据整合的方法上略微不同。ELT下,数据首先从数据源进行抽取,加载到目标数据库中,再转换为所需要的格式

项目知识学习篇———数据清洗之kettle以及集成到java项目

久未见 提交于 2020-04-25 03:14:23
一、kettle工具下载 链接: https://pan.baidu.com/s/13Mx-QJkY-5dY-nDIpuZAzw 提取码: x146 pdi-ce-8.1.0.0.zip就是kettle软件 下载之后解压 进入文件夹根目录点击Spoon.bat就能开启客户端 二、kettle使用 1.需要连接上两个数据库 一个是你想要copy的库 还有一个是你自己的库 我这里是需要从一个oracle库拿到数据 然后放入到我这边的mysql数据库 2.右键DB连接 新建连接 3.我这里使用的是oracle和mysql需要两个连接包 在我网盘链接里有 ojdbc14-10.2.0.2.0.jar和mysql-connector-java-5.1.41.jar 拷贝放入到kettle的lib下上一步就可连接成功 4.然后就是两个库的关联映射 点击文件---新建----转换 将以下两个 表输入和插入/更新拖到转换之中 用shift将两个连接起来 效果如下 5.点击表输入 连接上你想要拷贝数据库的源数据库 获取sql语句就是查询你想要的表的数据 6.点击 插入更新 连接上你的本地数据库 浏览找到对应表 关联上两个表的唯一标示id 类似主键关联 kettle根据这个判断插入还是更新 然后下面关联上你想要更新的字段点确定就可以跑起来了 7.这样你就可以从一个库同步数据到你的库

什么是大数据

ぐ巨炮叔叔 提交于 2020-04-05 23:45:23
1,什么是大数据 简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。 2,大数据最核心的价值 大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。 3,大数据处理分析的六大最好工具 Apache Hadoop : Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区 服务器 ,因此它的成本比较低,任何人都可以使用。 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点: ⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 ⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。 ⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 ⒋高容错性。Hadoop能够自动保存数据的多个副本

选开源报表开发还是商用?2020报表软件产品整理

不羁岁月 提交于 2020-03-21 03:20:50
3 月,跳不动了?>>> 开源报表却越来越受到程序员热烈追捧,如ireport、 Jsper report、jfreechart这样的免费,开源的JAVA报表工具,在一下开源的JAVA报表相关的论坛里面都是热火朝天,发问者众多。发现都会有利有弊,近因为公司需求的原因,我上网查找了好多报表工具和试用体验,下面是我向大家推荐5个开源报表工具。 1.iReport iReport是为JasperReports设计的强大的,直观的,易于使用的可视化报表设计器,用Visual J++为Win32平台编写。iReport允许用户可视化地编辑XML JasperDesign文件,可以和其它数据库通过JDBC通信。在设计模板时可以以Html、Excel、Pdf等多种方式进行预览;用它生成的文件有.jrxml、.jasper两种文件,其中.jrxml就是我们设计时可视化编辑的xml文件,.jasper是经过编译.jrxml后生成的类文件,也就是我们最终在项目中用的报表模板文件。 2. JasperReport JasperReports是一个基于Java的开源报表工具,基于GPL开源许可协议, 完全采用java编写, 支持多种数据源,可打印或导出多种文件格式,支持PDF、HTML、XLS、CSV和XML文件输出格式。JasperReports是当前Java开发者最常用的报表工具。

Kettle远程debug

旧巷老猫 提交于 2020-02-27 03:13:34
if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m" "-XX:MaxPermSize=256m" -Xdebug -Xnoagent -Djava.compiler=NONE -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=1044 来源: oschina 链接: https://my.oschina.net/goudingcheng/blog/3166303