pentaho | 易学教程

KETTLE-Hadoop文件数据抽取及输出

阅读更多关于 KETTLE-Hadoop文件数据抽取及输出

一、需求说明将源表（T_USER）中的用户信息同步到Hadoop中，然后再抽取Hadoop文件中数据到文本文件中。二、启动kettle 双击 Spoon.bat 就能启动 kettle 。三、创建转换 1.Hadoop集群配置说明首先需要从hadoop集群中（/../hadoop-3.1.2/etc/hadoop）复制core-site.xml，hdfs-site.xml，yarn-site.xml，mapred-site.xml文件到shim文件夹中(..\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514)，替换已有的文件。注意要修改这些配置文件。比如hadoop节点的地址是不是正确等。由于core-site. xml 里面用的 hostname 连接的，而我们配置的时候用的 ip，所以需要修改core-site.xml为ip,然后重启Spoon。由于Hadoop权限管理是弱管理，此处用户名和密码可以缺省。不过往Hadoop创建文件需要进行权限鉴证，所以此处修改Hadoop中的core-site.xml文件如下所示，表示不经过任何验证，所有用户拥有全部权限。(修改此配置需要重启hadoop)： <property> <name>hadoop.security

kettle报错couldn't convert string [1970-01-01 00:00:00] to a date using format [yyyy/MM/dd HH:mm:ss.SS

阅读更多关于 kettle报错couldn't convert string [1970-01-01 00:00:00] to a date using format [yyyy/MM/dd HH:mm:ss.SS

报错的主要内容如下，意思很清楚，就是不能报那个日期字符串转化成日期，可是，很明显，格式是正确的 2020/04/10 15:12:12 - 插入 / 更新.0 - ERROR (version 8.2.0.0-342, build 8.2.0.0-342 from 2018-11-14 10.30.55 by buildguy) : Error in step, asking everyone to stop because of: 2020/04/10 15:12:12 - 插入 / 更新.0 - ERROR (version 8.2.0.0-342, build 8.2.0.0-342 from 2018-11-14 10.30.55 by buildguy) : org.pentaho.di.core.exception.KettleValueException: 2020/04/10 15:12:12 - 插入 / 更新.0 - Date : Unable to compare with value [String(100)] 2020/04/10 15:12:12 - 插入 / 更新.0 - 2020/04/10 15:12:12 - 插入 / 更新.0 - birthdate_1_1 String(100) : couldn't convert string [1978

requests: RecursionError: maximum recursion depth exceeded

阅读更多关于 requests: RecursionError: maximum recursion depth exceeded

问题 I am using Python 3.6.5 on the following remote server setup: Server: Windows 10 Python: 3.6.5 Requests: 2.18.4 Pentaho: 8.0 When I run request.get against URLs in the server's command prompt, it gets the JSON as expected: >>> import requests >>> response = requests.get(url, headers=headers) >>> json = response.json() >>> print(json) {'d': {'results': [{'_ ... However when I run the same script in CPython for Pentaho 8.0, I get RecursionError: maximum recursion depth exceeded Full log: 2018

过去的2017和已经到来的2018

阅读更多关于过去的2017和已经到来的2018

忙碌且充实的2017年一、写个前言　　看看博客园，好多园友都在写年终总结和下年计划，无法抚平心中的冲动，不写写总结，不写写规划，总感觉还不如一条咸鱼。二、关于工作　　目前任职于山西某大型超市信息中心，懂点业务，会点技术，算是尽心尽职且忙忙碌碌的一年，除了日常工作外，重点参与了两个项目：　　　　1、数据报表项目，通过项目学会了Kettle、SSIS工具传输数据；　　　　2、新零售转型项目，项目依然在进行中，项目中主要和第三方软件公司（厦门公司）的开发工程师对接接口，了解零售行业的园友们应该知道，无非就是些商品信息、库存、价格等基础资料；对接过程中，对厦门工程师的印象极好，敬业、专注；当然在对接过程自身水平还是有明显进步的，对平时接触不到的业务有所了解，当然T-SQL写的更溜了，哈哈。三、关于生活　　生活方面喜讯更多一点：　　　　1、新房在年初装修好了，国庆的时候搬了进去。　　　　2、小棉袄在11月初出生了，家里突然多了个小娃，手忙脚乱的。四、关于读书　　虽然干着IT边缘的工作，感觉在周围同事里水平算好的，但比起纯粹的开发或者专业人士，总是感觉差了点，有一种温水煮青蛙的感觉。应该好好的反思吧。　　专业书籍　　　　《收获，不止Oracle》（0.3，书写的通俗易懂，应该在2018年继续看完）　　　　　　　　　　　　《图灵程序设计丛书：C

Kettle中JavaScript内置函数说明

阅读更多关于 Kettle中JavaScript内置函数说明

本文链接： https://blog.csdn.net/u010192145/article/details/102220563 我们在使用JavaScript组件的时候,在左侧核心树对象栏中可以看到Kettle为我们提供了很多简洁强大的内置函数,帮助我们在写脚本的时候对数据、参数变量等能很轻松的做处理,体验编码的感觉.本篇将详细介绍JavaScript组件中的函数功能脚本组件包含的函数主要包括六大类,分别是：字符串类型的函数(String Functions) 浮点型的函数(Numeric Functions) 日期类型函数(Date Functions) 逻辑判断型函数(Logic Functions) 特殊的函数(Special Functions) 文件处理类函数(File Functions) 字符串类型函数(String Functions) 顾名思义,字符串类型的函数肯定是针对字符串类型的参数、变量进行处理操作的函数日期转字符串( date2str ) 日期转字符串函数date2str主要有4个方法,分别是： date2str(date):传入日期实例,转换成字符串类型 date2str(date,format):传入日期和格式化参数,进行格式化转换 date2str(date,format,iso):传入日期和参数格式化及ISO代码进行转换,(DE =

ETL定义、四大模块及子系统说明

阅读更多关于 ETL定义、四大模块及子系统说明

ETL定义、四大模块及子系统说明 ——《Pentaho Kettle解决方案》读书笔记罗小川目前公司正在进行数据仓库的建设的前期需求整理和项目启动阶段，想简单来谈一下自己对目前公司在用的 ODS的kettle ETL的理解，针对日常运维中遇到的问题结合本书介绍的ETL子系统的建立可以更好的解决目前我们公司ODS系统的运维和运行效率问题，同时对后期数仓ETL的整体设计和四大组建进行梳理，笔记中有些内容直接引用原书。一、什么是 ETL ETL：抽取、转换和加载。将数据从OLTP系统中转移到数据仓库中的一系列操作的集合。抽取：一般抽取过程需要连接到不同的数据源，以便为随后的步骤提供数据。这一部分看上去简单而琐碎，实际上它是 ETL解决方案成功实施的一个主要障碍。转换：在抽取和加载之间，任何对数据的处理过程都是转换。这些处理过程通常包括（但不限于）下面一些操作： 1.移动数据 2.根据规则验证数据 3.数据内容和数据结构的修改 4.集成多个数据源的数据 5.根据处理后的数据计算派生值和聚集值加载：将数据机载到目标系统的所有操作。加载并不仅仅是将数据批量装载到目标表。加载过程还包括对代理键的管理和对维度表的管理等。 ELT（抽取、加载和转换）同ETL在数据整合的方法上略微不同。ELT下，数据首先从数据源进行抽取，加载到目标数据库中，再转换为所需要的格式

项目知识学习篇———数据清洗之kettle以及集成到java项目

阅读更多关于项目知识学习篇———数据清洗之kettle以及集成到java项目

一、kettle工具下载链接: https://pan.baidu.com/s/13Mx-QJkY-5dY-nDIpuZAzw 提取码: x146 pdi-ce-8.1.0.0.zip就是kettle软件下载之后解压进入文件夹根目录点击Spoon.bat就能开启客户端二、kettle使用 1.需要连接上两个数据库一个是你想要copy的库还有一个是你自己的库我这里是需要从一个oracle库拿到数据然后放入到我这边的mysql数据库 2.右键DB连接新建连接 3.我这里使用的是oracle和mysql需要两个连接包在我网盘链接里有 ojdbc14-10.2.0.2.0.jar和mysql-connector-java-5.1.41.jar 拷贝放入到kettle的lib下上一步就可连接成功 4.然后就是两个库的关联映射点击文件---新建----转换将以下两个表输入和插入/更新拖到转换之中用shift将两个连接起来效果如下 5.点击表输入连接上你想要拷贝数据库的源数据库获取sql语句就是查询你想要的表的数据 6.点击插入更新连接上你的本地数据库浏览找到对应表关联上两个表的唯一标示id 类似主键关联 kettle根据这个判断插入还是更新然后下面关联上你想要更新的字段点确定就可以跑起来了 7.这样你就可以从一个库同步数据到你的库

什么是大数据

阅读更多关于什么是大数据

1，什么是大数据简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。 2，大数据最核心的价值大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言，大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。 3，大数据处理分析的六大最好工具 Apache Hadoop ： Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点： ⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 ⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。 ⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。 ⒋高容错性。Hadoop能够自动保存数据的多个副本

选开源报表开发还是商用?2020报表软件产品整理

阅读更多关于选开源报表开发还是商用?2020报表软件产品整理

3 月，跳不动了？>>> 开源报表却越来越受到程序员热烈追捧，如ireport、 Jsper report、jfreechart这样的免费，开源的JAVA报表工具，在一下开源的JAVA报表相关的论坛里面都是热火朝天，发问者众多。发现都会有利有弊，近因为公司需求的原因，我上网查找了好多报表工具和试用体验，下面是我向大家推荐5个开源报表工具。 1.iReport iReport是为JasperReports设计的强大的，直观的，易于使用的可视化报表设计器，用Visual J++为Win32平台编写。iReport允许用户可视化地编辑XML JasperDesign文件，可以和其它数据库通过JDBC通信。在设计模板时可以以Html、Excel、Pdf等多种方式进行预览；用它生成的文件有.jrxml、.jasper两种文件，其中.jrxml就是我们设计时可视化编辑的xml文件，.jasper是经过编译.jrxml后生成的类文件，也就是我们最终在项目中用的报表模板文件。 2. JasperReport JasperReports是一个基于Java的开源报表工具，基于GPL开源许可协议, 完全采用java编写, 支持多种数据源，可打印或导出多种文件格式，支持PDF、HTML、XLS、CSV和XML文件输出格式。JasperReports是当前Java开发者最常用的报表工具。

Kettle远程debug

阅读更多关于 Kettle远程debug

if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m" "-XX:MaxPermSize=256m" -Xdebug -Xnoagent -Djava.compiler=NONE -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=1044 来源： oschina 链接： https://my.oschina.net/goudingcheng/blog/3166303

订阅 pentaho