kettle的输入组件
1、kettle里面的输入,就是用来抽取数据或生成数据,是ETL操作的E。 2、CSV文件是一种带有固定格式的文本文件。注意:获取字段的时候可以调整自己的字段类型,格式,满足自己的需求哦。 3、文本文件输入,提取日志信息的数据是开发常见的操作,日志信息基本都是文本类型。 首先要获取到要抽取的文本文件哦。 可以选择自己的分隔符哦! 获取字段,如下所示: 4、微软的Excel目前有两种后缀名的文件分别为:xls和xlsx。注意:xls:2007年之前,xlsx:2007年之后。 可以选择自己的Sheet页。 获取到Excel输入的字段,可以手动调整字段类型。 5、多文件合并,数据往往也是以多个文件的形式出现,有的数据还会分散在多个子文件夹。所以合并数据也是开发中非常常见的操作。 6、XML 指可扩展标记语言(EXtensible Markup Language), XML 被设计用来传输和存储数据。 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。 XPath-语法,选取节点 XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式: XPath,路径表达式,示例,如下所示