一. DataX 3.0 概览
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
- 设计理念
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
2.安装
将下载后的压缩包直接解压后可用,前提是对应的java及python环境满足要求。
- Linux
- Apache Maven 3.x (Compile DataX)
从mysql读取数据打印到控制台
{ "job": { "setting": { "speed": { "channel": 3 }, "errorLimit": { "record": 0, "percentage": 0.02 } }, "content": [ { "reader": { "name": "mysqlreader", "parameter": { "username": "root", "password": "root", "column": [ "*" ], "splitPk": "id", "connection": [ { "table": [ "输入测试的tableName" ], "jdbcUrl": [ "jdbc:mysql://127.0.0.1:3306/database" ] } ] } }, "writer": { "name": "streamwriter", "parameter": { "print":true } } } ] } }
测试步骤:
cd {DataX_source_code_home}/job
vim datax.json //写入配置信息
python {DataX_source_code_home}/bin/datax.py {DataX_source_code_home}/job/datax.json
其他插件的配置过程,后续会继续补充。
文章来源: DataX3.0的安装及小试