datax

DataX配置

痞子三分冷 提交于 2020-03-02 21:36:38
环境: 安装DataX需要JDK和Python2 我们现在一般是有JDK和Python3,所以我们只需要把Python2安装上就好了 Windows同时安装python2和python3教程: https://mubu.com/doc/2ieZ3nVYpYr 安装 DataX下载地址: http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz (点这个就可以直接下载压缩包了) 然后解压 测试 Win+R/cmd/回车进入DOS命令   为了防止乱码,先输入: CHCP 65001 。    cd命令进入datax的bin。//输入 d: 回车 输入 cd 00000\datax\bin 回车。 (00000代表你自己Datax解压后的路径)   输入 python2 00000\datax\bin\datax.py 00000\datax\job\job.json 回车,   //如果你的python2中python.exe没有改名 就输 python 00000\datax\bin\datax.py 00000\datax\job\job.json    输入截图: 结果截图: 来源: https://www.cnblogs.com/wxy2000/p/12397849.html

datax的安装使用

人盡茶涼 提交于 2020-03-01 20:24:23
大数据同步技术 datax 安装链接 https://github.com/alibaba/DataX 配置 python2,jdk1.8 第一步命令查看配置模板: cd D:\DataX\datax\bin d: python2 datax.py -r mysqlreader -w mysqlwriter json模板 { "job": { "setting": { "speed": { "channel": 1 } }, "content": [ { "reader": { "name": "txtfilereader", "parameter": { "path": ["F:/作业.txt"],//文本路径 "encoding": "gbk", "column": [//文本列 { "index": 0, "type": "string" }, { "index": 1, "type": "string" } ], "fieldDelimiter": ",",//文件分隔符号 "skipHeader": "true" } }, "writer": { "name": "mysqlwriter", "parameter": { "writeMode": "insert", "username": "root", "password": "199126", "column": [

使用dataX收获的教训

五迷三道 提交于 2020-02-29 22:49:59
首先是安装dataX,安装非常简单,只需下载对应的压缩包即可。 下载地址: https://github.com/alibaba/DataX 首先我出现的第一个错误:命令提示符界面出现出现乱码。 解决方法:     可以在cmd中输入: CHCP 65001 ,然后进行后续操作。 然后我遇到的最大的一个错误: 经DataX智能分析,该任务最可能的错误原因是: com.alibaba.datax.common.exception.DataXException: Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误. 您提供的配置信息不是合法的JSON格式: unclosed string : * . 请按照标准json格式提供配置信息. 然后我百思不得其解,问了几个同学也没有结果,最后发现错误,真是被自己搞笑了。原来是路径写错了,比如该路径 D:/datax/datax/job/data1.csv 而我硬写成了 D:\datax\datax\job\data1.csv 经过上面的教训我终于知道了一般 ‘\'后面加字母都是转义字符,下次肯定不会弄乱了。 读取本地文件写到mysql中代码: 1 { 2 "job": { 3 "content": [ 4 { 5 "reader": { 6 "name":

MaxCompute读取分析OSS非结构化数据的实践经验总结

懵懂的女人 提交于 2020-02-29 11:21:02
摘要: 本文背景 很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的。此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的。 1. 本文背景 很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的。此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的。随着数据量的指数级增长,对超大文本文件的分析越来越成为挑战。好在阿里云的MaxCompute产品从2.0版本开始正式支持了直接读取并分析存储在OSS上的文本文件,可以用结构化查询的方式去分析非结构化的数据。 本文对使用MaxCompute分析OSS文本数据的实践过程中遇到的一些问题和优化经验进行了总结。作为前提,读者需要详细了解MaxCompute读取OSS文本数据的一些基础知识,对这篇官方文档 《访问 OSS 非结构化数据》最好有过实践经验。本文所描述的内容主要是针对这个文档中提到的自定义Extractor做出的一些适配和优化。 2. 场景实践 2.1 场景一:分析zip压缩后的文本文件 场景说明 很多时候我们会对历史的文本数据进行压缩,然后上传到OSS上进行归档,那么如果要对这部分数据导入MaxCompute进行离线分析

html

一世执手 提交于 2020-02-27 01:54:28
HTML概述 最新的HTML5规范,代表了未来web开发的方向 提供新的标签与属性 语义标签,多媒体,智能表单 提供了很多新的功能 画布,地理位置,本地储存,WebSocket,WebWorker等 基本结构 标签语法 head中的标签 标签 描述 title 文档标题,一般显示在浏览器标栏 base 指定页面的相对地址 link 链接到外部文件,一般是样式文件 style 在文档中包含css样式 script 引入外部JavaScript文件 meta 描述文档的信息,如字符编码,内容描述,关键字作者等 Web标准推荐的编写规则 一系列关于网页标准的集合 要求: 所有的标签和属性的名字都必须使用小写 所有标签必须关闭 所有属性都必须有值,没有值的就重复本身 属性值必须使用双引号 文本标签(1) 标签 描述 p 段落 h1-h6 标题 pre 定义预格式化的文本 font 为文本指定大小,颜色 和字体,不推荐 span 组合文档中的行内元素 sub 下 标 sup 上标 address 地址 文本标签(2) 标签 描述 b,strong 文本加粗 i,em 文本斜体 u 文本下划线 ins 定义插入文本,效果和U一样 del 文本删除线 转义字符 转义字符 描述   不换行空格 < 小于< > 大于> &quot 双引号“ &copy 版权 &amp &符号 行级标签和块级标签

利用Logistic函数和LSTM分析疫情数据

…衆ロ難τιáo~ 提交于 2020-02-25 23:23:32
利用Logistic函数和LSTM分析疫情数据 作者:林泽龙 Mo 1. 背景 2019 新型冠状病毒 (SARS-CoV-2),曾用名 2019-nCoV,通用简称新冠病毒,是一种具有包膜的正链单股 RNA 冠状病毒,为 2019 年底出现的新型冠状病毒感染的肺炎疫情的病原。在疫情爆发期间,研究人员对肺炎阳性患者样本进行核酸检测以及基因组测序后发现了这一病毒。 如今疫情成了人们最为关心的话题,通过各方的努力疫情也得到了相应的控制,对于疫情的预测许多专业的人士也有不同看法,本文就基于两个简单的模型来预测和分析疫情的数据,当然结果也仅供参考。 2. 数据采集 本文数据包含新型冠状病毒肺炎疫情数据和2003年中国非典疫情数据,其中新型冠状病毒数据主要来自[国家卫健委官网]( http://www.nhc.gov.cn/ )和其他各大门户网站,非典数据主要来自[世界卫生组织]( http://www.nhc.gov.cn/ )。其中新型冠状病毒数据主要用逻辑回归函数来拟合,非典数据主要用来训练LSTM模型,然后基于该模型来分析新型冠状病毒数据。 3. 利用 Logistic 函数拟合曲线 Logistic函数或Logistic曲线是一种常见的S形函数,它是皮埃尔·弗朗索瓦·韦吕勒在1844或1845年在研究它与人口增长的关系时命名的。该模型广泛应用于生物繁殖和生长过程、人口增长过程模拟

45亿数据迁移记录

别等时光非礼了梦想. 提交于 2020-02-25 16:06:49
45亿数据迁移记录 背景 数据库数据量日益增加,逐渐开始显得很是臃肿,日常查询统计的时候,仅仅是count(1) 查询下总数,耗费的时间也在500s左右,而且之前的orcle数据库,前期建立的时候,也未考虑太多,未进行索引,分表,等优化。后面鉴于种种考虑,以及后期的规划,准备将数据迁移至clickhouse(oracle -> clickhouse)。 clickhouse 相关背景 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。 相关介绍 迁移相关考虑 数据库现有数据45亿 每天还有新数据持续入库-数据量 3000万/天 资源 服务器资源 CPU 16C;内存 48G;硬盘 500G磁盘左右,总共3台 准备 开始查看相关的数据迁移工具 datax 阿里推出的一个,但是相对而言,社区不是很活跃。 相关链接 waterdrop 社区活跃,作者很用心。再次感谢在使用过程中给与我的帮助 相关链接 过程-时间-思考 选择方式,与迁移工具 首先,选择截断数据日期,进行之前的数据迁移。 最开始看的datax 的相关,这里说下datax的clickhouse官方还没提供指定的插件,所有无法直接到达clickhouse。 尝试 oracle -> datax -> mysql -> clickhouse 使用 clickhouse 的insert into

Datax的执行流程源码分析

懵懂的女人 提交于 2020-02-15 12:54:43
DataX的框架的核心部分 1、配置贯穿DataX,all in configuration,将配置的json用到了极致 2、另一块是通过URLClassLoader实现插件的热加载。 Job&Task概念  在DataX的逻辑模型中包括job、task两个维度,通过将job进行task拆分,然后将task合并到taskGroup进行运行。 job实例运行在jobContainer容器中,它是所有任务的master,负责初始化、拆分、调度、运行、回收、监控和汇报,但它并不做实际的数据同步操作。 Job: Job是DataX用以描述从一个源头到一个目的端的同步作业,是DataX数据同步的最小业务单元。比如:从一张mysql的表同步到odps的一个表的特定分区。 Task: Task是为最大化而把Job拆分得到的最小执行单元。比如:读一张有1024个分表的mysql分库分表的Job,拆分成1024个读Task,用若干个并发执行。 TaskGroup: 描述的是一组Task集合。在同一个TaskGroupContainer执行下的Task集合称之为TaskGroup。 JobContainer: Job执行器,负责Job全局拆分、调度、前置语句和后置语句等工作的工作单元 TaskGroupContainer: TaskGroup执行器,负责执行一组Task的工作单元。 简而言之,

DataX 使用笔记

≯℡__Kan透↙ 提交于 2020-02-05 09:38:48
写在前面 DataX 是阿里巴巴集团内被广泛使用的异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。 图1…: 框架设计 DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为 Reader/Writer插件,纳入到整个同步框架中。 Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。 Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。 Framework

datax小记

断了今生、忘了曾经 提交于 2020-02-04 13:42:05
datax是一个搬数据的框架,是阿里巴巴公司的开源的框架,主要就是用来搬数据,多数据源之间的数据的处理。 datax的使用: datax主要通过json文件来配置job,json的格式如下: { "job": { "content": [ { "reader": { "name": "streamreader", "parameter": { "column": [], "sliceRecordCount": "" } }, "writer": { "name": "streamwriter", "parameter": { "encoding": "", "print": true } } } ], "setting": { "speed": { "channel": "" } } } } 上面就是一个简单的job文件,可以看出一个job包含reader和writer两个部分,初次接触datax的json文件时,感觉跟spring-batch很相似,都是分为一个一个的job,而且都包含reader和writer。但是datax与batch是不一样的,datax只是一个搬数据的数据同步工具,而batch是批量处理工具,batch可以对读到的数据进行处理,而datax没有这个功能,只能转移数据,读到的数据是什么,写出来就是什么。 datax是一个支持拓展插件的框架