datax

图像重采样(CPU和GPU)

旧街凉风 提交于 2020-05-02 15:36:09
1 前言 之前在写影像融合算法的时候,免不了要实现将多光谱影像重采样到全色大小。当时为了不影响融合算法整体开发进度,其中重采样功能用的是GDAL开源库中的Warp接口实现的。 后来发现GDAL Warp接口实现的多光谱到全色影像的重采样主要存在两个问题:1 与原有平台的已有功能不兼容,产生冲突;2 效率较低。因此,决定重新设计和开发一个这样的功能,方便后期软件系统的维护等。 2 图像重采样 图像处理从形式上来说主要包括两个方面:1 单像素或者邻域像素的处理,比如影像的相加或者滤波运算等;2 图像几何空间变换,如图像的重采样,配准等。 影像重采样的几何空间变换公式如下: 其中 为变换系数,常用的重采样算法主要包括以下三种:1 最近邻;2 双线性;3 三次卷积。 2.1 最近邻采样 最近邻采样的原理概况起来就是用采样点位置最近的一个像素值替代采样点位置的像素值。在这里插入一点: 通常图像空间变换有两种方法,直接法或者间接法。以图像重采样为例说明如下:直接法:从原始的图像行列初始值开始,根据变换公式,计算采样后的像素位置,并对位置赋值,但是这种方法会出现,原始图像的多个像素点对应到同一采样后的像素点,从而还要增加额外方法进行处理;间接法:是从重采样后图像的行列初始值开始,计算得到其在原始影像中的位置,并根据一定的算法进行计算,得到采样后的值。这种方法简单直接,本文就是采用这样的方法。

Delphi、Lazarus保留字、关键字详解

本小妞迷上赌 提交于 2020-04-29 13:29:49
来自橙子,万一的博客以及其他地方 保留字:变量等标识符可以再使用; 关键字:有特定含义,不能再次重新定义; 修饰字:类似保留字的功能,也就是说可以重用 ; 数据类型:数据类型类似保留字,一般也不要重新定义; 提示字:这个信息是用在编译时提示用户平台依赖等用途的,也不要改变。 但是保留字还是尽量不要重新定义,比如下面的代码 procedure TForm1.FormCreate(Sender: TObject); var true:string; begin end; 可以正确执行。 同样标识符也类似于保留字,如下的程序也可以执行: type Integer= Char; var I: Integer; begin I:= 'A'; ShowMessage(I);end; 但是下面的程序就会报告错误了。 type string = Integer; 所以无论保留字、标识符、关键字、修饰字都最好不要重新定义; Turbo pascal 保留字 and array asm begin break case const constructor continue destructor div do downto else end false file for function goto if implementation in inline interface label mod nil

高可用数据同步方案-SqlServer迁移Mysql实战

人走茶凉 提交于 2020-04-26 09:13:06
简介 随着业务量的上升,以前的架构已经不满足业务的发展,数据作为业务中最重要的一环,需要有更好的架构作为支撑。目前我司有sql server转mysql的需求,所以结合当前业务,我挑选了阿里云开源的一个很好用的同步工具DataX DataX介绍 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 框架设计 datax_framework_new DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。 Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。 Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。 Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。 实战 下载安装部署 $ wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

LSTM-航班人数预测

大憨熊 提交于 2020-04-21 17:17:42
小书匠 深度学习 LSTM 郑重声明,文章大部分翻译自: Time Series Prediction with LSTM Recurrent Neural Networks in Python with Keras 本文目录: * 1.导入相应库文件及数据情况 * 2.标准化数据,划分数据 * 3.生成样本 * 4.构建LSTM网络 * 5.查看模型效果 * 6.预测未来的数据 * 7.扩展 数据: 1949到1960共12年,每年12个月的数据,一共 144 个数据,单位是 1000, 原文数据下载在 这里 目标: 预测国际航班未来 1 个月的乘客数 1.导入相应库文件及数据情况 #导入相应的库 import numpy import matplotlib.pyplot as plt from pandas import read_csv import math from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM from keras.utils import plot_model from sklearn.preprocessing import MinMaxScaler from sklearn.metrics import mean

LSTM-航班人数预测

拈花ヽ惹草 提交于 2020-04-21 14:47:07
小书匠 深度学习 LSTM 郑重声明,文章大部分翻译自: Time Series Prediction with LSTM Recurrent Neural Networks in Python with Keras 本文目录: * 1.导入相应库文件及数据情况 * 2.标准化数据,划分数据 * 3.生成样本 * 4.构建LSTM网络 * 5.查看模型效果 * 6.预测未来的数据 * 7.扩展 数据: 1949到1960共12年,每年12个月的数据,一共 144 个数据,单位是 1000, 原文数据下载在 这里 目标: 预测国际航班未来 1 个月的乘客数 1.导入相应库文件及数据情况 #导入相应的库 import numpy import matplotlib.pyplot as plt from pandas import read_csv import math from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM from keras.utils import plot_model from sklearn.preprocessing import MinMaxScaler from sklearn.metrics import mean

oracle异构迁移mysql方案实施(含原理)——已迁移成功

柔情痞子 提交于 2020-04-19 02:36:27
从迁移方案的落地、迁移前准备、N次迁移演练、回归测试、性能调优整整用了四个月左右的时间(当然在此期间还包括其他项目及日常操作耗费工时)。正式迁移到迁移成功、以及上线开服后性能稳定这些操作已经过去了一个多月时间。由于异构迁移在业界是一个较为困难繁琐的问题,所以经过这么久的沉淀,今天给大家复盘并分享一下整个迁移流程,从前期方案、到最后迁移成功的整个流程,希望给对 ORACLE TO MYSQL 异构迁移流程不清晰的同学,一点思路! 目录 一、迁移原由 二、迁移目标 三、迁移方案落地 1.协同高层确定项目目标 2.制定迁移计划 四、迁移工具选型(含功能实现原理) (1)SQL LOAD (2)OGG (3)KETTLE (4)DATAX (5)ADAM STUDIO (6)DTS 五、对象兼容性改写 1.oracle与mysql数据类型转换详情 2.大小写敏感参数 3.数据库对象不兼容改写方案 (1)view (2)物化视图 (3)Trigger、存储过程、package (4)分页语句 (5)JOIN (6)group by语句 (7)bitmap位图索引 (8)分区表(Partitioned table) (9)角色 (10)表情和特殊字符 六、全量数据校验方案 1.全量数据验证逻辑流图 2.全量数据验证脚本逻辑 3.数据验证注意事项 七、压力测试 八、迁移演练 九、正式迁移

Credit Fraud信用卡欺诈数据集,如何处理非平衡数据

寵の児 提交于 2020-04-06 02:06:20
Credit Fraud 简介 数据来源 模型评价标准 不平衡样本的处理 不平衡样本的分析 不处理样本 不设置权重 设置权重,使用balanced 设置权重,使用不同的权重 AUC(ROC) 与 AUC(PRC)对比 升采样 升采样SMOTE XGBoost 建模 参考链接 简介 数据来源 数据集源自位于比利时布鲁塞尔ULB(Université Libre de Bruxelles) 的研究小组Worldline and the Machine Learning Group。数据集包含由欧洲持卡人于2013年9月使用信用卡在两天内发生的交易,284,807笔交易中有492笔被盗刷,正类(被盗刷)占所有交易的0.172%,数据集非常不平衡。它只包含作为PCA转换结果的数字输入变量。由于保密问题,特征V1,V2,… V28是使用PCA获得的主要组件,只有“交易时间”和“交易额”是原始特征。 可以从以下几个方面来探索数据集: 识别信用卡盗刷; 不平衡样本的处理方式 尝试不同的重采样是如何影响模型的效果 模型可以尝试Logistic回归、svm、决策树、XGBoost等进行预测 模型评价标准 由于样本的不平衡性与不平衡率,推荐使用Area Under the Precision-Recall Curve (AUPRC)来衡量准确率。注意,对于非平衡样本的分类,不推荐使用混淆矩阵

DataX在mysql间数据迁移操作

旧时模样 提交于 2020-03-23 14:49:01
3 月,跳不动了?>>> DataX在mysql间数据迁移操作 DataX概览 MysqlReader插件实现了从Mysql读取数据。在底层实现上,MysqlReader通过JDBC连接远程Mysql数据库,并执行相应的sql语句将数据从mysql库中SELECT出来。 不同于其他关系型数据库,MysqlReader不支持FetchSize. github 可以开发自己的reader或writer插件,也可以对已经存在的进行改进 DataX3.0文档 实现原理 简而言之,MysqlReader通过JDBC连接器连接到远程的Mysql数据库,并根据用户配置的信息生成查询SELECT SQL语句,然后发送到远程Mysql数据库,并将该SQL执行返回结果使用DataX自定义的数据类型拼装为抽象的数据集,并传递给下游Writer处理。 对于用户配置Table、Column、Where的信息,MysqlReader将其拼接为SQL语句发送到Mysql数据库;对于用户配置querySql信息,MysqlReader直接将其发送到Mysql数据库。 快速上手 构建一个测试数据表 新建表test语句如下所示。 CREATE TABLE `test` ( `name` varchar(20) COLLATE utf8_bin NOT NULL, `age` int(4) NOT NULL, `age

DateX安装及应用

随声附和 提交于 2020-03-04 18:08:00
最近老师布置任务学习使用DataX大数据同步技术,总结一些遇到的问题 安装: 下载页面地址: https://github.com/alibaba/DataX 在页面中【Quick Start】--->【Download DataX下载地址】进行下载。下载后的包名:datax.tar.gz。 解压后{datax}目录下有{bin conf job lib log log_perf plugin script tmp}几个目录。 测试    打开cmd,输入   python D:\datax\bin\datax.py D:\datax\job\job.json   测试压缩包内自带.py代码,代码位置:bin\jon.json      乱码可输入:CHCP 65001 之后再运行实例   python 3以上版本需修改bin目录中.py文件 应用    csv文件写入mysql   创建作业的配置文件(json格式)   可以通过命令查看配置模板:   python datax.py -r {YOUR_READER} -w {YOUR_WRITER}   例如:python D:\datax\bin\datax.py -r txtfilereader -w mysqlwriter      将模板放到新建的json中,补充相应信息 { "job": { "setting": {

datax安装(Windows版)

杀马特。学长 韩版系。学妹 提交于 2020-03-03 19:38:58
一、安装datax 下载地址: http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz 将其解压即可。 二、测试安装是否成功   1,打开cmd界面(同时按下Windows键+R键)   2,输入CHCP 65001 防止中文乱码   3,跳转到datax的bin目录下     命令行:d:         cd D:\BigDataTools\datax\datax\bin      4,查看模板     命令行: python datax.py -r streamreader -w streamwriter   5,使用datax    首先我们需要自定义好的json文件(从网上获取的,内容如下),命名为stream2stream.json { "job": { "content": [ { "reader": { "name": "streamreader", "parameter": { "sliceRecordCount": 10, "column": [ { "type": "String", "value": "helle DataX" }, { "type": "string", "value": "你吃完晚饭了吗?" }, { "type": "string", "value":