odps

01-MaxCompute上的UDF(Python实现)

拈花ヽ惹草 提交于 2020-03-27 15:33:17
一、前言 MaxCompute中的python是2.7环境的,可以通过sys.version验证,话说Python社区都准备放弃2.7了,阿里云啥时候跟上时代的步伐升级到3.x哦。 我们测试一下: Executing user script with PyODPS 0.8.0 2.7.10 (default, Sep 18 2015, 16:43:46) [GCC 4.1.2 20080704 (Red Hat 4.1.2-51)] 可以看到数据开发中的PyODPS版本号,以及Python的版本为2.7.10,机器的系统是Red Hat,一个Linux环境。 据官方文档称,Python代码以沙箱模式执行,在一个受限的环境中运行,部分模块是不可用的。所有纯Python实现(不依赖扩展模块)的模块都是可用的,以及部分C实现的模块,所以不要想当然把本地的一些代码直接挪上来,可能某些包是没有的哦。 二、UDF实战 2.1 指定参数和返回值类型 Python UDF目前支持的MaxCompute SQL数据类型包括Bigint、String、Double、Boolean和Datetime。SQL语句在执行之前,必须确定所有函数的参数类型和返回值类型。 参数与返回值的指定方式如下: @odps.udf.annotate(signature) 很显然,是一个装饰器的写法。

海量数据上云

穿精又带淫゛_ 提交于 2020-03-12 23:32:52
大家好,今天跟大家分享的内容是传统数据库迁移到阿里云odps遇到的那点坑; 问题描述:传统数据库oracle向阿里云odps迁移数据库的时候,速率刚开始正常,后观察到,在传输过程中,速率越来越慢; 解决思路:1.查看了管控容器里面的日志,没有发现问题; 2.查看了当时网络的联通性,网络也没有问题,连接正常; 3.查看了同步任务的容器,没有发现任务问题; 4.后协调odps专家进行了会诊,经过排查,是因为底层的存储系统,在执行 读写操作的时候,有一台机器特别慢,所以在执行同步任务的时候,只要任务 跑到这台nc上的时候,传输的速度马上就降下来了,所以最后确认是这台nc机器的网卡连接处有问题,后去机房进行了排查,发现次机器的网络线没有查好,属于续接状态,所以后续将其nc的光线口进行插紧,错误没有在出现; 感谢大家的支持 柒年游 来源: 51CTO 作者: 柒年游 链接: https://blog.51cto.com/liwenming18/2329726

Python和odps交互

。_饼干妹妹 提交于 2020-02-17 12:59:37
python连接odps,并且通过sql进行查询,返回dataframe from odps import ODPS from odps import DataFrame def exe_odps(sql, project): ''' sql:待执行sql project:项目空间 ''' access_id = '*****' secret_access_key = '*****' project = project endpoint = 'http://service.odps.aliyun.com/api' o = ODPS( access_id=access_id, secret_access_key=secret_access_key, project=project, endpoint=endpoint) with o.execute_sql(sql).open_reader() as reader: data = reader.to_pandas() return data                         2020-02-17 南京市栖霞区 来源: CSDN 作者: 维格堂406小队 链接: https://blog.csdn.net/wendaomudong_l2d4/article/details/104355045

求超大文件上传方案( jsp )

。_饼干妹妹 提交于 2020-01-10 16:25:45
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种形式的技术方案了,也就是本文要阐述的方案。 技术要求主要有以下几方面: 支持超大数据量、10G级别以上 稳定性:除网络异常情况100%成功 准确性:数据无丢失,读写准确性100% 效率:1G文件分钟级、10G文件小时级 体验:实时进度感知、网络异常断点续传、定制字符特殊处理 2 文件上传选型 文件上传至ODPS基本思路是先文件上传至某中转区域存储,然后同步至ODPS,根据存储介质可以分为两类,一类是应用服务器磁盘,另一类类是中间介质,OSS作为阿里云推荐的海量、安全低成本云存储服务,并且有丰富的API支持,成为中间介质的首选。而文件上传至OSS又分为web直传和sdk上传两种方案,因此上传方案有如下三种,详细优缺点对比如下: 蚂蚁的文本上传功能演进过程中对第一种、第二种方案均有实践,缺点比较明显,如上表所述,不满足业务需求,因此大文件上传终极方案是方案三。 3 整体方案 以下是方案三的整体过程示意图。 请求步骤如下: 用户向应用服务器取到上传policy和回调设置。

上云十年:阿里云的奇幻漂流

亡梦爱人 提交于 2019-12-04 08:16:40
现代人的生活是不缺乏刺激的。我们总能在电影院或化身“沙发土豆”,作为旁观者,与凤凰社、夜魔侠、蜘蛛侠等诸多主角们经历了一场场“安全的冒险”,体会他们挣脱束缚的破釜沉舟,欣赏他们踏上未知冒险的勇气。 回到真实的商业故事中,很少有人会将阿里与“困境”这样的字眼联系在一起,尤其是在花团锦簇、全民狂欢的双十一之后。 但少有人知道,这场剁手党的“春晚”,却是技术人眼中冰峰林立、人迹罕至的“珠穆朗玛峰”。而阿里云的工程师们,刚刚经历过一场大汗淋漓的搏斗。 极致双 11:阿里云的技术攀爬 11 月 11 日 0 点,阿里云的数据显示,双 11 订单创建峰值达到了 54.4 万笔/秒。这个“数据海拔”有多恐怖呢? 面对这个全球最大规模的流量洪峰,就连在商海身经百战的阿里巴巴 CEO 张勇,都有点“上头”。 当天他坦诚道,自己心里最关心的,不是销售数字,而是整个技术的峰值。“我们能够每秒钟支撑多少笔订单的处理,既不发生钱的错误,又不发生错误的库存,被错误地记录,这个才能保证整个商业顺畅运转。” 而这些沉甸甸的指标,被百分之百地押注在了阿里云上。就在两个月前,阿里巴巴将数以十万计的物理服务器从线下数据中心迁移到了云端。 双 11 核心系统全部云化,意味着什么? 意味着,当有客户问起,“你们阿里巴巴自己的业务也跑在阿里云上吗??”“没错,全部都在,包括双 11”——阿里云终于可以这样回答了。

js+php大文件分片上传

我是研究僧i 提交于 2019-12-02 15:56:11
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种形式的技术方案了,也就是本文要阐述的方案。 技术要求主要有以下几方面: 支持超大数据量、10G级别以上 稳定性:除网络异常情况100%成功 准确性:数据无丢失,读写准确性100% 效率:1G文件分钟级、10G文件小时级 体验:实时进度感知、网络异常断点续传、定制字符特殊处理 2 文件上传选型 文件上传至ODPS基本思路是先文件上传至某中转区域存储,然后同步至ODPS,根据存储介质可以分为两类,一类是应用服务器磁盘,另一类类是中间介质,OSS作为阿里云推荐的海量、安全低成本云存储服务,并且有丰富的API支持,成为中间介质的首选。而文件上传至OSS又分为web直传和sdk上传两种方案,因此上传方案有如下三种,详细优缺点对比如下: 蚂蚁的文本上传功能演进过程中对第一种、第二种方案均有实践,缺点比较明显,如上表所述,不满足业务需求,因此大文件上传终极方案是方案三。 3 整体方案 以下是方案三的整体过程示意图。 请求步骤如下: 用户向应用服务器取到上传policy和回调设置。

怎么实现超大文件上传 2-3GB

假装没事ソ 提交于 2019-12-02 01:55:07
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种形式的技术方案了,也就是本文要阐述的方案。 技术要求主要有以下几方面: 支持超大数据量、10G级别以上 稳定性:除网络异常情况100%成功 准确性:数据无丢失,读写准确性100% 效率:1G文件分钟级、10G文件小时级 体验:实时进度感知、网络异常断点续传、定制字符特殊处理 2 文件上传选型 文件上传至ODPS基本思路是先文件上传至某中转区域存储,然后同步至ODPS,根据存储介质可以分为两类,一类是应用服务器磁盘,另一类类是中间介质,OSS作为阿里云推荐的海量、安全低成本云存储服务,并且有丰富的API支持,成为中间介质的首选。而文件上传至OSS又分为web直传和sdk上传两种方案,因此上传方案有如下三种,详细优缺点对比如下: 蚂蚁的文本上传功能演进过程中对第一种、第二种方案均有实践,缺点比较明显,如上表所述,不满足业务需求,因此大文件上传终极方案是方案三。 3 整体方案 以下是方案三的整体过程示意图。 请求步骤如下: 用户向应用服务器取到上传policy和回调设置。

java+上传文件夹

我的未来我决定 提交于 2019-11-28 17:37:13
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种形式的技术方案了,也就是本文要阐述的方案。 技术要求主要有以下几方面: 支持超大数据量、10G级别以上 稳定性:除网络异常情况100%成功 准确性:数据无丢失,读写准确性100% 效率:1G文件分钟级、10G文件小时级 体验:实时进度感知、网络异常断点续传、定制字符特殊处理 2 文件上传选型 文件上传至ODPS基本思路是先文件上传至某中转区域存储,然后同步至ODPS,根据存储介质可以分为两类,一类是应用服务器磁盘,另一类类是中间介质,OSS作为阿里云推荐的海量、安全低成本云存储服务,并且有丰富的API支持,成为中间介质的首选。而文件上传至OSS又分为web直传和sdk上传两种方案,因此上传方案有如下三种,详细优缺点对比如下: 蚂蚁的文本上传功能演进过程中对第一种、第二种方案均有实践,缺点比较明显,如上表所述,不满足业务需求,因此大文件上传终极方案是方案三。 3 整体方案 以下是方案三的整体过程示意图。 请求步骤如下: 用户向应用服务器取到上传policy和回调设置。