logview

阿里云大数据ACP专业认证实验之05-MaxCompute内置函数(上)

霸气de小男生 提交于 2020-08-10 23:51:13
一、实验背景介绍 大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。本实验结合实际数据和案例,深入浅出的演示了如何使用MaxCompute的内置函数。 完成此实验后,可以掌握的内置函数有: 1. 数值类函数; 2. 字符串类函数; 3. 日期类函数; 二、实验环境架构 实验环境架构:阿里云大数据计算服务MaxCompute 第 1 章:实验准备 1.1 申请MaxCompute资源 请点击页面左侧的 ,在左侧栏中,查看本次实验资源信息。 maxcompute申请MaxCompute资源 MAXCOMPUTE 在弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。 资源创建过程需要1-3分钟。完成实验资源的创建后,用户可以通过 实验资源 查看实验中所需的资源信息,例如:阿里云账号等。 1.2 开通服务 (本实验用到odps客户端,创建资源之前确保本地安装了java8或者以上版本) Java下载地址:

MaxCompute Mars 完全指南

穿精又带淫゛_ 提交于 2020-08-04 16:29:16
Mars 简介 Mars 能利用并行和分布式技术,加速 Python 数据科学栈,包括 numpy 、 pandas 和 scikit-learn 。同时,也能轻松与 TensorFlow、PyTorch 和 XGBoost 集成。 Mars tensor 的接口和 numpy 保持一致,但支持大规模高维数组。样例代码如下。 import mars.tensor as mt a = mt.random.rand(10000, 50) b = mt.random.rand(50, 5000) a.dot(b).execute() Mars DataFrame 接口和 pandas 保持一致,但可以支撑大规模数据处理和分析。样例代码如下。 import mars.dataframe as md ratings = md.read_csv('Downloads/ml-20m/ratings.csv') movies = md.read_csv('Downloads/ml-20m/movies.csv') movie_rating = ratings.groupby('movieId', as_index=False).agg({'rating': 'mean'}) result = movie_rating.merge(movies[['movieId', 'title']], on=

MaxCompute管家详解--管家助力,轻松玩转MaxCompute

半城伤御伤魂 提交于 2020-04-16 15:39:32
【推荐阅读】微服务还能火多久?>>> 精彩视频回顾请点击: MaxCompute管家详解 以下是直播内容精华整理,主要包括以下四个方面: 1.背景速览; 2.功能介绍; 3.案例讲解; 4.新功能预告。 一、背景速览 MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使用户可以经济并高效的分析处理海量数据。在购买了MaxCompute之后会有相当多而繁琐的管理和维护工作,比如如何对项目进行更精细化的管理、如何将项目与配额进行关联等等,而MaxCompute管家可以帮助用户更好地完成这些工作,它是一个为用户提供作业信息查看、资源消耗查看(涵盖CU资源和存储资源)、项目查看及调整、配额组增删改查等涉及日常MaxCompute运维能力的管理平台。 目前,全球包括美国、英国、德国、印度、日本、新加坡在内的18个国家或地区(详情见官网)购买了数加并购买MaxCompute”包年包月“的用户(后期也会支持购买MaxCompute“按量付费“的用户)可以使用MaxCompute管家功能,且已经支持英文界面。MaxCompute管家的入口有两个:(1)管理控制台(图1)和(2)数加控制台(图2)。需要注意的是从管理控制台和数加控制台进入MaxCompute管家页面时候需要先选择正确的MaxCompute对应区域。 图 1

MaxCompute问答整理之2020-03月

此生再无相见时 提交于 2020-04-15 11:34:08
【推荐阅读】微服务还能火多久?>>> 本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。 问题一、在 MaxCompute SQL执行过程中,报错Table xx has n columns, but query has m columns如何处理? MaxCompute SQL使用INSERT INTO/OVERWRITE插入数据时,需要保证SELECT查询出 来的字段和插入的表的字段匹配,匹配内容包括顺序、字段类型,总的字段数量。目前 MaxCompute不支持插入表的指定字段,其他字段为NULL或者其他默认值的情况,您可以 在SELECT的时候设置成NULL,例如SELECT ‘a’,NULL FROM XX。 问题二、MaxCompute 中使用什么方法可以实现相同字段连接,将group by产生的同一个分组中的值连接起来,返回一个字符串结果。类似MySql中的group_concat()函数? MaxCompute可以使用WM_CONCAT函数来实现相同字段连接。具体函数说明可参考: https://help.aliyun.com/document_detail/48975.html 问题三、如何在MaxCompute Java SDK上使用Logview排错? MaxCompute Java

MaxCompute读取分析OSS非结构化数据的实践经验总结

懵懂的女人 提交于 2020-02-29 11:21:02
摘要: 本文背景 很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的。此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的。 1. 本文背景 很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的。此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的。随着数据量的指数级增长,对超大文本文件的分析越来越成为挑战。好在阿里云的MaxCompute产品从2.0版本开始正式支持了直接读取并分析存储在OSS上的文本文件,可以用结构化查询的方式去分析非结构化的数据。 本文对使用MaxCompute分析OSS文本数据的实践过程中遇到的一些问题和优化经验进行了总结。作为前提,读者需要详细了解MaxCompute读取OSS文本数据的一些基础知识,对这篇官方文档 《访问 OSS 非结构化数据》最好有过实践经验。本文所描述的内容主要是针对这个文档中提到的自定义Extractor做出的一些适配和优化。 2. 场景实践 2.1 场景一:分析zip压缩后的文本文件 场景说明 很多时候我们会对历史的文本数据进行压缩,然后上传到OSS上进行归档,那么如果要对这部分数据导入MaxCompute进行离线分析

MaxCompute问答整理之10月

假如想象 提交于 2019-12-04 08:35:52
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。 问题一、DataStudio中是否可以通过shell节点调取MaxCompute sql语句? 不可以的,Shell节点支持标准Shell语法,不支持交互性语法。如果任务较多,可以使用ODPS SQL节点来完成任务的执行。关于DataStudio的其他介绍请参考官方文档: https://help.aliyun.com/document_detail/74423.html 问题二、MaxCompute支持修改表字段的数据类型吗? 不支持,只能添加字段列,生产表不允许删除字段、修改字段及分区字段,如果必须修改,请删除之后重新建表,可以将表建立成外部表,在表删除重建以后,能将数据重新加载回来。 数据类型请参考官方文档: https://help.aliyun.com/document_detail/27821.html 问题三、MaxCompute除了UDF函数的方式外,有没有别的办法将两个没有任何关联关系的表合并成一张表呢? 可以纵向合并使用union all,横向合并的话可以借助row number,两张表都新加一个新的ID列,进行ID关联,然后取两张表的字段。 问题四、现有账号的AK禁用,创建一个新的AK,会对之前AK创建的周期性任务有影响吗? 有的