alluxio

如何在混合云架构中高效运行 Presto

好久不见. 提交于 2021-01-25 04:50:47
请点击上方 蓝字 ,关注我们哦! 将SQL工作负载从完全的本地环境迁移到云环境中有许多好处,包括降低资源竞争、通过按需购买计算资源来降低费用。当Presto的数据存储在HDFS中时,由于Presto的架构允许存储和计算的组件独立操作,在云环境中的计算与本地的存储之间的分离是显而易见的。在云上通过在Presto检索本地的HDFS数据这样的混合环境里面,一个关键的问题是两个集群之间的网络延迟。 这个关键的瓶颈严重限制了所有工作负载的性能,因为其大部分时间都花在了可能位于地理位置不同的网络之间传输请求的数据上。结果,大多数公司将其数据复制到云环境中并维护该数据副本,也称为Lift and Shift。有合规性和数据主权要求的公司甚至可能阻止组织将数据复制到云中。这种方法不可扩展,需要付出大量的人工才能获得合理的结果。本文介绍了Alluxio充当 数据编排层 (见参考链接1),以帮助将数据高效地提供给Presto,而不是直接查询远程的HDFS集群或将数据的本地化副本手动提供给云集群中的Presto。 采用Alluxio和Presto的混合云架构 在以下架构图中,Presto和Alluxio进程都位于云集群中。就Presto而言,它正在查询数据并将其写入Alluxio,就好像Alluxio是位于同一位置的HDFS集群一样。当Alluxio收到数据请求时,最初会从远程HDFS集群中获取数据

Fluid: 让大数据和 AI 拥抱云原生的一块重要拼图

时间秒杀一切 提交于 2020-11-04 06:02:44
得益于容器化带来的高效部署、敏捷迭代,以及云计算在资源成本和弹性扩展方面的天然优势,以 Kubernetes 为代表的云原生编排框架吸引着越来越多的 AI 与大数据应用在其上部署和运行。然而,云原生计算基金会(CNCF) 全景图 中一直缺失一款原生组件,以帮助这些数据密集型应用在云原生场景下高效、安全、便捷地访问数据。 如何驱动大数据、AI 应用在云原生场景下高效运行是一个既有理论意义又具应用价值的重要挑战性问题: 一方面,解决该问题需考虑复杂场景下应用协同编排、调度优化、数据缓存等一系列理论与技术难题; 另一方面,该问题的解决能够有力地推动广阔云服务场景下的大数据、AI 落地应用。 为系统化解决相关问题,学术界和工业界密切合作, 南京大学 PASALab 副研究员顾荣博士、阿里云容器服务高级技术专家车漾、Alluxio 项目创始成员范斌博士联合推动发起了 Fluid开源合作项目 。 Fluid 是什么? Fluid 是一款开源的云原生基础架构项目。在计算和存储分离的大背景驱动下,Fluid 的目标是为 AI 与大数据云原生应用提供一层高效便捷的数据抽象,将数据从存储抽象出来,以便达到: 通过 数据亲和性调度 和 分布式缓存引擎加速 ,实现数据和计算之间的融合,从而加速计算对数据的访问; 将数据独立于存储进行管理,并且通过Kubernetes的命名空间进行资源隔离

生态 | Apache Hudi集成Alluxio实践

∥☆過路亽.° 提交于 2020-10-23 02:29:01
原文链接: https://mp.weixin.qq.com/s/sT2-KK23tvPY2oziEH11Kw 1. 什么是Alluxio Alluxio为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。这还使得应用程序能够通过一个公共接口连接到许多存储系统。Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。 对于用户应用程序和计算框架,Alluxio提供了快速存储,促进了作业之间的数据共享和局部性。当数据位于本地时,Alluxio可以以内存速度提供数据;当数据位于Alluxio时,Alluxio可以以计算集群网络的速度提供数据。第一次访问数据时,只从存储系统上读取一次数据。为了得到更好的性能,Alluxio推荐部署在计算集群上。 对于存储系统,Alluxio弥补了大数据应用与传统存储系统之间的差距,扩大了可用的数据工作负载集。当同时挂载多个数据源时,Alluxio可以作为任意数量的不同数据源的统一层。 Alluxio可以被分为三个部分:masters、workers以及clients。一个典型的设置由一个主服务器、多个备用服务器和多个worker组成。客户端用于通过Spark或MapReduce作业、Alluxio命令行等与Alluxio服务器通信。 2. 什么是Apache Hudi

《图解Spark:核心技术与案例实战》介绍及书附资源

[亡魂溺海] 提交于 2020-10-05 18:10:22
本书中所使用到的测试数据、代码、安装包及本书附录放在百度盘提供 下载 ,链接:https://pan.baidu.com/s/1IOVGjLXQaLtC0scBahmXwQ 提取码:iudp 为什么要写这本书 在过去的十几年里,由于计算机普遍应用和互联网的普及数据呈现了爆发式增长,在这个背景下Doug Cutting受到谷歌两篇论文(GFS和MapReduce)的启发下开发Nutch项目, 2006年Hadoop脱离了Nutch,成为Apache的顶级项目,带动了大数据发展新十年。在这段时间中,大数据开源产品如雨后春笋层出不穷,特别是2009年由加州大学伯克利分校AMP实验室开发的Spark,它以内存迭代计算的高效和各组件所形成一栈式解决平台成为这些产品的翘楚。 Spark在2013年6月成为Apache孵化项目,8个月后成为其顶级项目,在2014年5月份发布了1.0版本,在2016年7月份正式发布了2.0版本,在这个过程中Spark社区不断壮大,成为了最为活跃的大数据社区之一。作为大数据处理的“利器”,Spark在发展过程中不断地演进,在各个版本存在较大的差异,市面上关于介绍的Spark已经不少,但是这些书基于Spark版本稍显陈旧,另外在介绍Spark的时候未能把原理、代码和实例相结合,基于这个情况笔者便有了写一本在剖析Spark原理的同时结合实际实例

Fluid: 让大数据和 AI 拥抱云原生的一块重要拼图

ε祈祈猫儿з 提交于 2020-09-23 15:55:54
作者 | 顾荣、车漾、范斌 得益于容器化带来的高效部署、敏捷迭代,以及云计算在资源成本和弹性扩展方面的天然优势,以 Kubernetes 为代表的云原生编排框架吸引着越来越多的 AI 与大数据应用在其上部署和运行。然而,云原生计算基金会(CNCF) 全景图 中一直缺失一款原生组件,以帮助这些数据密集型应用在云原生场景下高效、安全、便捷地访问数据。 如何驱动大数据、AI 应用在云原生场景下高效运行是一个既有理论意义又具应用价值的重要挑战性问题: 一方面,解决该问题需考虑复杂场景下应用协同编排、调度优化、数据缓存等一系列理论与技术难题; 另一方面,该问题的解决能够有力地推动广阔云服务场景下的大数据、AI 落地应用。 为系统化解决相关问题,学术界和工业界密切合作, 南京大学 PASALab 副研究员顾荣博士、阿里云容器服务高级技术专家车漾、Alluxio 项目创始成员范斌博士联合推动发起了 Fluid开源合作项目 。 Fluid 是什么? Fluid 是一款开源的云原生基础架构项目。在计算和存储分离的大背景驱动下,Fluid 的目标是为 AI 与大数据云原生应用提供一层高效便捷的数据抽象,将数据从存储抽象出来,以便达到: 通过 数据亲和性调度 和 分布式缓存引擎加速 ,实现数据和计算之间的融合,从而加速计算对数据的访问; 将数据独立于存储进行管理

王家林大咖清华新书预发布:《企业级AI技术内幕:深度学习框架开发+机器学习案例+Alluxio解密》之盘古人工智能框架多层次神经网络的实现

倾然丶 夕夏残阳落幕 提交于 2020-08-13 09:21:51
本文是王家林大咖清华大学新书《企业级AI技术内幕:深度学习框架开发+机器学习案例+Alluxio解密》第2.1章节的内容,清华大学出版社将于9月份出版新书。 目录 盘古人工智能框架引言 盘古人工智能框架 盘古人工智能框架代码实战 实现神经网络的节点结构 新书预发布 新书 前 言 盘古人工智能框架引言 2017年3月21日,王家林大咖在硅谷,利用三个月的时间,于2017年6月22日实现了盘古人工智能框架,在该框架中实现了基本的ANN(Artificial Neural Network)和CNN(Convolutional Neural Network),那时还没实现RNN(Recurrent neural Network),但是实现了另外两个特别重要的算法,一个是自动编码(AutoEncoders),还有一个是非监督学习玻尔兹曼机算法(Boltzmann_ Machines),二者都跟推荐系统相关。对于深度学习中的算法,神经网络算法是必须掌握的,CNN、RNN等都是基于神经网络算法延伸出来的,包括自动编码算法,也是基于神经网络的算法延伸出来的。自动编码算法、玻尔兹曼机算法在实际中可用于推荐系统,在Facebook、谷歌、亚马逊的各种应用场景都可以看见推荐系统的身影;深度学习在图片识别、声音识别中可能暂时不那么重要。从2017年6月开始,用了将近10个月的时间

史上最全的大数据技术栈,有种冲动学习的既视感,你是否感受到了自己的不足?

泄露秘密 提交于 2020-08-05 04:19:44
前言 提起大数据,不得不提由IBM提出的关于大数据的5V特点: Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性) ,而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发展,尤以Hadoop和Spark最为突出,已构建起庞大的技术生态体系圈。 下面我们通过一张图来了解一下目前大数据领域常用的一些技术,当然大数据发展至今所涉及技术远不止这些。 下面自底向上介绍各个层的主要项目。 1 采集层和传输层 Sqoop 在hadoop和关系型数据库之间转换数据。 Flume Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HDFS中。 Canal 数据抽取是 ETL 流程的第一步。我们会将数据从 RDBMS 或日志服务器等外部系统抽取至数据仓库,进行清洗、转换、聚合等操作。在现代网站技术栈中,MySQL 是最常见的数据库管理系统,我们会从多个不同的 MySQL 实例中抽取数据,存入一个中心节点,或直接进入 Hive。市面上已有多种成熟的、基于 SQL 查询的抽取软件,如著名的开源项目 Apache Sqoop,然而这些工具并不支持实时的数据抽取。MySQL Binlog

大数据PAZR集成ldap实操!what?

时间秒杀一切 提交于 2020-08-04 16:22:31
1.说明 p:presto a:allixop z:zeppelin r:rancher 分为三部分讲解 1.什么是presto+Alluxio,大数据presto+Alluxio集成详细部署说明 2.大数据zeppelin+rancher,docker的集成部署 3.presto+alluxio集成ldap实操测试,zeppelin+rancher集成ldap实操测试 1.1什么是presto 于内存的并行计算,Facebook推出的分布式SQL交互式查询引擎 多个节点管道式执行 支持任意数据源 数据规模GB~PB 是一种Massively parallel processing(mpp)(大规模并行处理)模型 数据规模PB 不是把PB数据放到内存,只是在计算中拿出一部分放在内存、计算、抛出、再拿 为什么要用&优点&特点 多数据源、支持SQL、扩展性(可以自己扩展新的connector)、混合计算(同一种数据源的不同库 or表;将多个数据源的数据进行合并)、高性能、流水线(pipeline) 1.2 presto架构 2.1什么是alluxio Alluxio(前身Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。 2.2Alluxio架构 Alluxio是大数据和机器学习生态系统中的新数据访问层

Hive: modify external table's location take too long

送分小仙女□ 提交于 2020-07-07 05:38:09
问题 Hive has two kinds of tables which are Managed and External Tables, for the difference, you can check Managed. VS External Tables. Currently, to move external database from HDFS to Alluxio , I need to modify external table's location to alluxio:// . The statement is something like: alter table catalog_page set location "alluxio://node1:19998/user/root/tpcds/1000/catalog_returns" According to my understanding, it should be a simple metastore modification,however, for some tables modification,

Hive sql和Presto sql的一些对比

谁都会走 提交于 2020-05-07 21:19:09
最近由于工作上和生活上的一些事儿好久没来博客园了,但是写博客的习惯还是得坚持,新的一年需要更加努力,困知勉行,终身学习,每天都保持空杯心态.废话不说,写一些最近使用到的Presto SQL和Hive SQL的体会和对比. ###一.JSON处理对比 Hive select get_json_object(json, '$.book'); Presto select json_extract_scalar(json, '$.book'); 注意这里Presto中json_extract_scalar返回值是一个string类型,其还有一个函数json_extract是直接返回一个json串,所以使用的时候你得自己知道取的到底是一个什么类型的值. ###二.列转行对比 Hive select student, score from tests lateral view explode(split(scores, ',')) t as score; Presto select student, score from tests cross json unnest(split(scores, ',') as t (score); 简单的讲就是将scores字段中以逗号隔开的分数列比如 80,90,99,80 这种单列的值转换成和student列一对多的行的值映射. ###三