alluxio

SIG Cloud Provider Alibaba 网研会第 2 期顺利召开 | 云原生生态周报

你离开我真会死。 提交于 2020-04-18 17:40:47
作者 | 高相林、陈俊、孙健波 业界要闻 Gartner 报告:阿里云与 AWS 并列入选容器产品最完善 近日,国际知名调研机构 Gartner 发布 2020 年容器公有云竞争格局报告,阿里云再度成为国内唯一入选厂商。Gartner 报告显示,阿里云容器服务在中国市场表现强劲,产品形态丰富,在如 Serverless 容器、服务网格、安全沙箱容器、混合云和边缘等领域,具备良好的技术发展策略。 Dragonfly 晋升成为 CNCF 孵化项目 4 月 9 日,由云原生计算基金会(CNCF)技术监督委员会投票,Dragonfly 正式晋升为 CNCF 孵化级别的托管项目。 SIG Cloud Provider Alibaba 网研会第 2 期 4 月 16 日(周四) 19:00 将举办 SIG Cloud Provider Alibaba 网研会第 2 期,本次网研会为自办直播,直播主要有两种形式:视频直播+文字直播。视频直播将在云栖社区、开发者社区、开发者钉群进行,文字直播将联合 DockOne 社区在 10+ 微信群内进行文字直播。 TiDB 4.0 发布 4 月 8 号是 PingCAP 成立五周年的日子,其开发团队也在当天发布了具有里程碑意义的 TiDB 4.0 首个 RC 版本。 上游重要进展 Fix client watch reestablishment

Error in setting up Tachyon on S3 under filesystem

こ雲淡風輕ζ 提交于 2020-01-06 16:46:19
问题 I am trying to set up Tachyon on the S3 filesystem. I am completely new to Tachyon and am still really reading what I can find on it. My tachyon-env.sh is given below: !/usr/bin/env bash # This file contains environment variables required to run Tachyon. Copy it as tachyon-env.sh and # edit that to configure Tachyon for your site. At a minimum, # the following variables should be set: # # - JAVA_HOME, to point to your JAVA installation # - TACHYON_MASTER_ADDRESS, to bind the master to a

Tachyon on Dataproc Master Replication Error

試著忘記壹切 提交于 2019-12-24 17:17:03
问题 I have a simple example running on a Dataproc master node where Tachyon, Spark, and Hadoop are installed. I have a replication error writing to Tachyon from Spark. Is there any way to specify it needs no replication? 15/10/17 08:45:21 WARN org.apache.hadoop.hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /tmp/tachyon/workers/1445071000001/3/8 could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s)

Plain authentication failed: User yarn is not configured for any impersonation. impersonationUser: root in alluxio mapreduce

▼魔方 西西 提交于 2019-12-24 10:59:20
问题 Caused by: org.apache.thrift.transport.TTransportException: Plain authentication failed: User yarn is not configured for any impersonation. impersonationUser: root It works fine when I run wordcount program locally with alluxio . I also passed the integration test but when I run the same Hadoop program with alluxio client jar it gives me an error bin/hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar wordcount -libjars /usr/lib/hadoop-mapreduce/alluxio-1.8.1-client.jar alluxio

Presto 使用 Alluxio

一曲冷凌霜 提交于 2019-12-16 00:09:11
Presto 是一个开源的分布式 SQL 查询引擎,用于对数据进行大规模的交互式分析查询。 本指南介绍了如何使用 Alluxio 作为分布式缓存层运行 Presto 进行查询,其中数据源可以是 AWS S3、Azure Blob Store、HDFS 和许多其他数据源。 使用此设置,Alluxio 将帮助 Presto 访问数据(不论是何数据源),并透明地将频繁访问的数据(例如,常用的表)缓存到 Alluxio 的分布式存储中。 将 Alluxio worker 与 Presto worker 同置部署,可以提升数据本地性,减少 I/O 访问延迟,尤其是在数据是远程的或网络缓慢或拥塞的情况下效果更明显。 期准备 安装 Java 8 Update 60 或更高版本(8u60+)的 64 位 Java。 部署 Presto 。 本指南基于 presto-0.208 测试。 已经安装并运行 Alluxio。 确保 Alluxio 客户端 jar 包是可用的。 在从 Alluxio 下载页面 下载的压缩包的 /<PATH_TO_ALLUXIO>/client/alluxio-1.8.2-client.jar 中,可以找到 Alluxio 客户端 jar 包。 确保 Hive metastore 正在运行以提供 Hive 表的元数据信息。 基础设置 配置 Presto 连接到 Hive

聊聊这一款能真正匹配大数据性能的BI工具

£可爱£侵袭症+ 提交于 2019-12-09 15:53:29
最近在看关于大数据、数据仓库 、数据架构的《数据架构:大数据、数据仓库以及Data Vault》一书,关于大数据有些思考,结合FineBI的Spider引擎,可看看Spider引擎对于大数据的阐释,以及在大数据平台架构中,可以处于什么样的位置。 大数据一直被定义为3W(数量大,速度快,多样性),但这些特征用于描述高速公路上运载的各种货物也没有问题。因此数仓之父 Inmon提出大数据的识别特征为: (1)数据量大; 毋庸置疑,这条必须有。 (2)在廉价存储器中存放的数据; 以昂贵存储介质建立海量数据存储所带来的成本,将使得大数据处理无意义。因此大数据的存储介质需要廉价。 (3)以罗马人口统计方法管理的数据; 古罗马人想要对罗马帝国的每个居民征税,所以要做一次人口统计。起初视图让罗马帝国的每个公民穿过罗马城门计数。但是古罗马地域辽阔(当时包括北非、西班牙、德国、伊朗、以色列等等),居民分布广,这种方式不现实,需要使用一直集中式处理方法。最终决定组建一个人口统计团,各个人口统计员统一在城门集合,之后被派向各地,在约定的一天进行人口统计,之后在罗马城汇总数据。 海量数据处理也是这种方式,将数据处理方式发送给不同区域(分区)的数据,实现分布式数据处理。这样可以实现几乎无限数据量的数据处理。 (4)以非结构化格式存储和管理的数据。 总结下来,大数据就是以非结构化格式存储在廉价介质中的大量数据

Spark生态顶级项目汇总

我的未来我决定 提交于 2019-12-06 03:33:00
现在Apache Spark已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出5个使用广泛的第三方项目。 Spark官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是Spark官方给出的生态系统组件(引自Spark官方文档) Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。 Spark SQL:可以执行SQL查询,包括基本的SQL语法和HiveQL语法。读取的数据源包括Hive表、Parquent文件、JSON数据、关系数据库(MySQL等)等。 Spark Streaming:Spark Streaming是Spark核心API,易扩展、高吞吐量、流式数据容错。 MLlib:Spark的机器学习库,由常规的机器学习算法和基础构成,包括但不限于分类算法、回归算法、聚类算法、协调过滤算法、降维算法等。 GraphX:Spark GraphX是一个分布式图处理框架,基于Spark平台提供对图计算和图挖掘的接口,方便用户对分布式图处理的需求。 Spark Core API:Spark提供多种语言的API,包括R、SQL、Python、Scala和Java。 除了上述官方的Spark组件外,还有些是在某种情形下必用的项目。以下只是简单的列出这些重量级 项目,而不涉及一些性能指标。 Mesos

Resources/Documentation on how does the failover process work for the Spark Driver (and its YARN Container) in yarn-cluster mode

☆樱花仙子☆ 提交于 2019-12-04 22:58:12
问题 I'm trying to understand if the Spark Driver is a single point of failure when deploying in cluster mode for Yarn. So I'd like to get a better grasp of the innards of the failover process regarding the YARN Container of the Spark Driver in this context. I know that the Spark Driver will run in the Spark Application Master inside a Yarn Container. The Spark Application Master will request resources to the YARN Resource Manager if required. But I haven't been able to find a document with enough

基于Hadoop架构下的FineBI大数据引擎技术原理

老子叫甜甜 提交于 2019-12-04 20:57:49
随着各个业务系统的不断增加,以及各业务系统数据量不断激增,业务用户的分析诉求越来越多且变化很快,IT数据支撑方的工作变得越来越复杂。 1、数据来自多个不同的系统,存在需要跨数据源分析,需要对接各种不同数据源等问题。 2、需要分析的数据体量越来越大,并且要快速获得分析结果的问题。 3、部分数据还需要二次加工处理的问题。 供数支撑方在业务系统的前端看起来基本没有任何操作,但背后的逻辑十分复杂,实现难度也很大。就像看得到的是冰山一角,看不到的是海水下绝大部分的支撑。 为了解决日益激增的大数据量分析诉求,大部分公司会通过搭建Hadoop、Spark等大数据架构,配以BI工具做数据层面的分析,来搭建这样一整套大数据分析平台。 大数据分析很关键的一个点在于性能:取数快不快,分析响应快不快,能否实时? 这个问题除了平台的底层架构,BI( 商业智能 )的运行性能也有很大相关。 大家可能普遍认为的BI,就是一个数据展现工具,在前端看起来没有太多有技术含量的操作,但背后的逻辑十分复杂,实现难度也很大。就像看得到的是冰山一角,看不到的是海水下绝大部分的支撑。 好的BI工具都有与之依赖的数据引擎,数据引擎的作用一方面是数据响应的性能(数据量、速率),还有很重要的一点是能否适应企业不同业务情况的模式/方案。比如小数据快速读取,大数据分布式并行运算,节点数据实时展现等等..... FineBI V5