Tachyon

Spark大数据分析框架的核心部件

為{幸葍}努か 提交于 2020-03-20 22:28:41
3 月,跳不动了?>>> Spark大数据分析框架的核心部件 Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个简单的介绍。 一、RDD内存数据结构 大数据分析系统一般包括数据获取、数据清洗、数据处理、数据分析、报表输出等子系统。Spark为了方便数据处理、提升性能,专门引入了RDD数据内存结构,这一点与R的机制非常类似。用户程序只需要访问RDD的结构,与存储系统的数据调度、交换都由提供者驱动去实现。RDD可以与Haoop的HBase、HDFS等交互,用作数据存储系统,当然也可以通过扩展支持很多其它的数据存储系统。 因为有了RDD,应用模型就与物理存储分离开来,而且能够更容易地处理大量数据记录遍历搜索的情况,这一点非常重要。因为Hadoop的结构主要适用于顺序处理,要翻回去反复检索数据的话效率就非常低下,而且缺乏一个统一的实现框架,由算法开发者自己去想办法实现。毫无疑问,这具有相当大的难度。RDD的出现,使这一问题得到了一定程度的解决。但正因为RDD是核心部件、实现难度大,这一块的性能、容量、稳定性直接决定着其它算法的实现程度。从目前看,还是经常会出现RDD占用的内存过载出问题的情况。

tachyon与hdfs,以及spark整合

核能气质少年 提交于 2020-03-20 22:13:41
3 月,跳不动了?>>> Tachyon 0.7.1伪分布式集群安装与测试: http://blog.csdn.net/stark_summer/article/details/48321605 从官方文档得知,Spark 1.4.x和Tachyon 0.6.4版本兼容,而最新版的Tachyon 0.7.1和Spark 1.5.x兼容,目前所用的Spark为1.4.1,tachyon为 0.7.1 tachyon 与 hdfs整合 修改tachyon-env.sh export TACHYON_UNDERFS_ADDRESS=hdfs://master:8020Dtachyon.data.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/data12 上传文件到hdfs hadoop fs -put /home/cluster/data/test/bank/ /data/spark/ hadoop fs -ls /data/spark/bank/Found 3 items-rw-r--r-- 3 wangyue supergroup 4610348 2015-09-11 20:02 /data/spark/bank/bank-full.csv-rw-r--r-- 3 wangyue supergroup 3864 2015-09-11 20

分布式内存文件系统Tachyon介绍

人盡茶涼 提交于 2020-03-20 22:13:24
3 月,跳不动了?>>> 1 、 Tachyon 介绍 1.1 Tachyon 简介 随着实时计算的需求日益增多,分布式内存计算也持续升温,怎样将海量数据近乎实时地处理,或者说怎样把离线批处理的速度再提升到一个新的高度是当前研究的重点。近年来,内存的吞吐量成指数倍增长,而磁盘的吞吐量增长缓慢,那么将原有计算框架中文件落地磁盘替换为文件落地内存,也是提高效率的优化点。 目前已经使用基于内存计算的分布式计算框架有: Spark 、 Impala 及 SAP 的 HANA 等。但是其中不乏一些还是有文件落地磁盘的操作,如果能让这些落地磁盘的操作全部落地到一个共享的内存中,那么这些基于内存的计算框架的效率会更高。 Tachyon 是 AmpLab 的 李浩源 所开发的一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在 Tachyon 里的文件。 Tachyon 是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件,其主要职责是将那些不需要落地到 DFS 里的文件落地到分布式内存文件系统中来达到共享内存,从而提高效率。同时可以减少内存冗余、 GC 时间等, Tachyon 的在大数据中层次关系如下图所示: Tachyon 允许文件以内存的速度在集群框架中进行可靠的共享,就像 Spark 和 MapReduce 那样。通过利用信息继承、内存侵入, Tachyon

分布式内存文件系统:Tachyon

↘锁芯ラ 提交于 2020-03-20 21:58:10
3 月,跳不动了?>>> Tachyon 是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存储在 Tachyon 里的文件。Tachyon是架构在最底层的分布式文件系统和上层的各种计算框架之间的一种中间件,其主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率,减少内存冗余,减少GC时间等。 Tachyon架构 Tachyon的架构是传统的Master—Slave架构,这里和Hadoop类似,TachyonMaster里WorkflowManager是 Master进程,因为是为了防止单点问题,所以通过Zookeeper做了HA,可以部署多台Standby Master。Slave是由Worker Daemon和Ramdisk构成。Ramdisk使用off heap memory。Master和Worker直接的通讯协议是Thrift。 下图是Tachyon的架构 : Fault Tolerant Tachyon的容错机制是怎么样的呢? Tachyon使用lineage这个我们在Spark的RDD里已经很熟悉的概念,通过异步的向Tachyon的底层文件系统做Checkpoint。 当我们向Tachyon里面写入文件的时候,Tachyon会在后台异步的把这个文件给checkpoint到它的底层存储,比如HDFS,S3..

模块部署(译)

独自空忆成欢 提交于 2020-01-07 20:34:13
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 模块部署 概述 在 Tachyon 源代码树中, deploy/vagrant 目录包含一些工具可以协助你在 AWS EC2 或 virtualbox 搭建 Tachyon集群。 In Tachyon source tree, deploy/vagrant directory contains utilities to help you set up a Tachyon cluster on AWS EC2 or virtualbox. 除了 Tachyon,你可以选择不同的计算框架从下面列表的底层文件系统中: 计算框架 Spark 底层文件系统 Hadoop1 Hadoop2 (包括 Apache 和 CDH) GlusterFS AWS S3 后期新框架和文件系统将会增加,具体请在 deploy/vagrant/README.md 查看扩展部分 , 欢迎做贡献! 前提 下载 vagrant . 如果你想部署桌面版,下载 virtualbox . 安装 python >= 2.7, 而不是 python3 . 你的Tachyon 仓库 在 deploy/vagrant 目录下,按照如下安装Pathyon 依赖 库: sudo bash bin/install.sh 如果出现错误,自行安装 pip ,在当前目录

Tachyon:Spark生态系统中的分布式内存文件系统

牧云@^-^@ 提交于 2019-12-06 21:12:34
Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。 本文将先向读者介绍Tachyon在Spark生态系统中的使用, 也将分享百度在大数据平台上利用Tachyon取得的性能改善的用例,以及在实际使用Tachyon过程中遇到的一些问题和解决方案。最后我们将介绍一下Tachyon的一些新功能。 Tachyon简介 Spark平台以分布式内存计算的模式达到更高的计算性能,在最近引起了业界的广泛关注,其开源社区也十分活跃。以百度为例,在百度内部计算平台已经搭建并运行了千台规模的Spark计算集群,百度也通过其BMR的开放云平台对外提供Spark计算平台服务。然而,分布式内存计算的模式也是一柄双刃剑,在提高性能的同时不得不面对分布式数据存储所产生的问题,具体问题主要有以下几个: 当两个Spark作业需要共享数据时,必须通过写磁盘操作。比如:作业1要先把生成的数据写入HDFS,然后作业2再从HDFS把数据读出来。在此,磁盘的读写可能造成性能瓶颈。 由于Spark会利用自身的JVM对数据进行缓存,当Spark程序崩溃时

Spark生态圈的分布式文件系统-Tachyon

末鹿安然 提交于 2019-12-06 06:14:25
Tachyon 是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,类似Spark和 MapReduce。通过利用lineage信息,积极地使用内存,Tachyon的吞吐量要比HDFS高300多倍。Tachyon都是在内存中处理缓 存文件,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件。 特性: 类 Java 的文件 API 兼容性:实现 Hadoop 文件系统接口 可插入式的底层文件系统 内建 Raw 原生表的支持 基于 Web 的 UI 提供命令行接口 Tachyon 架构: 与 HDFS 的比较: Hadoop足够快吗?美国加州大学伯克利分校的AMPLab基于 Hadoop 的核心组件开发出一个更快的版本Tachyon。AMPLab从底层重建了Hadoop平台,“没有最快,只有更快”。 AMPLab在大数据领域最知名的产品是 Spark , 它是一个内存中并行处理的框架,Spark的创造者声称:使用Shark运行并行处理Job速度要比MapReduce快100倍。又因为Spark是在 内存运行,所以Shark可与Druid或者SAP's HANA系统一较高下。Spark也为ClearStory下一代分析和可视化服务提供处理引擎。如果你喜欢用Hive作为Hadoop的数据仓库,那么 你一定会喜欢Shark,因为它代表了

hdfs、tfs、fastdfs、Tachyon

爱⌒轻易说出口 提交于 2019-12-03 09:25:46
hdfs 架构设计 HDFS按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。 NameNode:是Master节点,是管理者。1、管理数据块映射;2、处理客户端的读写请求;3、配置副本策略;4、管理HDFS的名称空间; NameNode保存的metadata包括文件ownership和permission , 文件包含的block信息 , Block保存在那些DataNode节点上(这部分数据并非保存在NameNode磁盘上的,它是在DataNode启动时上报给NameNode的,Name接收到之后将这些信息保存在内存中), NameNode的metadata信息在NameNode启动后加载到内存中 , Metadata存储到磁盘上的文件名称为fsimage , Block的位置信息不会保存在fsimage中 , Edits文件记录了客户端操作fsimage的日志,对文件的增删改等。用户对fsimage的操作不会直接更新到fsimage中去,而是记录在edits中 SecondaryNameNode:分担namenode的工作量;是NameNode的冷备份;合并fsimage和fsedits然后再发给namenode。 部署方式和使用方法 Hdfs https://blog.csdn.net/qq

Tachyon内存文件系统快速入门

余生颓废 提交于 2019-11-29 16:54:30
一.简介   Tachyon是介于磁盘存储和计算框架之间的一种中间件,用于实现分布式的内存文件读写等功能,实现分布式集群内部共享数据。      应用实例:    二.架构      1.心跳机制     在Tachyon中,心跳用于Master/Worker/Client之间的定期通信以及Master/Worker自身的状态自检。     >Client向Master发送心跳信号,表示Client仍处在连接中,Client释放连接后重新获取连接会获得新的UserId。     >Client向Worker发送心跳信号,表示Client仍处在连接中,Client释放连接后Worker会回收该Client的用户空间。     >Worker自检,向Master发送心跳信号,Worker将自己的存储空间信息更新给Master【容量,移除的块信息】,同时清理超时的用户,回收用户空间。     >Master自检,检查所有Worker的状态,若有Worker失效,会统计丢失的文件并尝试重启该Worker。   2.文件组织          备注:与HDFS类似,Tachyon文件存储也是以块为单位的,在存储时,会先把文件拆分成一个一个的块,之后根据存储级别以及备份策略把一个一个的块分别存储到不同的节点之上。 来源: https://www.cnblogs.com/yszd/p

整合 Tachyon 运行 Hadoop MapReduce(译)

生来就可爱ヽ(ⅴ<●) 提交于 2019-11-29 06:32:39
整合 Tachyon 运行 Hadoop MapReduce 本指南描述如何使Tachyon 与 Hadoop MapReduce 结合运行,这样你可以很容易运行 hadoop MapReduce 程序文件存储在 Tachyon上。 前提 这部分额外的首要条件数是已经 Java 。 我们也假设你已经安装了 Tachyon 和 Hadoop 根据 Local Mode or Cluster Mode 。 如果运行 Hadoop 1.x 集群,确保 hadoop/conf/core-site.xml 文件中你的Hadoop 安装的 conf 目录添加过以下属性: <property> <name>fs.tachyon.impl</name> <value>tachyon.hadoop.TFS</value> </property> <property> <name>fs.tachyon-ft.impl</name> <value>tachyon.hadoop.TFSFT</value> </property> 这将运行你的 MapReduce 任务使用 Tachyon 去输入和输出文件。如果你为Tachyon 使用 HDFS作为底层存储, 可能需要将这些属性添加到 hdfs-site.xml 配置文件中。(译者注:MapReudce计算的过程中,会有中间结果的输出到磁盘