分布式文件系统

GFS分布式文件系统集群(实例!!!)

坚强是说给别人听的谎言 提交于 2019-12-18 23:44:29
GFS分布式文件系统集群项目 群集环境 卷类型 卷名称 卷类型 空间大小 Brick dis-volume 分布式卷 40G node1(/b1)、node2(/b1) stripe-volume 条带卷 40G node1(/c1)、node2(/c1) rep-volume 复制卷 20G node3(/b1)、node4(/b1) dis-stripe 分布式条带卷 40G node1(/d1)、node2(/d1)、node3(/d1)、node4(/d1) dis-rep 分布式复制卷 20G node1(/e1)、node2(/e1)、node3(/e1)、node4(/e1) 实验准备 1、为四台服务器服务器每台添加4个磁盘 2、修改服务器的名称 分别修改为node1、node2、node3、node4 [root@localhost ~]#hostnamectl set-hostname node1 [root@localhost ~]# su 3、将四台服务器上的磁盘格式化,并挂载 在这里我们使用脚本执行挂载 #进入opt目录 [root@node1 ~]# cd /opt #磁盘格式化、挂载脚本 [root@node1 opt]# vim a.sh #! /bin/bash echo "the disks exist list:" fdisk -l |grep

hadoop简介

馋奶兔 提交于 2019-12-08 19:01:47
转: http://baike.baidu.com/link?url=HwhPVuqqWelWIr0TeSBGPZ5SjoaYb5_Givp9-rJN-PYbSTMlwpECSKvjzLBzUE7hn9VvmhDoKb5NNCPw1pCsTa Hadoop 是一个由Apache基金会所开发的 分布式系统 基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 [1] Hadoop实现了一个 分布式文件系统 (Hadoop Distributed File System),简称HDFS。HDFS有高 容错性 的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问 应用程序 的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 [2] 中文名 海杜普 外文名 Hadoop 类 别 电脑程序 全 称 Hadoop Distributed File System 目录 1 起源 ▪ 项目起源 ▪

【翻译笔记】Hadoop分布式文件系统

我与影子孤独终老i 提交于 2019-12-06 20:31:17
摘要 Hadoop分布式文件系统(HDFS)设计用来可靠的存储超大数据集,同时以高速带宽将数据集传输给用户应用。 在一个超大集群中,数以千计的服务器直接接触存储器和执行用户应用任务。 通过许多服务器的分布式存储和计算,资源随需求增长的时候仍然可以保持经济性。 我们解释了HDFS架构,同时介绍了我们在雅虎使用HDFS去管理25PB企业数据的经验。 1、介绍和相关工作 Hadoop 的 一个重要特点是将数据和计算能力划分为小部分,通过许多(数千)主机运行 ,这些主机并行计算得到他们的结果。一个 Hadoop 集群通过简单增加商用服务器的数量来扩展其计算能力,存储能力和 IO 带宽。 1.1、与其他分布式系统的异同点 相同点 HDFS 分别存储文件系统元数据和应用程序数据。 与在 其他分布式文件系统 中相同, 比如 PVFS 【 2 】【 14 】, Lustre 【 7 】和 GFS 【 5 】【 8 】, HDFS 在一个专门的服务器存储元数据,这个服务器被称为名称节点。应用程序数据存储在其他被称为数据结点的服务器上。 不同点 HDFS中的数据节点 并不使用数据保护机制 比如RAID( 独立磁盘冗余阵列 ),以确保数据持久性。 相反。比如GFS, 其文件内容在多个数据节点是重复的以确保可靠性 。 这个策略不仅仅可以确保数据持久性,还有额外的优点:数据变形带宽加倍

FastDFS搭建分布式文件系统

瘦欲@ 提交于 2019-12-06 10:20:17
FastDFS搭建分布式文件系统 1. 什么是分布式文件系统 分布式文件系统 (Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。 通俗来讲: 传统文件系统管理的文件就存储在本机。 分布式文件系统管理的文件存储在很多机器,这些机器通过网络连接,要被统一管理。无论是上传或者访问文件,都需要通过管理中心来访问 2. 什么是FastDFS FastDFS是由淘宝的余庆先生所开发的一个轻量级、高性能的开源分布式文件系统。用纯C语言开发,功能丰富: 文件存储 文件同步 文件访问(上传、下载) 存取负载均衡 在线扩容 适合有大容量存储需求的应用或系统。同类的分布式文件系统有谷歌的GFS、HDFS(Hadoop)、TFS(淘宝)等。 3. FastDFS的架构 3.1 fast架构 FastDFS两个主要的角色:Tracker Server 和 Storage Server 。 Tracker Server :跟踪服务器,主要负责 调度 storage节点与client通信,在访问上起 负载均衡 的作用,和记录storage节点的运行状态,是连接client和storage节点的 枢纽 。 Storage Server :存储服务器, 保存 文件和文件的meta data(元数据),每个storage

FastDFS搭建分布式文件系统

旧城冷巷雨未停 提交于 2019-12-06 10:19:12
FastDFS搭建分布式文件系统 1. 什么是分布式文件系统 分布式文件系统 (Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。 通俗来讲: 传统文件系统管理的文件就存储在本机。 分布式文件系统管理的文件存储在很多机器,这些机器通过网络连接,要被统一管理。无论是上传或者访问文件,都需要通过管理中心来访问 2. 什么是FastDFS FastDFS是由淘宝的余庆先生所开发的一个轻量级、高性能的开源分布式文件系统。用纯C语言开发,功能丰富: 文件存储 文件同步 文件访问(上传、下载) 存取负载均衡 在线扩容 适合有大容量存储需求的应用或系统。同类的分布式文件系统有谷歌的GFS、HDFS(Hadoop)、TFS(淘宝)等。 3. FastDFS的架构 3.1 fast架构 FastDFS两个主要的角色:Tracker Server 和 Storage Server 。 Tracker Server :跟踪服务器,主要负责 调度 storage节点与client通信,在访问上起 负载均衡 的作用,和记录storage节点的运行状态,是连接client和storage节点的 枢纽 。 Storage Server :存储服务器, 保存 文件和文件的meta data(元数据),每个storage

Spark生态圈的分布式文件系统-Tachyon

末鹿安然 提交于 2019-12-06 06:14:25
Tachyon 是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,类似Spark和 MapReduce。通过利用lineage信息,积极地使用内存,Tachyon的吞吐量要比HDFS高300多倍。Tachyon都是在内存中处理缓 存文件,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件。 特性: 类 Java 的文件 API 兼容性:实现 Hadoop 文件系统接口 可插入式的底层文件系统 内建 Raw 原生表的支持 基于 Web 的 UI 提供命令行接口 Tachyon 架构: 与 HDFS 的比较: Hadoop足够快吗?美国加州大学伯克利分校的AMPLab基于 Hadoop 的核心组件开发出一个更快的版本Tachyon。AMPLab从底层重建了Hadoop平台,“没有最快,只有更快”。 AMPLab在大数据领域最知名的产品是 Spark , 它是一个内存中并行处理的框架,Spark的创造者声称:使用Shark运行并行处理Job速度要比MapReduce快100倍。又因为Spark是在 内存运行,所以Shark可与Druid或者SAP's HANA系统一较高下。Spark也为ClearStory下一代分析和可视化服务提供处理引擎。如果你喜欢用Hive作为Hadoop的数据仓库,那么 你一定会喜欢Shark,因为它代表了

分布式文件系统HDFS简要介绍

社会主义新天地 提交于 2019-12-06 04:18:42
HDFS 的设计主要基于以下六点考虑: (1)容错 独立计算机的硬件错误不能当异常情况处理,而属于正常状态。HDFS 文件系统中会有许多个普通计算机节点构成, 在任何时间任何一个节点都有可能出现故障, 因此HDFS 应该设计成能够自动恢复和快速检测错误, 这应该是维持HDFS 可靠运行的核心目标。 (2)流式访问数据集 HDFS上运行的应用程序需要以流式访问所存储的数据集。这些应用程序都采用并行的批处理方式进行数据计算,不同于普通系统上用于数据处理的应用程序。提高数据访问吞吐量是研究HDFS的重点,响应时间和数据访问的延迟则不作过多考虑。 (3)大数据存储 HDFS 最基本的目标就是支持大数据存储。一个存储在HDFS 系统上面的普通文件大小都在千兆至T 字节, 一个HDFS 应用最基本的要求是能支撑海量文件。 (4) 数据一致性 HDFS 应用处理文件的方式是一次写入多次读取。单个文件写入到HDFS 中后就不需要改变。这种处理文件的方式让数据一致性问题得到简化, 能够大幅度的提高HDFS 文件访问的吞吐量。 (5)速度 移动计算的方式代价比移动数据的方式开销要低。一个需要计算的请求,如果计算离操作数据越近那么计算出来的结果就越高效, 特别是在海量级别的数据计算时,效率更加明显。 (6)可移植性 在异构的软件和硬件平台间提供可移植性。HDFS 由Java 语言开发,Java

Zookeeper系列(一)

空扰寡人 提交于 2019-12-05 05:28:50
一、ZooKeeper的背景 1.1 认识ZooKeeper ZooKeeper---译名为“动物园管理员”。动物园里当然有好多的动物,游客可以根据动物园提供的向导图到不同的场馆观赏各种类型的动物,而不是像走在原始丛林里,心惊胆颤的被动 物所观赏。为了让各种不同的动物呆在它们应该呆的地方,而不是相互串门,或是相互厮杀,就需要动物园管理员按照动物的各种习性加以分类和管理,这样我们才能更加放心安全的观赏动物。 回到企业级应用系统中,随着信息化水平的不断提高,企业级系统变得越来越庞大臃肿,性能急剧下降,客户抱怨频频。拆分系统是目前我们可选择的解决系统可伸缩性和性能问题的唯一行之有效的方法。但是拆分系统同时也带来了系统的复杂性——各子系统不是孤立存在的,它们彼此之间需要协作和交互,这就是我们常说的分布式系统0。各个子系统就好比动物园里的动物,为了使各个子系统能正常为用户提供统一的服务,必须需要一种机制来进行协调——这就是ZooKeeper(动物园管理员)。 1.2 为什么使用ZooKeeper 我们知道要写一个分布式应用是非常困难的,主要原因就是局部故障。一个消息通过网络在两个节点之间传递时,网络如果发生故障,发送方并不知道接收方是否接收到了这个消息。他可能在网络故障迁就收到了此消息,也坑没有收到,又或者可能接收方的进程死了。发送方了解情况的唯一方法就是再次连接发送方,并向他进行询问

mfs分布式文件系统,分布式存储,高可用(pacemaker+corosync+pcs),磁盘共享(iscsi),fence解决脑裂问题

痴心易碎 提交于 2019-12-04 11:05:15
一.MFS概述 MooseFS是一个分布式存储的框架,其具有如下特性: (1)通用文件系统,不需要修改上层应用就可以使用(那些需要专门api的dfs很麻烦!)。 (2)可以在线扩容,体系架构可伸缩性极强。(官方的case可以扩到70台了!) (3)部署简单。 (4)高可用,可设置任意的文件冗余程度(提供比raid1+0更高的冗余级别,而绝对不会影响读或者写的性能,只会加速!) (5)可回收在指定时间内删除的文件(“回收站”提供的是系统级别的服务,不怕误操作了,提供类似oralce 的闪回等高级dbms的即时回滚特性!) (6)提供netapp,emc,ibm等商业存储的snapshot特性。(可以对整个文件甚至在正在写入的文件创建文件的快照) (7)google filesystem的一个c实现。 (8)提供web gui监控接口。 # 读写原理 1.MFS的读数据过程 (1) client当需要一个数据时,首先向master server发起查询请求; (2)管理服务器检索自己的数据,获取到数据所在的可用数据服务器位置ip|port|chunkid; (3)管理服务器将数据服务器的地址发送给客户端; (4)客户端向具体的数据服务器发起数据获取请求; (5)数据服务器将数据发送给客户端; 2.MFS的写数据过程 (1)当客户端有数据写需求时

分布式文件系统----fastDFS

吃可爱长大的小学妹 提交于 2019-12-04 09:30:59
fastDSF介绍   FastDFS是用c语言编写的一款开源的分布式文件系统,它是由淘宝资深架构师余庆编写并开源。FastDFS专为互联网量身定制,充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标,使用FastDFS很容易搭建一套高性能的文件服务器集群提供文件上传、下载等服务。 为什么要使用fastDFS呢?   NFS、GFS都是通用的分布式文件系统,通用的分布式文件系统的优点的是开发体验好,但是系统复杂性高、性能一般,而专用的分布式文件系统虽然开发体验性差,但是系统复杂性低并且性能高。fastDFS非常适合存储图片等那些小文件,fastDFS不对文件进行分块,所以它就没有分块合并的开销,fastDFS网络通信采用socket,通信速度很快。 来源: https://www.cnblogs.com/yanxiaoge/p/11853758.html