分布式文件系统

分布式存储-ceph

只愿长相守 提交于 2020-01-30 07:49:00
1. ceph 简介   Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统()。ceph 的统一体现在可以提供文件系统、块存储和对象存储,分布式体现在可以动态扩展。在国内一些公司的云环境中,通常会采用 ceph 作为openstack 的唯一后端存储来提高数据转发效率。 Ceph项目最早起源于Sage就读博士期间的工作(最早的成果于2004年发表),并随后贡献给开源社区。在经过了数年的发展之后,目前已得到众多云计算厂商的支持并被广泛应用。RedHat及OpenStack都可与Ceph整合以支持虚拟机镜像的后端存储。   官网:https://ceph.com/   官方文档:http://docs.ceph.com/docs/master/# 2. Ceph特点 高性能 :   1) 摒弃了传统的集中式存储元数据寻址的方案,采用CRUSH算法,数据分布均衡,并行度高。   2) 考虑了容灾域的隔离,能够实现各类负载的副本放置规则,例如跨机房、机架感知等。   3) 能够支持上千个存储节点的规模,支持TB到PB级的数据。 高可用性:   1) 副本数可以灵活控制。   2) 支持故障域分隔,数据强一致性。   3) 多种故障场景自动进行修复自愈。   4) 没有单点故障,自动管理。 高可扩展性:   1) 去中心化。   2) 扩展灵活。   3)

主流分布式文件系统对比:区块链分布式技术引发云存储革命?HDFS,GFS,GPFS,FusionStorage,IPFS

依然范特西╮ 提交于 2020-01-24 05:57:32
https://blog.csdn.net/weixin_45494421/article/details/98760782 概要:常见的分布式文件系统有GFS、HDFS等,也有新兴的基于区块链IPFS/Filecoin等。有的广泛应用,有的开始挑战,有的是闭源,有的开源。在不同的领域和不同的计算机发展阶段,它们都对数据存储起到了各自的作用。那么这些分布式文件系统都有什么优缺点?我们应该怎样选择适合自己的解决方案? 一、HDFS:被雅虎开源的分布式文件系统 Hadoop分布式文件系统(HDFS),是一个分布式、可扩展的Hadoop框架,具有高容错、低成本部署优势。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。HDFS最初是作为Apache Nutch网络搜索引擎项目的基础设施而构建的,现在是Apache Hadoop子项目。 HDFS如何工作?HDFS支持计算节点之间的数据快速传输,文件系统多次复制或复制每个数据,并将副本分发到各个节点,将至少一个副本放在与其他服务器机架不同的服务器上。因此,崩溃的节点上的数据可以在群集中的其他位置找到。这可确保在恢复数据时继续处理。这使得HDFS高容错性。简单来说,HDFS将文件拆分为块,并将它们分布在集群中的节点上。 架构分析:HDFS采用的是主/从架构(master/slave )

GFS分布式文件系统集群(理论)

核能气质少年 提交于 2020-01-18 03:39:08
GlusterFS概述 1、GlusterFS简介 (1)开源的分布式文件系统 (2)由存储服务器、客户端以及NFS/Samba存储网关组成 (3)无元数据服务器(数据传输组件RDMA) (4)GlusterFS特点:扩展性、高性能、高可用性 (5)全局统一命名空间 (6)弹性卷管理---->云的特性:水平(实例数)、垂直(硬件性能),包括ECS(虚拟)、OSS和RDS(裸金属) (7)基于标准协议 2、GlusterFS术语 (1)Brick(节点) (2)Volume(卷) (3)FUSE(用户端交互模块) (4)VFS(虚拟化文件系统) (5)Glusterd(服务) 3、模块化堆栈式架构 (1)模块化、堆栈式的架构 (2)通过对模块的组合,实现复杂的功能 GlusterFS工作原理 2、弹性HASH算法 (1)通过HASH算法得到一个32位的整数 (2)划分为N个连续的子空间,每个空间对应一个Brick (3)弹性HASH算法的优点: ☀保证数据平均分布在每一个Brick中 ☀解决了对元数据服务器的依赖,进而解决了单点故障以及访问瓶颈 GlusterFS的卷类型 1、分布式卷 ●没有对文件进行分块处理 ●通过扩展文件属性保存HASH值 ●支持的底层文件系统有ext3、ext4、 ZFS、 XFS等 (1)特点 ●数据被分割成更小块分布到块服务器群中的不同条带区

GlusterFS分布式文件系统原理

与世无争的帅哥 提交于 2020-01-12 04:33:01
GlusterFS概述 GlusterFS(Gluster File System)是一个开源的分布式文件系统,主要由Z RESEARCH公司负责开发、是Scale-Out存储解决方案Gluster的核心,它是一个开源的分布式文件系统,在存储方面具有强大的横向扩展能力,通过扩展不同的节点可以支持数PB存储容量和处理数干台客户端。GlusterFS借助TCP/IP或InfiniBand RDMA网络将物理分布的存储资源聚集在一起,使用单一全局命名空间来管理数据。GlusterFS基于可堆叠的用户空间及无元的设计,可为各种不同的数据负载提供优异的性能。 GlusterFS主要由存储服务器(Block Server)、客户端及NFS/Samba存储网关(可选,根据需要选择使用)组成,GlusteFS架构中最大的设计特点是没有元数据服务器组件,这有助于提升整个系统的性能、可靠性和稳定性。 GlusterFS主要特征如下: 扩展性和高性能 高可用性 全局统一命名空间 弹性哈希算法 弹性卷算法 基于标准协议 GlusterFS的卷类型: GlusterFS支持七种卷,分布式卷、条带卷、复制卷、分布式条带卷、分布式复制卷、条带复制卷和分布式条带复制卷,这七种卷可以满足不同应用对高性能、高可用的需求。 1.分布式卷 分布式卷是GlusterFS的默认卷,在创建卷时,默认选项是创建分布式卷

分布式大数据系统概览(HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph)

痴心易碎 提交于 2020-01-10 17:39:19
分布式大数据处理系统概览(一)   本博文主要对现如今分布式大数据处理系统进行概括整理,相关课程为华东师范大学数据科学与工程学院《大数据处理系统》,参考 大夏学堂 ,下面主要整理 HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph 有关的内容。 分布式大数据处理系统大纲 分布式大数据处理系统概览(一): HDFS/MapReduce/Spark 分布式大数据处理系统概览(二): Yarn/Zookeeper 分布式大数据处理系统概览(三): Storm/SparkStreaming 分布式大数据处理系统概览(四): Lambda/DataFlow/Flink/Giraph   第一节部分主要总结分布式系统的目标、性质;简要介绍几种分布式计算的编程模型;介绍计算机进程与线程关系及远程调用方式;介绍文件系统DFS、介绍Hadoop的文件系统HDFS;介绍分布式计算批处理系统MapReduce和Spark。 0.绪论 0.1分布式系统的目标 0.2 大数据的五个特性(5V) (1)数量Volume (2)种类Variety (3)价值Value (4)真实性Veracity (5)速度Velocity 0.3 分布式计算生态圈 0.4分布式计算底层系统 (1

fastDFS分布式文件系统搭建

孤街浪徒 提交于 2020-01-08 01:35:23
fastDFS概述  FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。  FastDFS为互联网量身定制,充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标,使用FastDFS很容易搭建一套高性能的文件服务器集群提供文件上传、下载等服务。 优势 (1)海量的存储:主从型分布式存储,存储空间方便拓展, (2)fastDFS对文件内容做hash处理,避免出现重复文件 (3)然后fastDFS结合Nginx集成, 提供网站效率 组成结构 1、跟踪器(tracker):跟踪器主要做调度工作; 2、存储节点(storage):在访问上起负载均衡的作用 实验环境 tracker服务器 192.168.13.128(libfastcommon、fastd、) storage+Nginx服务器 192.168.13.129(libfastcommon) 1,在所有节点服务器上安装libfastcommon服务 [root@tracker ~]# yum -y install libevent \ ##安装环境必要的组件 libevent-devel perl make gcc zlib zlib

MFS分布式文件系统搭建

女生的网名这么多〃 提交于 2020-01-07 01:18:19
MFS概述 MooseFS是一个具有容错性的网络分布式文件系统。它把数据分散存放在多个物理服务器上,而呈现给用户的则是一个统一的资源。 优势 1、高可靠(数据的多个拷贝被存储在不同的计算机上) 2、通过附加新的计算机或者硬盘可以实现容量的动态扩展 3、删除的文件可以根据一个可配置的时间周期进行保留(一个文件系统级别的回收站) 4、不受访问和写入影响的文件连贯快照 缺点 master服务器不能解决单点故障 MFS的构成 元数据服务器(Master): 在整个体系中负责管理文件系统,维护元数据,目前不支持高可用。 元数据日志服务器(MetaLogger): 备份Master服务器的变化日志文件,当master服务器损坏,可以从日志服务器中取得文件恢复。 数据存储服务器(Chunk Server): 真正存储数据的服务器,服务器越多,容量就越大,可靠性越高,性能越好。 客户端(Client): 可以像挂载NFS一样 挂载MFS文件系统 实验拓扑图 实验环境     服务器                 IP地址              master服务器         192.168.13.128 log日志服务器         192.168.13.129 chunk1服务器         192.168.13.130 chunk2服务器         192.168.13

分布式文件系统HDFS

左心房为你撑大大i 提交于 2020-01-06 19:17:32
一.启动hdfs 在sbin目录下 ./start-dfs.sh jps检测进程是否开启 查看进程 方式一:jps检测进程是否开启 方式二: http://192.168.198.10:50070 发现进程有误,在logs目录下寻找log文件。 浏览器打不开 :查看防火墙状态:sudo firewall-cmd --state 关闭防火墙: sudo systemctl stop firewalld.service start-dfs.sh = hadoop-daemons.sh start namenode hadoop-daemons.sh start datanode hadoop-daemons.sh start secondarynamenode 二.命令行操作 hadoop常用命令: hadoop fs -ls / hadoop fs -put 从本地复制到hdfs hadoop fs -copyFromLocal hadoop fs -moveFromLocal hadoop fs -cat hadoop fs -text hadoop fs -get 复制到本地 hadoop fs -mkdir hadoop fs -mv 移动/改名 hadoop fs -getmerge hadoop fs -rm hadoop fs -rmdir hadoop fs -rm

Yum简单安装MFS分布式文件系统

戏子无情 提交于 2020-01-03 19:48:50
什么是MFS? MooseFS是一个容错,高可用,高性能,扩展,网络分布式文件系统。它将数据分布在多个物理商品服务器上,这些服务器对用户可视为一个虚拟磁盘。它符合POSIX并且像任何其他类Unix文件系统一样支持: 分层结构:文件和文件夹, 文件属性, 特殊文件:管道,插座,块和字符设备, 符号和硬链接, 安全属性和ACL。 它适用于需要标准文件系统的所有应用程序。 分布式原理 分布式文件系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。简单来说,就是把一些分散的(分布在局域网内各个计算机上)共享文件夹,集合到一个文件夹内(虚拟共享文件夹)。对于用户来说,要访问这些共享文件时,只要打开这个虚拟共享文件夹,就可以看到所有链接到虚拟共享文件夹内的共享文件夹,用户感觉不到这些共享文件是分布于各个计算机上的。分布式文件系统的好处是集中访问、简化操作、数据容灾,以及提高文件的存取性能。 MFS原理 MFS是一个具有容错性的网络分布式文件系统,它把数据分散存放在多个物理服务器上,而呈现给用户的则是统一的资源。 MFS文件系统的组成 元数据服务器(Master):在整个体系中负责管理文件系统,维护元数据。 元数据日志服务器(Metalogger):备份Master服务器的变化日志文件,文件类型为changelog_ml.*.mfs

MFS分布式文件系统架构实战

寵の児 提交于 2020-01-03 19:48:43
MFS分布式文件系统架构实战 MFS文件系统的组成架构: 如图 元数据服务器(Master):负责管理文件系统,维护元数据; 元数据日志服务器(c):备份Master服务器的变化日志文件; 数据存储服务器( Chunk Server):真正存储数据的服务器; 客户端(Client)可像挂载NFS一样挂载MFS文件系统 案例环境: 第一步:搭建Master server 准备工作: service firewalld stop setenforce 0 yum install -y zlib-devel groupadd mfs useradd -s /sbin/nologin -g mfs -M mfs 编译安装moosefs tar xf moosefs-3.0.100-1.tar.gz -C /opt/ cd /opt/moosefs-3.0.100/ ./configure \ --prefix=/usr/local/mfs \ --with-default-user=mfs \ --with-default-group=mfs \ --disable-mfschunkserver \ --disable-mfsmount make && make install 拷贝相关配置模板: cd /usr/local/mfs/etc/mfs/ cp mfsmaster.cfg