分布式存储

分布式存储-ceph

只愿长相守 提交于 2020-01-30 07:49:00
1. ceph 简介   Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统()。ceph 的统一体现在可以提供文件系统、块存储和对象存储,分布式体现在可以动态扩展。在国内一些公司的云环境中,通常会采用 ceph 作为openstack 的唯一后端存储来提高数据转发效率。 Ceph项目最早起源于Sage就读博士期间的工作(最早的成果于2004年发表),并随后贡献给开源社区。在经过了数年的发展之后,目前已得到众多云计算厂商的支持并被广泛应用。RedHat及OpenStack都可与Ceph整合以支持虚拟机镜像的后端存储。   官网:https://ceph.com/   官方文档:http://docs.ceph.com/docs/master/# 2. Ceph特点 高性能 :   1) 摒弃了传统的集中式存储元数据寻址的方案,采用CRUSH算法,数据分布均衡,并行度高。   2) 考虑了容灾域的隔离,能够实现各类负载的副本放置规则,例如跨机房、机架感知等。   3) 能够支持上千个存储节点的规模,支持TB到PB级的数据。 高可用性:   1) 副本数可以灵活控制。   2) 支持故障域分隔,数据强一致性。   3) 多种故障场景自动进行修复自愈。   4) 没有单点故障,自动管理。 高可扩展性:   1) 去中心化。   2) 扩展灵活。   3)

主流分布式文件系统对比:区块链分布式技术引发云存储革命?HDFS,GFS,GPFS,FusionStorage,IPFS

依然范特西╮ 提交于 2020-01-24 05:57:32
https://blog.csdn.net/weixin_45494421/article/details/98760782 概要:常见的分布式文件系统有GFS、HDFS等,也有新兴的基于区块链IPFS/Filecoin等。有的广泛应用,有的开始挑战,有的是闭源,有的开源。在不同的领域和不同的计算机发展阶段,它们都对数据存储起到了各自的作用。那么这些分布式文件系统都有什么优缺点?我们应该怎样选择适合自己的解决方案? 一、HDFS:被雅虎开源的分布式文件系统 Hadoop分布式文件系统(HDFS),是一个分布式、可扩展的Hadoop框架,具有高容错、低成本部署优势。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。HDFS最初是作为Apache Nutch网络搜索引擎项目的基础设施而构建的,现在是Apache Hadoop子项目。 HDFS如何工作?HDFS支持计算节点之间的数据快速传输,文件系统多次复制或复制每个数据,并将副本分发到各个节点,将至少一个副本放在与其他服务器机架不同的服务器上。因此,崩溃的节点上的数据可以在群集中的其他位置找到。这可确保在恢复数据时继续处理。这使得HDFS高容错性。简单来说,HDFS将文件拆分为块,并将它们分布在集群中的节点上。 架构分析:HDFS采用的是主/从架构(master/slave )

分布式之Session共享

假装没事ソ 提交于 2020-01-23 18:25:51
在上一篇博文中我们通过Nginx+IIS实现了一个简单的负载均衡,那么随之而来的问题就是多个站点在切换时如何共享Session信息,本篇介绍在.net中通过Redis实现分布式站点的Session共享,并且无需修改原项目的Session读取方式。 ASP.Net session存储方式 首先我们看下asp.net中session能采用的存储方式及优缺点。如下: InProc模式(进程内模式) ,为默认设置。优点是性能高无需跨进程读取,缺点是依赖asp.net进程,当进程崩溃重启时会丢失,并且在分布式的情况下无法多个站点共享。 StateServer模式(状态服务器模式)。会话状态存储在一个名为ASP.Net状态服务的单独进程中,这确保了在重新启动Web应用程序时会保留会话状态,并让会话状态可用于网络中的多个Web服务器。 SQL Server模式。会话状态存储到一个SQL Server数据库中。这确保了在重新启动Web应用程序时会保留会话状态,并让会话状态可用于网络中的多个Web服务器。 Custom模式。此模式允许您指定自定义存储提供程序,例如分布式中常采用自定义模式将站点Session存储在Redis或Memcached中。 本篇即采用Custom模式自定义存储提供程序将Session存储在Redis中。 Redis存储Session 采用Custom模块需要修改web

图片集群分布式存储和负载均衡

一世执手 提交于 2020-01-23 10:23:03
今天记录下图片的分布式存储和负载均衡实现原理。 对于Web服务器而言,用户对图片信息的访问是很消耗服务器资源的。当一个网页被浏览时,Web服务器与浏览器建立连接,每个连接表示一个并发。当页面包含多个图片时,Web服务器与浏览器会产生多个连接,同时发送文字和图片以提高浏览速度。因此,页面中图片越多Web服务器受到的压力也就越大。 一般小型网站是把所有页面和图片统一存放在一个主目录下,这样的网站对系统架构、性能要求都很简单。下面是原理图 一些稍有规模的网站都保存有大量图片资源。用户在访问这些站点网页时,网页中图片信息占到页面数据流量的大部分。由于受客户端浏览器限制,无法从一台服务器上同时下载页面中所有图片信息,因此即使服务器有很高带宽,用户的访问速度还是会受到很大影响。由于图片保存在物理硬盘上,访问图片需要频繁进行I/O 操作,因此当并发用户数越来越多时,I/O操作就会成为整个系统的性能瓶颈。这个时候我们就要考虑把这些图片信息进行分布式存储了。 下面说一个适用于中等规模商务网站的图片数据分布式动态存储及负载均衡的解决方案的思路。这种思想只需增加很少的硬件成本,即可提升网站的访问速度,并且可以根据需要动态调整图片服务器的数量及图片的存储目录,确保系统具有可扩展性和伸缩性。但对于大型的网站系统来说,他们可能会有更好的技术来实现数据的分布式存储。 增加了图片服务器后,对于客户端而言

MFS分布式存储搭建过程

不羁的心 提交于 2020-01-22 00:24:45
1.MFS是什么? mooseFS(moose 驼鹿)是一款网络分布式文件系统。它把数据分散在多台服务器上,但对于用户来讲,看到的只是一个源。MFS也像其他类unix文件系统一样,包含了层级结构(目录树),存储着文件属性(权限,最后访问和修改时间),可以创建特殊的文件(块设备,字符设备,管道,套接字),符号链接,硬链接。 2.MFS的特征 1:层析结构(目录树) 2:存储文件属性(权限,访问和修改时间) 3:支持特殊文件(块设备,字符设备,管道) 4:符号链接,软硬链接 5:对文件系统访问可以通过IP地址或者密码进行访问限制 6:高可靠(数据的多个拷贝存储在不同的计算机上) 7:通过附加新的计算机或者硬盘可以实现容量的动态拓展 8:删除文件可以根据一个可配置的时间周期进行保留 9:不受访问和写入影响的文件连贯快照 3.MFS的应用场景 谈及MooseFS的应用场景,其实就是去谈分布式文件系统的应用场景。 1)大规模高并发的数据存储及访问(小文件、大文件), 2)大规模的数据处理,如日志分析 4.MFS官网 http://www.moosefs.com/是MFS官网,上面写了高可用性,低成本数据安全和可扩展性已经高性能等MFS的优点 5.MFS分布式文件系统部署方案 MooseFS 是一种分布式文件系统,MooseFS 文件系统结构包括以下四种角色: 1 管理服务器 managing

存储系统科普——分布式存储系统解决方案介绍

这一生的挚爱 提交于 2020-01-21 07:45:05
简介 该篇blog只是存储系列科普文章中的第四篇,所有文章请参考: 博客所有文章 在工程架构领域里,存储是一个非常重要的方向,这个方向从底至上,我分成了如下几个层次来介绍: 硬件层:讲解磁盘,SSD,SAS, NAS, RAID等硬件层的基本原理,以及其为操作系统提供的存储界面; 操作系统层:即文件系统,操作系统如何将各个硬件管理并对上提供更高层次接口; 单机引擎层:常见存储系统对应单机引擎原理大概介绍,利用文件系统接口提供更高级别的存储系统接口; 分布式层:如何将多个单机引擎组合成一个分布式存储系统; 查询层:用户典型的查询语义表达以及解析; 分布式系统主要分成存储模型和计算模型两类。本文主要描述的是存储模型的介绍。其中计算模型的分布式系统原理跟存储模型类似,只是会根据自身计算特点加一些特殊调度逻辑进去。 分布式层 分布式系统简介 任何一个分布式系统都需要考虑如下5个问题: 数据如何分布 就像把鸡蛋放进篮子里面。一般来说篮子大小是一样的,当然也有的系统支持不一样大小的篮子。鸡蛋大小也不一样,有很多系统就把鸡蛋给"切割"成一样大小然后再放。并且有的鸡蛋表示对篮子有要求,比如对机房/机架位的要求。 衡量一个数据分布算法好不好就看他是否分得足够均匀,使得所有机器的负载方差足够小。 如何容灾 分布式系统一个很重要的定位就是要让程序自动来管机器,尽量减少人工参与

分布式哈希和一致性哈希算法

时间秒杀一切 提交于 2020-01-18 17:25:33
目录 1、数据分布 2、哈希方式 3、一致性哈希方式 笔记来自分布式原理一书,供个人学习。 数据分布 单机系统与分布式系统的最大的区别在于问题的规模,即计算、存储的数据量的区别。将一个单机问题使用分布式解决,首先要解决的就是如何将问题拆解为可以使用多机分布式解决,使得 分布式系统中的每台机器负责原问题的一个子集。由于无论是计算还是存储,其问题输入对象都是数据,所以如何拆解分布式系统的输入数据成为分布式系统的基本问题,我们称这样的数据拆解为数据分布方式。 哈希方式 哈希方式是最常见的数据分布方式,其方法是按照数据的某一特征计算哈希值,并将哈希值与机器中的机器建立映射关系,从而将不同哈希值的数据分布到不同的机器上。所谓数据特征可以是 key-value 系统中的 key,也可以是其他与应用业务逻辑相关的值。例如,一种常见的哈希方式是按数据属于的用户 id 计算哈希值,集群中的服务器按0到机器数减 1 编号,哈希值除以服务器的个数,结果的余数作为处理该数据的服务器编号。工程中,往往需要考虑服务器的副本冗余,将每数台(例如 3)服务器组成一组,用哈希值除以总的组数,其余数为服务器组的编号。图 2-1 给出了哈希方式分数据的一个例子,将数据按哈希值分配到 4 个节点上。 哈希方式特点 : 1.每个节点只计算一部分数据;每个节点只存储一部分数据。 我们假设节点的数量没有变化(实际上不可能)

对话阿里云智能数据库事业部总负责人李飞飞:云数据库战争已经进入下半场

久未见 提交于 2020-01-16 05:35:59
【编者按】DTCC 2019已经结束,云栖社区沉淀了很多阿里巴巴所分享的优质演讲 整理稿件 。这篇转载自IT168&ITPUB执行总编老鱼的公众号,分享给大家。 李飞飞,现任阿里巴巴集团副总裁、高级研究员,阿里云智能数据库事业部总负责人。加入阿里巴巴之前为美国犹他大学计算机系终身教授。研究成果多次获得了IEEE ICDE、ACM SIGMOD最佳论文奖等重要学术奖项。 2018年,李飞飞加入阿里巴巴达摩院,带领团队投入到具有自主知识产权的研究当中。目前,带领的阿里云智能数据库事业部所研发的新一代分布式数据库系统,支撑了阿里巴巴集团的复杂业务、海量数据和双11交易洪峰的挑战,已经被应用于多个城市的智能城市交通网络管理,并服务了金融、零售、物流、制造等行业企业。 2018年,阿里云数据库成功进入Gartner数据库魔力象限,这是该榜单首次出现中国公司,近日,阿里云数据库再次入选Forrester数据库评估报告,成为国内首个获得两大顶级机构认可的科技公司。 2019年5月10日,DTCC 2019(第十届中国数据库技术大会)在北京举办,李飞飞来到现场发表了精彩的主题演讲,并在大会期间接受了IT168&ITPUB执行总编老鱼的深度专访,众多独特观点精彩纷呈。 透露两条信息: 1、PolarDB从去年10月开始商业化到目前,已经成为阿里云上增长最快的数据库产品; 2

115资源那里有卖的

百般思念 提交于 2020-01-13 12:31:43
2008年,阿里巴巴集团首席架构师王坚提出“去IOE”,即摆脱业务系统对IBM小型机、Oracle数据库以及EMC存储的过度依赖。2009年开始,阿里举全公司之力投入到云计算的研发和使用中,随后在阳振坤带领下启动了OceanBase分布式关系数据库项目。 从2011年双11到2019年双11,自主研发的OceanBase数据库,以远低于传统商业数据库的成本,更高的可用性,一次次地刷新世界纪录,打破了核心数据库长期被传统商业数据库垄断的格局。 2017年,OceanBase数据库迈出了商业化关键的第一步,为南京银行“鑫云+”互金开放平台提供金融级分布式关系数据库服务。此后,OceanBase不仅在西安银行、广东农信、人保健康险、招商证券、苏州银行、常熟农商行等金融机构的生产系统中投入运行,并且还出口到了印度和美国等地,为当地的支付业务提供数据库服务。 数据库的前世今生,蚂蚁金服自主研发之路 以前,在以IOE为代表的传统IT环境中,Oracle数据库的地位根深蒂固。2008年王坚博士成为阿里集团首席架构师,他意识到IOE架构对于阿里长期运营成本的影响以及对未来业务发展的制约,不仅提出了“去IOE”的想法,还有力地推动了自研数据库OceanBase的发展。 从2009年开始的双11,每年产生和处理的数据量都在爆发式增长,如果一直采用Oracle数据库的话,运营成本将是天价。另一方面

Ceph分布式存储安装

↘锁芯ラ 提交于 2020-01-13 00:30:56
Ceph分布式存储安装 前言 参照官方文档中的快速安装,结合国内环境,将相关安装源修改为国内镜像源提高安装速度。 http://docs.ceph.org.cn/start/ 基础系统环境 添加阿里云YUM源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo sed -i -e '/mirrors.cloud.aliyuncs.com/d' -e '/mirrors.aliyuncs.com/d' /etc/yum.repos.d/CentOS-Base.repo 更新系统 yum update -y``` ### 关闭防火墙、SELinux systemctl stop firewalld && systemctl disable firewalld setenforce 0 sed -i 's/^SELINUX=.*/SELINUX=disabled/' /etc/selinux/config ### 添加hosts主机名解析(集群采用四台虚拟机) 四台机器均添加 echo "192.168.5.191