分布式存储

初识OceanBase

六月ゝ 毕业季﹏ 提交于 2019-12-26 15:41:37
OceanBase 是一款由阿里巴巴公司自主研发的高性能、分布式的关系型数据库,支持完整的 ACID 特性,高度兼容 MySQL 协议与语法,能够以最小的迁移成本使用高性能、可扩张、持续可用的分布式数据服务。 OceanBase 实现了数千亿条记录、数百 TB 数据的跨行跨表业务,支持了天猫大部分的 OLTP 和 OLAP 在线业务。 OceanBase 特性 OceanBase 最初是为了处理淘宝网的大规模数据而产生的。传统的 Oracle 单机数据库无法支撑数百 TB 的数据存储、数十万的 QPS,通过硬件扩展的方式成本又太高。 淘宝网曾使用 MySQL 取代 Oracle,但是需要进行分库分表来存储,也有很多弊端。通过分库分表添加节点比较复杂,查询时有可能需要访问所有的分区数据库,性能很差。 淘宝网甚至考虑过 HBase ,但是 HBase 只能支持单行事务查询,且不支持 ACID 特性,只支持最终一致性。而淘宝网的业务必须支持跨行跨表业务,且一些订单信息需要支持强一致性。 基于以上原因,这就需要开发一个新的数据库,既要有良好的可扩展性,又能支持跨行跨表事务,OceanBase 就应运而生了。 OceanBase 具有以下特性: 1) 高扩展性 虽然传统关系型数据库(如 Oracle 或 MySQL)的功能已经很完善,但是数据库可扩展性比较差,随着数据量增大

GlusterFS分布式文件系统概述

≯℡__Kan透↙ 提交于 2019-12-24 18:26:39
博文目录 一、GlusterFS概述 1、GlusterFS的特点 2、GlusterFS术语 3、模块化堆栈式架构 二、GlusterFS的工作原理 1、GlusterFS的工作流程 2、弹性HASH算法 三、GlusterFS的卷类型 1、分布式卷 2、条带卷 3、复制卷 4、分布式条带卷 5、分布式复制卷 一、GlusterFS概述 GlusterFS是一个开源的分布式文件系统,同时也是Scale-Out存储解决方案Gluster的核心,在存储数据方面有强大的横向扩展能力,通过扩展不同的节点可以支持PB级别的存储容量。GlusterFS借助TCP/IP或InfiniBand RDMA网络将分散的存储资源汇聚在一起,同一提供存储服务,并使用单一全局命令空间来管理数据。GlusterFS基于可堆叠的用户空间以及无元的设计,可为各种不同的数据负载提供优异的性能。 GlusterFS主要由存储服务器、客户端及NFS/Samba存储网关(可选,根据需要选择使用)组成。GlusterFS架构中最大的设计特点就是没有元数据服务器组件,这有助于提升整个系统的性能、可靠性和稳定性。传统的分布式文件系统大多通过元服务器来存储元数据,元数据包含存储节点上的目录信息、目录结构等,这样的设计在浏览目录时效率非常高,但是也存在一些缺陷,如单点故障,一旦元数据服务器出现故障,即使节点具备再高的冗余性

FastDFS 分布式文件存储

蓝咒 提交于 2019-12-24 07:57:32
FastDFS 分布式文件存储 什么是FastDFS? FastDFS是一个开源的轻量级的分布式文件系统。他解决了大量数据存储和负载均衡等问题。特别适合以中小文件(4KB < FileSize < 500MB)为载体的在线服务,如视频,音频,图片网站等等。 FastDFS是一款开源的轻量级分布式文件系统,他是由纯 C 实现,支持Linux,FreeBSD等UNIX系统类,不是通用的文件系统,只能通过专有的API访问,目前提供了C、Java和PHP API为互联网应用量身定做,解决大容量文件存储问题,追求高性能和高扩展性FastDFS可以看做是基于文件的key value pair存储系统,称作分布式文件存储服务更为合适。 FastDFS的特性? 文件不分块存储,上传的文件和OS文件系统中的文件一一对应 支持相同内容的文件只保存一份,节约磁盘空间(一个group里面只设置一个storage) 下载文件支持HTTP协议,可以使用内置的 Web Server ,也可以和其他的 Web Server 配合使用 支持在线扩容 支持主从文件 存储服务器上可以保存文件属性(meta-data)V2.0网络通信采用libevent,支持发兵法访问,整体性能更好 FastDFS架构 Tracker Server 跟踪服务器 跟踪服务器,主要做调度工作,起负载均衡的作用

杉岩海量图片分布式存储解决方案

|▌冷眼眸甩不掉的悲伤 提交于 2019-12-24 00:04:54
随着互联网、云计算及大数据等信息技术的发展,越来越多的应用依赖于对海量数据的存储和处理,如智能监控、电子商务、地理信息等,这些应用都需要对海量图片的存储和检索。由于图片大多是小文件(80%大小在数MB以内),以GFS、HDFS为代表的适用于流式访问大文件的分布式存储系统,若直接用来存储图片,由于元数据膨胀,在扩展性和性能方面均存在严重问题。 为了解决HDFS在小文件存储方面的问题,通常的做法是先将很多小文件合并成一个大文件再保存到HDFS,同时为这些小文件建立索引,以便进行快速存取。典型技术包括Hadoop自带的Archive、SequenceFile,但均需要用户自己编写程序,实现小文件的合并。为了实现小文件合并对用户的透明,需从系统层面解决HDFS小文件问题。论文针对具体应用场景进行了探索,但不具有通用性。 SandStone MOS海量图片解决方案 对于海量图片数据的存储问题,杉岩海量对象存储(SandStone MOS)解决方案采用去中心化分布式架构,同时利用软件定义的方式实现了单一名字空间条件下数百PB级规模的容量扩展,业务可以随时随地访问而不受数据存储位置的限制。 在提升海量小文件访问性能方面,SandStone MOS利用哈希计算实现了数亿级文件的高效访问。针对文件检索困难,SandStone MOS支持标签功能,文件存储时会自动设置标签,从而更好地与业务结合

分布式存储入门

不想你离开。 提交于 2019-12-21 23:37:23
根据阿里云《分布式文件存储系统技术及实现》整理而成。 1 分布式存储的客观需求 存储容量大 考虑对1PB数据进行排序,输入输出都需要1PB,算上中间临时数据,总共需要3-4PB。考虑多用户使用,则集群需要的总的存储空间大于100PB。 高吞吐量,如1PB数据排序需要在2小时内完成,每秒需要几十GB 数据可靠性,在数据规模增长时,降低数据丢失 服务高可用,99.95%意味着每年每年只有4-5小时不可用 高效运维,将日常硬件处理做成流程化,对监控报警要有完善支持 低成本,保证数据安全,正确服务稳定前提下,降低成本,才是分布式存储的核心竞争力 2 小概率事件对分布式系统挑战 单机系统下很少发生的事件,在大规模分布式系统中就会经常发生。 可能发生的小概率问题有: 1 磁盘错误 单机下运行稳定,集群下可能出现频繁。要考虑如何发现慢节点自动规避,发现机器宕机自动绕过。 2 Raid卡故障 发生在高可用节点上的事件。Raid卡是带有电池的缓存块,写入速度很快,能够在断电时保存数据。利用raid卡先缓存数据,之后再写入磁盘中。 3 网络故障 网络架构是一种树形结构,通过顶层交换机连接下层交换机,交换机下连接多台机器。 当上连交换机节点出错时,一部分主机将与其他主机分离,无法发挥作用。 可以将关键角色分布在不同的交换机下,将数据存储多份,某些机器失效时还可以访问到数据。 4 电源故障

OceanBase分布式系统负载均衡案例学习

南楼画角 提交于 2019-12-19 17:11:02
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 一个集群如果出现了负载不均衡问题,那么负载最大的机器往往将成为影响系统整体表现的瓶颈和短板。为了避免这种情况的发生,需要动态负载均衡机制,以达到实时的最大化资源利用率,从而提升系统整体的吞吐。 OceanBase架构介绍 OceanBase是一个具有 自治功能 的分布式存储系统,由 中心节点RootServer、静态数据节点ChunkServer、动态数据节点UpdateServer以及数据合并节点MergeServer四个Server构成 ,如下图所示。 Tablet:分片数据,最基本的存储单元,一般会存储多份,一个Table由多个tablet构成; RootServer:负责集群机器的管理、Tablet定位、数据负载均衡、Schema等元数据管理等。 UpdateServer:负责存储动态更新数据,存储介质为内存和SSD,对外提供写服务; ChunkServer:负责存储静态Tablet数据,存储介质为普通磁盘或者SSD。 MergeServer:负责对查询中涉及多个Tablet数据进行合并,对外提供读服务; 在一个集群中,Tablet的多个副本分别存储在不同的ChunkServer,每个ChunkServer负责一部分Tablet分片数据,MergeServer和ChunkServer一般会一起部署。

企业常用GFS分布式存储系统

点点圈 提交于 2019-12-19 00:01:41
GlusterFS简介 开源的分布式文件系统 由存储服务器,客户端以及NFS/Samba存储网关组成 无元数据服务器 GlusterFS特点 扩展性和共性能 高可用 全局统一命名空间 弹性卷管理 基于标准协议 GlusterFS概述 Brick存储节点 Volume卷 fuse内核模块,用户端的交互性模块 vfs虚拟 Glusterd服务 来理解一下这张图: 上面一层虚拟化管理层,想当于一个应用。缓存,读写头,条带卷,代理想当于API接口 中间rdma传输 相当于一个驱动 下面一层真实的设备 相 当于一个硬件 clusterFS工作流程 弹性HASH算法 通过HASH算法的到一个32位的整数 划分位N个连续的子空间,每个空间对应一个Brick 弹性HASH算法的优点 保证 数据平均分布在每一个Brick中 解决了对元数据服务器的依赖,进而解决了单点故障以及访问瓶颈 通过HASH算法的到一个32位算法,去算去选择,因为你的每一个节点都存储一部分数据,你怎么去识别排序,通过算法。 四个Brick节点的GlusterFS卷,平均分配232次方的区间的范围空间 通过hash算法去找到对应的brick节点的存储空间,去分配数据存储,去调用每一个节点数据 clusterfs的卷类型 分布式卷 复制卷 分布式条带卷 分布式复制卷 条带复制卷 分布式条带复制卷 分布式卷 没有对文件进行分块处理

海量图片存储,杉岩分布式对象存储轻松应对

夙愿已清 提交于 2019-12-18 18:54:09
当今世界,互联网、大数据应用迅猛发展,物联网、人工智能、云计算 技术日新月异,随之而来的是各种企业和个人应用持续不断地产生亿级甚至是百亿级的海量小文件。这些小文件的元数据管理、存储性能以及访问效率等问题因而成为学术界和工业界公认的难题。 例如,国内目前最大的电商网站淘宝存储的商品图片超过 200 亿张,这些文件的平均大小仅为 15KB 左右,国外著名的社交网站Facebook 存储的图片总量更是超过了600亿张;在线视频播放服务中,每个视频会被切片服务器分割成 1MB 左右的分片文件,一部动画电影所包含的图片文件可能会超过 500 万张,平均大小为15KB;一些在线阅读图书每页内容均会被扫描成大约几十KB的图片文件…… 在非结构化数据和新应用快速增加的情况下,对象存储更能满足企业的业务需求。为此,杉岩数据推出了强大的对象存储产品,解决企业对海量图片、视频等非结构数据存储需求,以便更好的挖掘非结构化数据的价值。 端到端的Scale-Out扩展,实现大数据积累 分布式对象存储总容量可达到数百PB级规模,单个名字空间也可以扩展到整个硬件存储总空间容量,不需要割裂成多个隔离空间,并且在文件数量上会有更大的扩展,文件数量可达百亿级,是真正的端到端Scale-Out快速扩展。它可以满足业务系统整个生命周期的存储容量需求,无需挂载目录和调整业务系统,让IT人员更加关注业务价值本身。

【转载】某篇文章的读后感,谈一谈 9 款国产图数据库

做~自己de王妃 提交于 2019-12-18 11:23:29
作者知乎id:一路走好 本人目前做图的底层存储引擎“分片和副本分布式可扩展”相关的研究,来满足业务的快速增长。 本文内容大量来自被我阅读的文章。感谢王建奎博士~~ 华为 先来说说最神秘的华为吧,华为的图数据库构建在多模数据库中,由高斯实验室负责原型研发,图数据库的 headcount 由任总钦点,图数据库在华为重要性可想而知,但是由于华为保密要求严格,凡事都不让对外说。技术领先,设计方案简单高效。其他朋友不方便多跟我说,不过团队从现在到前后会新增 至少 20 个 headcount,任总有要求,非招人不可大有可为呀。如果有想去上海工作的朋友,欢迎联系我,我帮你联系我的朋友。 费马科技 洪春涛学长在北京BDTC2017中国大数据技术大会上深入分析了当时图数据库和图计算领域的难点、现状以及费马在2个领域的优化和产品能力。我当时真的对那几个优化数字感到震惊费马的性能真的非常好,团队也非常专业。京东金融是他们的一个客户案例(详细可查看:https://fma-ai.cn/case)。 费马科技是一个专注图数据库和图计算的创业公司,主打:快如闪电的高性能图数据存储及分析平台。 LightGraph 是费马科技自主研发的图数据库产品。其主要特点是单机大数据量,高吞吐率,以及灵活的 API,同时支持高效的在线事务处理(OLTP)和在线分析处理(OLAP)。LightGraph支持 TB

分布式存储的六大优点

谁都会走 提交于 2019-12-16 01:10:58
分布式存储往往采用分布式的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息。它不但提高了系统的可靠性、可用性和存取效率,还易于扩展,将通用硬件引入的不稳定因素降到最低。优点如下: 分布式存储的六大优点 1. 高性能 一个具有高性能的分布式存户通常能够高效地管理读缓存和写缓存,并且支持自动的分级存储。分布式存储通过将热点区域内数据映射到高速存储中,来提高系统响应速度;一旦这些区域不再是热点,那么存储系统会将它们移出高速存储。而写缓存技术则可使配合高速存储来明显改变整体存储的性能,按照一定的策略,先将数据写入高速存储,再在适当的时间进行同步落盘。 2. 支持分级存储 由于通过网络进行松耦合链接,分布式存储允许高速存储和低速存储分开部署,或者任意比例混布。在不可预测的业务环境或者敏捷应用情况下,分层存储的优势可以发挥到最佳。解决了目前缓存分层存储最大的问题是当性能池读不命中后,从冷池提取数据的粒度太大,导致延迟高,从而给造成整体的性能的抖动的问题。 3. 多副本的一致性 与传统的存储架构使用RAID模式来保证数据的可靠性不同,分布式存储采用了多副本备份机制。在存储数据之前,分布式存储对数据进行了分片,分片后的数据按照一定的规则保存在集群节点上。为了保证多个数据副本之间的一致性,分布式存储通常采用的是一个副本写入,多个副本读取的强一致性技术,使用镜像、条带