分布式数据库

阿里巴巴黄贵谈存储新硬件带来数据库的机遇

喜欢而已 提交于 2019-11-27 19:33:11
10月27日下午,2018中国计算机大会上举办了主题“存储软硬件之国产化挑战与机遇”的技术论坛,共同探讨存储软硬件栈上的关键系统与技术的国产化发展道路。论坛上,阿里数据库资深技术专家黄贵针对存储软硬件国产化进行了《存储新硬件给数据库自研带来的机会》的报告。 专家简介: 黄贵,阿里巴巴数据库事业部资深技术专家,近10年一直从事分布式存储、分布式数据库的设计与研发工作,经历过连续6年双11的数据库大考,见证了阿里从商业数据库到开源数据库再到自主研发分布式数据库的过程。目前的方向是打造全面兼容MySQL生态,新一代跨地域高可用,高可扩展,高性能低成本分布式数据库X-DB。 首先,黄贵介绍了阿里巴巴随着业务迅猛增长而实现的数据库的进化,一直发展到目前已被广泛应用到阿里各项业务的异地多活,云化,分布式数据库X-DB。 其次,黄贵详述了阿里巴巴数据库面临的特殊挑战,以及为了应对这些挑战而做的设计,具体思路就是利用现代存储的多层次结构,根据业务访问数据特点,设计出一套分层的存储架构,结合了内存数据库和磁盘数据库技术,同时达成高性能和低成本。 最后,黄贵详述了数据库存储引擎X-Engine的设计思想,包括存储方式、应对超大并发事务的流水线事务处理模式、元数据索引结构、数据布局、数据访问加速、数据压缩等特性,同时指出其利用NVM引入新的存储层次,将存储层次分为冷数据、暖数据及热数据三类

行式存储与列式存储

微笑、不失礼 提交于 2019-11-27 07:23:41
一、概述 传统的关系型数据库,如 Oracle、DB2、MySQL、SQL SERVER 等采用行式存储法(Row-based),在基于行式存储的数据库中, 数据是按照行数据为基础逻辑存储单元进行存储的, 一行中的数据在存储介质中以连续存储形式存在。 列式存储(Column-based)是相对于行式存储来说的,新兴的 Hbase、HP Vertica、EMC Greenplum 等分布式数据库均采用列式存储。在基于列式存储的数据库中, 数据是按照列为基础逻辑存储单元进行存储的,一列中的数据在存储介质中以连续存储形式存在。 二、 行式存储 行式存储的适用场景包括: 1、适合随机的增删改查操作; 2、需要在行中选取所有属性的查询操作; 3、需要频繁插入或更新的操作,其操作与索引和行的大小更为相关。 实操中我们会发现,行式数据库在读取数据的时候会存在一个固有的“缺陷”,比如,所选择查询的目标即使只涉及少数几项属性,但由于这些目标数据埋藏在各行数据单元中,而行单元往往又特别大,应用程序必须读取每一条完整的行记录,从而使得读取效率大大降低。对此,行式数据库给出的优化方案是加“索引”。在OLTP类型的应用中,通过索引机制或给表分区等手段,可以简化查询操作步骤,并提升查询效率。 但针对海量数据背景的OLAP应用(例如分布式数据库、数据仓库等等),行式存储的数据库就有些“力不从心”了

安装部署TIDB分布式数据库

拟墨画扇 提交于 2019-11-26 05:00:29
一、环境说明 阿里云服务器六台,三台跑TiKV server,三台跑PD server, 两台跑TiDB server 注: 这六台服务器需在同一区域(如:华东 1 可用区 E)机器之间内网互通 这边是使用 Ansible 方式部署,TiKV 及 PD 节点数据目录所在磁盘请使用 SSD 磁盘,否则无法通过检测 注:建议SSD云盘硬盘大一点后期需要进行IOps检测 要求比较高,开始预算较小后期更改尝试还是稍微有点麻烦的 Host Ip 软硬件环境 Services 172.16.246.100 CentOS 7.4 ---------------------- 8核32+ 40GSSD系统盘+数据盘256GSSD Tikv_1 172.16.246.101 CentOS 7.4 ---------------------- 8核32+ 40GSSD系统盘+数据盘256GSSD Tikv_2 172.16.246.102 CentOS 7.4 ---------------------- 8核32+ 40GSSD系统盘+数据盘256GSSD Tikv_3 172.16.246.103 CentOS 7.4 8核32+ 40GSSD系统盘 Pd_1-tidb_1 中控机 172.16.246.104 CentOS 7.4 8核32+ 40GSSD系统盘 Pd_2-tidb_2 172