文章目录
一、存储架构(DAS、NAS、SAN)
1. 云存储的分类
- 非可管理型云存储
面向普通用户
限定了存储容量和使用方式
使用成本低
操作简单 - 可管理型云存储
主要面向开发人员
将存储空间呈现为原生磁盘,提供给用户进行配置和管理
2. 云存储系统架构
3.三种架构比较
存储架构 | 组成部分 | 数据类型 | 典型应用 |
---|---|---|---|
DAS(直连附加存储) | 服务器,SAS线,存储设备 | 块级 | 任何 |
NAS(网络附加存储) | 服务器,网络,存储设备 | 文件级 | 文件服务器 |
SAN(区域网络存储) | 服务器,网络,存储设备 | 块级 | 数据库应用 |
4. 分别是如何访问的
DAS使用FC,SCSI,SAS线直接进行连接
NAS通过NFS(Linux)或者是CIFS(windows)协议去访问网络文件
SAN通过以太网或者是FC进行连接,提供给用户使用ISCSI
5.三种存储架构的优缺点
存储架构 | 优点 | 缺点 |
---|---|---|
DAS | 易于理解,兼容性好 | 难以管理,扩展性有限,空间利用率不高 |
NAS | 易于安装,成本低 | 性能较低,对某些应用不适合 |
SAN | 高扩展性,高性能,高可用性 | 比较昂贵,配置复杂,互操作性问题 |
二、硬盘接口、内部结构
1、硬盘相关术语以及三维坐标
- 相关术语
磁盘片表面称为盘面。
磁盘片表面上以磁盘片中心为圆心,不同半径的同心圆称为磁道。
不同磁盘片相同半径的磁道所组成的圆柱称为柱面。
磁盘片被分成许多扇形的区域,每个区域叫一个扇区。
- 三维坐标
C,H,S
盘面号:扇区所在的磁头Header(或盘面Side)
柱面号(Cylinder):磁道,确定磁头的径向方向。
扇区号(Sector):在磁道上的位置。也叫块号。确定了数据在盘片圆圈上的位置。
2、硬盘容量的计算
计算公式:
硬盘容量= 磁面个数 * 柱面个数 * 扇区个数 * 每个扇区的大小512B (单位bytes)
例:Disk /dev/hda: 80.0 GB, 80026361856 bytes 255 heads, 63 sectors/track, 9729 cylinders ,根据上述参数求磁盘的大小
解析:
255 heads:表示磁头数为255
63 sectors/track:表示每磁道上有63个扇区
9729 cylinders:表示共有9729个柱面,柱面是分区的最小单位
一个柱面大小:Units = 255972963* 512B = 80023749120 bytes
总结:磁盘的大小=磁头数量柱面数量每个磁道上的扇区数*一个扇区大小
3、硬盘的接口类型
4、存储系统评价指标
容量、吞吐量、IOPS、响应时间
测试指标:IOPS和MBPS(吞吐率)
三、数据保护
1、RAID相关知识
- RAID0
定义: RAID0即没有容错设计的条带硬盘阵列,以条带形式将RAID组的数据均匀分布在各个硬盘中
读写速度极快,不占用CPU资源。但是不适合用于关键数据环境,因为数据不可恢复
- RAID1
RAID 1 定义:RAID 1又称镜像(Mirror),数据同时一致写到主硬盘和镜像硬盘
提高了安全性,100%的数据冗余。但是空间利用率只有1/2。
- RAID 5
RAID 5校验数据均匀分布在各数据硬盘上,RAID成员硬盘上同时保存数据和校验信息,数据块和对应的校验信息保存在不同硬盘上。
特点:高读取速率,中等写速率。RAID组里单块硬盘的故障,会导致其他硬盘读写性能大幅度下降
- RAID 10
定义:RAID 10是将镜像和条带进行两级组合的RAID级别,第一级是RAID1镜像对,第二级为RAID 0。
2、数据保护的方法
数据保护的实现方法包括 拷贝、备份、复制、镜像、快照等
- 拷贝
每次都需要拷贝整个文件或文件夹并覆盖上次拷贝内容
只支持文件格式,无法拷贝正在使用的文件。不能判断数据变化增量,每次需要拷贝所有数据
- 备份
定义:是指利用备份软件把数据从磁盘备份到磁带进行离线保存;
全备份:是对数据的完全备份。
增量备份:是对上次全备份或者增量备份后被修改了的文件做备份;
差量备份:是备份自上次全备份后被修改过的文件;
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pnBzge6T-1576738704088)(https://raw.githubusercontent.com/1519059197/img_note/master/小书匠/1576736298279.png)]
- 复制
指利用复制软件 /硬件把数据从一个存储区域传输到另一个存储区域(通常是逻辑卷),生成一个数据副本。
重点:
与拷贝方式相比,复制
支持针对增量数据进行保护
与备份方式相比,复制
数据副本是数据处理系统直接可以访问的,不需要进行任何的数据恢复操作
与拷贝、备份方式相比,复制
支持远距离传输
不占用服务器资源和网络带宽
- 快照
两种建立快照的方法:
写时拷贝(COW):一次读两次写
写时重定向(ROW):一次写
四、分布式存储系统
1、有哪四类分布式存储系统
分布式文件系统、分布式键值系统、分布式表格系统、分布式数据库
2、Hadoop的组成部分
HDFS、MapReduce、YARN
大型的项目结构。HDFS、HBase做存储,MapReduce(离线计算)、内存计算、在线计算做计算,zookeeper负责做协调
3、HDFS
HDFS中有两类节点:名称节点(NameNode)和数据节点(DataNode)
高可用集群用来解决单点故障,具有两个名称节点
.
- HDFS上传和下载的命令
必考:hadoop dfsadmin -report 查看HDFS状态,比如有哪些datanode,每个datanode的情况
上传命令:hadoop fs -put 要上传的文件路径 上传到哪个文件夹下
下载hdfs中myTask/input/wordcount.txt到本地opt文件夹中hadoop fs -get /myTask/input/wordcount.txt /opt
总结:hdfs的命令格式为hadoop fs -linux下的命令 参数
例如:创建一个文件夹hadoop fs -mkdir /myTask
5、分布式数据库有哪几类节点?
管理节点:本身不提供服务只是控制整个集群的开启与关闭
sql节点:真正提供数据库的存储,并和其他数据节点关联用
数据节点:和平常数据库一样提供正常服务
注意各节点启动顺序:管理节点—>数据节点—>SQL节点,关闭顺序相反
做实验的时候是1个管理节点,2个sql节点,2个数据节点。
外部用户访问sql节点
启动sql节点的命令service mysql start
五、云存储的实现架构
结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达
非结构化数据:在传统数据库的结构化数据之外,那些不适宜用数据库存储和操作的数据。
半结构化数据:介于完全结构化数据和完全无结构的数据之间的数据类型
第一层:存储资源层
云计算的物理存储资源包括DAS、SAN、NAS、分布式存储系统
DAS和SAN以接入资源的方式,为NAS和分布式存储系统提供存储服务
存储资源层最终以分布式文件系统或NAS的方式为上层提供服务
第二层:服务器资源层
云计算中的物理服务器首先挂载后端存储,进而实现一个完整的计算节点
计算节点的虚拟化实现了物理CPU、内存、网络和存储的虚拟化
物理存储的虚拟化是通过计算节点实现的
第三层:分布式数据处理层
虚拟化后的计算、存储和网络资源组成了云资源池
为实现云资源的使用,关键在于实现数据的分布式处理
分布式数据处理主要包括分布式存储技术和分布式计算技术
第四层:云平台管理层
云资源池最终以云服务的方式提供给用户,如虚拟机、云存储等
云平台管理软件负责云存储服务的实现
用户数据如系统镜像、应用、静态数据(图片、视频)、动态数据分别存储在逻辑的NAS、分布式文件系统、分布式表格系统等存储资源中
来源:CSDN
作者:超人不会飞aa
链接:https://blog.csdn.net/m_awdawdw/article/details/103614550