运维干货—硬盘容量不均衡导致的缓存盘寿命急速衰减
分布式存储 — 硬盘容量不均衡导致的缓存盘寿命急速衰减分析 Ceph 分布式存储在扩展性、可靠性、性能上具备独特的优势,可以实现快速扩展多台服务器,动态伸缩到 PB 级容量,多副本机制保障数据高可靠,数据均衡分布,并发性能高等场景。目前广泛应用于互联网、科研、教育、制造业、政府等诸多领域。 ZStack 云平台目前支持对接 Ceph 分布式存储,使用的是分布式块存储,即使用 librbd 的块设备接口提供给 Qemu 访问,进行云主机、云盘的 IO 读写。 虽然 Ceph 分布式存储具备上述的优势特点,但在实践中,对硬件的选择及配置均存在特别要求,尤其是硬盘、网络上,如果配置不当,存储的可靠性和性能均会受到影响。 最近在日常巡检一套 ZStack 生产环境的 Ceph 分布式存储时,我们发现客户新购的五台服务器的 SSD 寿命损耗存在异常。具体的现象是使用半年后,服务器带外管理界面看到 SSD 的寿命损耗只剩下 89% ,但使用 smartctl 读取介质损耗参数依然显示为 100% 。 此时会很疑惑,到底哪个数据更可靠,如果 SSD 寿命只剩下 89% ,那么如何去调整优化 Ceph 分布式存储? 问题回顾 针对这个问题,我们回顾一下这套分布式存储的架构。当时采用了新购 + 利旧的方案来部署分布式存储。 相应的配置信息如下: 其中,新购的 5 台机器采用了 Intel Xeon