技术分享 | 灭霸与普罗米修斯之无限存储的高可用方案
作者:王继顺 宝尊电商 DBA,主要负责数据库监控告警以及自动化平台的设计开发工作,擅长数据库性能调优、故障诊断。 背景 随着公司各个环境的服务器数量增加,部署有多套 Prometheus(包括生产、测试、Tidb、Kubernetes 等)集群,在一定集群规模下,普通 Prometheus 集群的承载能力会出现短板(查询速度慢、OOM、以及存储空间不够等问题)。加上公司需要保存双十一、双十二等活动期间的监控数据,来统计活动期间同比环比的监控报表。 SO!我们需要有一个统一的查看各个 Prometheus 监控数据的入口,而且具有不受限制的历史数据存储能力的解决方案,经过多个方案的 POC,最终选用 Thanos 的解决方案并和大家分享一下。 Thanos 介绍 Thanos 的主要特性 全局视图:与现有 Prometheus 设置无缝集成,能够跨集群联合,跨所有连接的 Prometheus 服务器的全局查询视图,很好的对 HA 中的 Prometheus 进行容错路由查询。 不受限的保留数据:支持各种对象存储。 压缩和降准采样:对历史数据进行自定义的降准采样以大幅提高查询速度。 实现包括 Prometheus 在内的各个组件高可用。 能够记录规则,实现告警。 Thanos 架构介绍 Thanos 只有一个二进制启动文件,但是根据启动时候的变量不同分为多个组件,结合架构图