QPS从1.4W暴增至65W,腾讯课堂是如何对海量请求进行监控的?
疫情来势凶猛,腾讯课堂“停课不停学”专项为千万学子保驾护航。面对一个月内课堂流量的暴涨,监控体系如何在有限的时间内快速发现潜在问题并高效定位,进而保证服务稳定?本文是对腾讯课堂监控实践的总结,并且对未来监控体系提出一些思考。 一、遇到的挑战 腾讯课堂PCU从5w暴增到600w,接入层QPS从1.4w涨到65w,如何对海量请求进行监控,快速发现并解决问题成了很大的挑战。拆分到具体细节,主要有以下几点: 如何通过监控保障服务质量? 需要监控哪些指标?需要使用哪些监控工具? 需要对哪些指标进行告警?告警具体有哪些方法? 如何保证告警之后处理流程的高效? 除了监控、告警外,还有哪些方法可以用来保证服务的稳定? 二、应对策略 1. 明确思路:快速监控业务,后续逐步优化 随着极速版、公立校版陆续上线,PCU也迅速上涨到百万量级。各服务已经通过扩容来抗住了剧增的流量,但此时没有太多时间来推动各系统排查隐患进行优化,就需要通过监控系统来监测业务稳定,基于错误码维度的业务告警来发现问题,推动各系统针对性地进行处理优化,业务稳定后再将优化监控,覆盖到更多维度的指标,进一步提升服务稳定性。 2. 监控工具 作为管理基础设施和业务的核心工具,监控是公司各业务必不可少的能力 ,腾讯课堂也在公司和业界种类繁多的监控系统中选择了适合目前现状的监控工具。 (1)质量看板 作为从Kibana分化出来的Grafana