我的情况跟这篇blog情况几乎相似。
https://www.jianshu.com/p/d2e711862e24
后来查证结果是,由于我们的Cloudera Manager集群使用了Kudu,并对Kudu进行了监控和采集。CDH manager对于Kudu的监控项特别多,每一个Kudu表对应大概20个指标。这些时序数据,会由SMON(service monitor)接收并写入本地的LevelDB,并定时对其进行rollup操作(即把秒的变成分钟,和小时的数据)。由于这个明细数据量过大,导致SMON一直都处于高负荷状态。
解决思路有2个:
1.是干掉rollup操作
2.是停掉Kudu的数据采集(数据量极大)
个人倾向于第二个,干掉Kudu的数据采集。kudu的数据采集有大量的采集内容并不是我们想要的,而且也有很多小的表,临时表是不需要监控的。Kudu的数据采集是基于http的json结构,在每个Tablet-Server上面可以进行采集,所以最好的思路是自己采集想要的metrics进行针对性监控。
关于配置rollup的内容:
https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/cm_ig_storage.html
来源:oschina
链接:https://my.oschina.net/dacoolbaby/blog/4333370