解决内存泄漏(1)-Apache Kylin InternalThreadLocalMap泄漏问题分析
开源产品迭代快,但也容易存在隐患。有时会遇到意料之外的问题,需要研究代码解决。内存泄漏是一个很常见的问题,会导致服务不稳定,影响可用性。本文讲述了如何使用MAT和BTrace解决apache kylin内存泄漏问题,重点阐明如何定位问题,分析原因,验证猜想。 希望能抛砖引玉,让大家遇到类似内存泄漏问题时能够有所借鉴。 背景 公司自助报表业务从kylin2.0集群迁移到Kylin3.0集群时,Kylin job角色每隔2,3天所有进程OOM一遍,服务很不稳定,需要尽快解决。 调查思路 构建服务是32GB堆内存的java进程,OOM要么是内存确实不够用,要么是内存泄漏。考虑到报表业务之前使用的kylin2.0也是32GB内存,没遇到类似的OOM,所以首先怀疑内存泄漏,可能是2.0以后的新特性引入了问题。 再考虑到kylin3.0小集群用了很久也没有OOM,怀疑跟业务量和用法有关系。报表业务每天要构建几千次,构建模型各异,容易暴露出问题。一般来说,容器,Netty,ThreadLocal是内存泄漏的重灾区。要调查内存泄漏,可以使用内存分析工具MAT来分析堆内存。找到哪些对象内存用的多,以及对象的引用关系。找到怀疑的对象后,再做进一步的代码分析,用BTrace打印调用日志确定问题的原因,最后解决问题。 定位问题 java启动参数一般都会加-XX: