传统分析工具 gdb、Valgrind
在定位 mysql-proxy 内存泄露(增长)问题的过程中,开发人员尝试使用了 Valgrind Memcheck、gdb 进行协助分析。最终前者实际效果不太理想;我通过后者分析出泄露原因,但整个过程耗费了较多时间。 gdb 是常用的程序调试工具,好处不用赘述。但对于内存泄露或增长问题,gdb 缺点也较为明显,大致如下:干扰程序正常运行,不适合生产环境;直接定位比较困难,且要求对源码有一定了解。 Valgrind Memcheck 是一款知名度较高的内存泄露分析工具,非常强大,开发调试过程中能够快速发现场景的内存泄露问题。不过开发者在使用之前,建议对以下情况有所了解:第一,需要重启程序,且作为 Valgrind 子进程运行。不适合分析正在发生内存增长的进程。第二,替代默认的 malloc/free 等分配函数,目标进程运行速度减慢 20~30 倍。第三,不能很好的支持 tcmalloc、jemalloc 内存分配器。(mysql-proxy 采用了 jemalloc 内存分配器)
# 步骤 1. 追踪 60s,生成全量内存分配折叠栈
# 其中,参数 -a 表示追踪所有的 malloc 及其变体,但不追踪 free 进行相互抵消。参数 -f 表示生成折叠栈,用于步骤 2 生成火焰图。
./memstacks -p $(pgrep -nx mysql-proxy) -af 60 > all_mallocs.stacks
# 步骤 2. 执行下述命令生成全量内存分配火焰图,输出至文件 all_mallocs.svg。
./flamegraph.pl --color=mem --title="All malloc() bytes Flame Graph" --countname="bytes" < all_mallocs.stacks > all_mallocs.svg
火焰图如下所示,可以协助开发者理解 mysql-proxy 调用 malloc 及其变体的关键代码路径。
# 步骤 1. 追踪 60s,生成未释放内存分配折叠栈
# 其中,参数 -f 表示生成折叠栈,用于步骤 2 生成火焰图。
memstacks -p $(pgrep -nx mysql-proxy) -f 60 > unfreed_mallocs.stacks
# 步骤 2. 执行下述命令生成未释放内存分配火焰图,输出到文件 unfreed_mallocs.svg。
./flamegraph.pl --color=mem --title="Unfreed malloc() bytes Flame Graph" --countname="bytes" < unfreed_mallocs.stacks > unfreed_mallocs.svg
火焰图如下所示,其中:未释放内存共计 27.75 MB(追踪期间,通过 pidstat 观察到 mysql-proxy 进程 RSS 增量接近 27 MB,与未释放内存统计量 27.75 MB 基本一致)。
已分配但未释放的代码路径主要有两处。其中,据研发反馈,tdsql::set_str 正是导致 mysql-proxy 内存泄露发生的地方。而另一处并非真正的泄露。该工具有一定的副作用,由于追踪的最后阶段有一些刚分配的内存还未来得及释放,需要进一步阅读源码甄别。另外,建议多运行几次对比下结果,排除那些经常变化的分配路径。
对已分配但未释放的代码路径展开,结果如下:相比全量内存分配火焰图,数据量减少近 60 倍,需要重点关注的代码路径的减少也比较明显。因此,推荐优先使用未释放内存分配火焰图进行分析。
perf record -p $(pgrep -nx mysql-proxy) -e page-faults -c 1 -g -- sleep 60
BCC 工具 stackcount基于静态追踪点 exceptions:page_fault_user。
stackcount -p $(pgrep -nx mysql-proxy) -U tpage_fault_user
现有分析工具虽然方便,但是以增量的方式去统计,不考虑追踪过程中被释放的物理内存,最终统计的结果通常会偏大,对内存泄露(增长)的分析会造成干扰。
perf record -p $(pgrep -nx mysql-proxy) -e page-faults -c 1 -g -- sleep 60 > pgfault.stacks
./flamegraph.pl --color=mem --title="Page Fault Flame Graph" --countname="pages" < pgfault.stacks > pgfault.svg
火焰图具体如下,共计 420,342 次缺页事件,但不是每一次缺页事件都分配一个新的物理页面(大多数情况下未分配),mysql-proxy RSS 实际增长量仅 60 多MB 。
# 步骤 1. 追踪 60s,生成缺页异常折叠栈。其中,参数 -f 表示生成折叠栈,用于步骤 2 生成火焰图。
pgfaultstacks -p $(pgrep -nx mysql-proxy) -f 60 > pgfault.stacks
# 步骤 2. 生成缺页火焰图,输出到文件 pgfault.svg。
./flamegraph.pl --color=mem --title="Page Fault Flame Graph" --countname="pages" < pgfault.stacks > pgfault.svg
缺页火焰图如下,其中:共计增加 17801 个物理页面(与 mysql-proxy 进程 RSS 增量基本一致)。重点关注函数 g_string_append_printf。(注:非内存泄露发生的环境,仅用来演示缺页异常火焰图)
相比现有版,该版本的数据量减少 20 多倍,需要重点关注的代码路径减少也比较明显。
全部0条评论
快来发表一下你的评论吧 !