您好!
欢迎来到京东云开发者社区
登录
首页
博文
课程
大赛
工具
用户中心
开源
首页
博文
课程
大赛
工具
开源
更多
用户中心
开发者社区
>
博文
>
JAVA应用CPU跳点自动DUMP工具
分享
打开微信扫码分享
点击前往QQ分享
点击前往微博分享
点击复制链接
JAVA应用CPU跳点自动DUMP工具
ga****
2024-01-22
IP归属:北京
163浏览
![image.png](https://s3.cn-north-1.jdcloud-oss.com/shendengbucket1/2023-11-28-18-06BCLU0jCPrYfEj6K.png) ## 背景 在做系统监控时,CPU的使用率是一个关键的指标,它反映了系统的性能稳定性以及是否存在异常情况,能帮助我们了解系统的负载情况。通过监控CPU使用率,可以判断系统是否正常运行或者是否存在性能问题。如果CPU使用率过高,可能表示系统存在资源瓶颈,需要进行优化或升级。 ## CPU监控的难点 现有的监控平台提供了多种方式来获取容器和JVM的CPU使用率,并能够实时发送CPU跳点的报警。然而,对于运维人员来说,这些功能远远不够,因为我们需要深入了解导致CPU高的原因。由于CPU是一个动态变化的指标,仅仅在收到报警后通过运维平台的手动操作进行排查,很难抓住事故发生的现场情况。因此,我们需要一个能够自动记录现场的工具。 ## 自动DUMP工具 对于Linux系统,我们可以通过设置一个周期的定时任务来检测CPU使用率。如果我们发现CPU使用率高,我们可以获取CPU使用率高的线程,并进一步处理JVM线程抓包的问题。 我们可以使用top命令来获取进程的CPU使用率以及线程的CPU使用率。针对JAVA应用程序,我们可以使用Jstack来dump当前线程的堆栈信息。然后,我们可以解析这两者的输出,并通过线程号进行匹配,最终生成一个包含CPU使用率的线程堆栈清单。最后,我们可以将此清单持久化到一个文本文件中。 最终的输出文件格式如下: ```bash 当前JAVA进程ID:205 当前JAVA进程ID(205)CPU使用率:99% Top 10 CPU占用线程信息: ======================================================= 线程TID: 1511, THREAD_NID:5e7, CPU使用率: 77.2% "Thread-31" #415 daemon prio=5 os_prio=0 tid=0x00007f00900cc800 nid=0x5e7 runnable [0x00007f01c5839000] java.lang.Thread.State: RUNNABLE at ... ... java.lang.reflect.Executable.sharedGetParameterAnnotations(Executable.java:553) at java.util.concurrent.CompletableFuture$AsyncRun.run(CompletableFuture.java:1626) at java.lang.Thread.run(Thread.java:748) ======================================================= 线程TID: 208, THREAD_NID:d0, CPU使用率: 2.0% "Gang worker#0 (Parallel GC Threads)" os_prio=0 tid=0x00007f037c02a000 nid=0xd0 runnable ======================================================= 线程TID: 209, THREAD_NID:d1, CPU使用率: 2.0% "Gang worker#1 (Parallel GC Threads)" os_prio=0 tid=0x00007f037c02b800 nid=0xd1 runnable ======================================================= ``` 具体实现步骤如下: 1. 从环境变量中读取CPU阈值和线程数阈值,脚本的两个配置项,不同分组和不同环境可以设置不同的阈值。 2. 获取JAVA进程ID:使用pgrep命令获取当前运行中的Java进程的PID,并将其保存到变量中。 3. 获取当前CPU使用率:使用top命令获取当前CPU使用率,主要是获取JAVA进程的CPU使用率。 4. 检查CPU使用率是否超过阈值:与预设的CPU阈值进行比较,如果超过阈值,则执行后续操作,否则结束。 5. 查找JAVA进程内占用CPU最高的线程:使用top命令查找占用CPU最高的前十个线程,并获取它们的相关信息。 6. 捕捉JVM线程快照:使用jstack命令捕捉JVM线程快照,并将其保存到指定的日志文件中。 7. 输出线程信息:解析并匹配线程栈文件,将占用CPU最高的前十个线程的信息包括线程的PID和堆栈信息合并到同一行输出。 8. 日志记录和保存:将相关的CPU使用率及线程快照信息记录到日志文件中,方便后续分析和优化。 ## 使用方式 在应用的启动脚本(start.sh)中添加命令,在crontab中添加一个分钟周期的定时任务 ```bash echo "* * * * * sh /export/App/bin/cpu-peak-dump.sh" | crontab - ``` 注:如果需要更细周期粒度的监控,也可以通过while true加sleep来控制运行周期,如果使用更细粒度周期时需要注意脚本本身造成的CPU使用率。 ## 总结 该脚本是一个用于CPU性能监控的实用工具,通过定时检测并触发线程快照的方式,方便我们快速发现CPU异常占用以及定位问题所在。通过设置合适的阈值和线程数,可以根据具体项目的需求来应用该脚本,并根据日志记录的线程信息进行问题分析和优化。 注意:在使用该脚本时,需要根据具体环境配置相关的路径和变量,并根据项目的需要进行相应的调整和优化。 希望本文对您理解和运用该脚本提供了一些帮助,如有疑问或需要进一步了解,请随时联系我。 ## 附录 完整的脚本文件cpu-peak-dump.sh ```bash #!/bin/bash # 由crontab触发每分钟执行一次,判断CPU使用率大于阈值时触发dump # 使用方式: # 把当前文件放到项目中与start.sh相同的目录 # 修改start.sh 在脚本最后加一行,一般是这一行后边 echo "$APP_NAME is up runnig :)" # echo "* * * * * sh /export/App/bin/cpu-peak-dump.sh" | crontab - # 可配置项: # 触发dump的cpu阈值。default 70 # STACK_DUMP_CPU_THRESHOLD=xxx # 触发dump时列举的线程数(按使用率由高到低排列) default 10 # STACK_DUMP_THREAD_COUNT=xxx # 配置方式,使用行云分组的环境变量配置即可 # stack log 存放目录 /export/Logs/ # stack log 文件名: jstack_snapshot_$(date +%Y%m%d%H%M%S).log # 最后,记得配置相应的日志清理策略 # 设置CPU阈值,当CPU使用率达到该阈值时触发线程快照 CPU_THRESHOLD="${STACK_DUMP_CPU_THRESHOLD:-70}" THREAD_COUNT="${STACK_DUMP_THREAD_COUNT:-10}" echo "Current CPU_THRESHOLD is $CPU_THRESHOLD" JAVA_PID=$(pgrep -d, -x java) echo "Current JAVA_PID is $JAVA_PID" # 使用top命令获取当前CPU使用率,并提取其中的CPU利用率百分比 CPU_USAGE=$(top -b -n 1 | grep -A10 "PID USER" | grep java | grep "$JAVA_PID" | awk '{print $9}' | cut -d'.' -f1) echo "Current Java($JAVA_PID) CPU_USAGE :$CPU_USAGE"% if [ -z "$JAVA_PID" ]; then echo "No Java process found." exit 1 fi # 检查CPU使用率是否超过阈值 if [[ $CPU_USAGE -gt $CPU_THRESHOLD ]]; then # 使用top命令查找占用CPU最高的前十个线程,并获取它们的信息 TOP_THREADS=$(top -H -b -n 1 -p "$JAVA_PID" | grep -A$THREAD_COUNT 'PID USER' | head -n $THREAD_COUNT | grep -v 'PID') # 使用jstack捕捉JVM线程快照 # 请将下面的Java进程ID替换为你要监视的Java进程的实际进程ID JSTACK_OUTPUT=$(/export/servers/jdk1.8.0_191/bin/jstack "$JAVA_PID") JSTACK_OUTPUT_FILE="/export/Logs/jstack_snapshot_$(date +%Y%m%d%H%M%S).log" echo "当前JAVA进程ID($JAVA_PID)CPU使用率:$CPU_USAGE"% >>$JSTACK_OUTPUT_FILE # 获取占用CPU最高的前十个线程的信息,包括线程的PID和堆栈信息,并将它们合并到同一行输出 echo "Top ${THREAD_COUNT} CPU占用线程信息:" >>$JSTACK_OUTPUT_FILE while read -r THREAD_INFO; do THREAD_TID=$(echo "$THREAD_INFO" | awk '{print $1}') THREAD_NID=$(printf "%x\n" $THREAD_TID) THREAD_STACK=$(echo "$JSTACK_OUTPUT" | sed -n "/nid=0x$THREAD_NID /,/^$/p") THREAD_CPU_USAGE=$(echo "$THREAD_INFO" | awk '{print $9}') echo "=======================================================" >>$JSTACK_OUTPUT_FILE echo "线程TID: $THREAD_TID, THREAD_NID:$THREAD_NID, CPU使用率: $THREAD_CPU_USAGE%" >>$JSTACK_OUTPUT_FILE echo "$THREAD_STACK" >>$JSTACK_OUTPUT_FILE done <<<"$TOP_THREADS" # echo "====all stack as below:====" >>$JSTACK_OUTPUT_FILE # echo "$JSTACK_OUTPUT" >>$JSTACK_OUTPUT_FILE echo "捕捉了JVM线程快照并保存到 $JSTACK_OUTPUT_FILE" fi ```
上一篇:聊聊ClickHouse MergeTree引擎的固定/自适应索引粒度
下一篇:CDP技术系列(二):ClickHouse+Bitmap实现海量数据标签及群体组合计算
ga****
文章数
4
阅读量
427
作者其他文章
01
jq工具及其常用用法
近来在工作中处理JSON处理较多,深入研究了一下jq,之前对jq的使用一直停留在JSON数据格式化的层面,实际它的能力远不止于此。在处理JSON数据时,我们经常需要在命令行中进行过滤、查询和编辑的操作。jq是一个强大的命令行JSON处理工具, 它可以让我们轻松地对JSON数据进行各种操作。本文将简要介绍jq的基本概念和常用功能,并提供一些实际的例子。一、jq简介jq是一个轻量级且灵活的命令行JSO
01
基于Spring事务的可靠异步调用实践
SpringTxAsync组件是仓储平台组(WMS6)自主研发的一个专门用于解决可靠异步调用问题的组件。通过使用SpringTxAsync组件,我们成功地解决了在仓储平台(WMS6)中的异步调用需求。经过近二年多的实践并经历了两次618活动以及两次双11活动,该组件已经在我们的所有应用中稳定运行并成功应用于各种业务场景。 该组件的主要功能是实现可靠的异步调用。在异步任务的执行过程中,我们能够确保任
01
当我们在谈论构造函数注入的时候我们在谈论什么
依赖注入当涉及依赖注入(Dependency Injection,DI)时,首先推荐使用构造函数注入,因为构造函数注入有很多技术优点,而且还与面向对象的设计原则密切相关。在业界,构造函数注入作为依赖注入的一种最佳实践得到了广泛的认可,在Spring Framework的作者之一Rod Johnson的观点中也得有体现。下面是Spring官方文档中对于依赖注入的描述:Since you can mi
01
JAVA应用CPU跳点自动DUMP工具
背景在做系统监控时,CPU的使用率是一个关键的指标,它反映了系统的性能稳定性以及是否存在异常情况,能帮助我们了解系统的负载情况。通过监控CPU使用率,可以判断系统是否正常运行或者是否存在性能问题。如果CPU使用率过高,可能表示系统存在资源瓶颈,需要进行优化或升级。CPU监控的难点现有的监控平台提供了多种方式来获取容器和JVM的CPU使用率,并能够实时发送CPU跳点的报警。然而,对于运维人员来说,这
ga****
文章数
4
阅读量
427
作者其他文章
01
jq工具及其常用用法
01
基于Spring事务的可靠异步调用实践
01
当我们在谈论构造函数注入的时候我们在谈论什么
添加企业微信
获取1V1专业服务
扫码关注
京东云开发者公众号