阿里开源性能监控神器 Arthas 入门记录
介绍
- Arthas(阿尔萨斯) 能为你做什么?
Arthas
是Alibaba开源的Java诊断工具,深受开发者喜爱。
当你遇到以下类似问题而束手无策时,Arthas
可以帮助你解决:
- 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
- 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
- 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
- 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
- 是否有一个全局视角来查看系统的运行状况?
- 有什么办法可以监控到JVM的实时运行状态?
- 怎么快速定位应用的热点,生成火焰图?
快速开始
😎😎😎😎😎😎😎😎😎😎😎😎😎😎😎😎😎 Quick start 😎😎😎😎😎😎😎😎😎😎😎😎😎😎😎😎😎😎😎
官方教程 : https://arthas.aliyun.com/doc/arthas-tutorials.html?language=cn
运行环境搭建
因为这是一款 Java 诊断工具,需要先启动一个java程序,才能使用 arthas 诊断 ,而 arthas 官方已经提供了一个demo示例 ,让我们快速上手arthas。
下载启动,arthas 的demo程序
wget https://arthas.aliyun.com/arthas-demo.jar
java -jar arthas-demo.jar
arthas-demo
是一个很简单的程序,它随机生成整数,再执行因式分解,把结果打印出来。如果生成的随机数是负数,则会打印异常信息。
启动后的日志输出:
163228=2*2*13*43*73
illegalArgumentCount:893, number is: -104144, need >= 2
illegalArgumentCount:894, number is: -117496, need >= 2
122679=3*3*43*317
95191=95191
下载
wget https://arthas.aliyun.com/arthas-boot.jar
下载回来是一个jar 包 java -jar arthas-boot.jar
直接运行即可
运行
启动arthas java -jar arthas-boot.jar
, 它启动后,会列出所有的Java进程,用户可以选择需要诊断的目标进程。
这时候 输入你想要诊断的进程的数组 然后回车即可
这时候会进入 arthas 的命令窗口 , 可以输入一个 help 来查看 arthas 的命令 (下方有命令的简介)
案例
1. 获取异常信息
很多问题是随机出现的,在本地无法检查出问题,到生产才可能出现问题。 这时候arthas 的监控 就十分重要了。
在 arthas 的demo 这是一个会随机出现异常的程序,这里我们来学习一下。 如何监控随机的异常信息
- [ 确保 arthas-demo 和 arthas-boot 已经启动 ]
使用 watch 命令 来监控我们的异常信息
watch demo.MathGame primeFactors "{params[0],throwExp}" -e
- 监控 demo.MathGame 类的 primeFactors 方法,异常时 输出 第一个参数 与 异常信息
[arthas@1553]$ watch demo.MathGame primeFactors "{params[0],throwExp}" -e
Press Q or Ctrl+C to abort.
Affect(class count: 1 , method count: 1) cost in 33 ms, listenerId: 6
ts=2020-10-07 12:38:08; [cost=0.403161ms] result=@ArrayList[
@Integer[-50722],
@IllegalArgumentException[java.lang.IllegalArgumentException: number is: -50722, need >= 2],
]
ts=2020-10-07 12:38:10; [cost=0.094364ms] result=@ArrayList[
@Integer[-138218],
@IllegalArgumentException[java.lang.IllegalArgumentException: number is: -138218, need >= 2],
]
2.监控springBoot 死循环异常
准备一个简单的controller
@RestController
@RequestMapping("/demo")
@Slf4j
public class DemoController {
@GetMapping
public String init(){
return "sucess \n";
}
@GetMapping("/run/{num}")
public String run(@PathVariable("num") int num){
boolean flag = num == 666 ? true : false;
while (flag){
log.info("接收到 666 , 进入死循环状态~~~~ ");
}
return "您输入的数字是:" + num + "\n";
}
}
- 输入 正常数字 则正常返回,输入 [ 666 ] 程序会进入死循环状态
👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻 开启程序,开启 arthas 👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻👩💻
输入 dashboard 查看面板
参数详解 可以看官方文档,这里只需要关注 ID 、NAME 、%CPU
即可
这时候访问 localhost/demo/run/666
可以看到面板有一个线程 CPU占比率 高居不下
这时候使用 thread id
可以定位 看看是哪个小垃圾在搞事
可以很清楚的看到,cpu占用率高的线程调用栈里面 fun.hman.demo.web.DemoController.run(DemoController.java:31)
是我们自己写的,方法和行号已经告诉我们了。
热更新
下面介绍通过jad
/mc
/redefine
命令实现动态更新代码的功能。
- 将字节码文件输出到指定的位置 :
jad --source-only fun.hman.demo.web.DemoController > /tmp/DemoController.java
- 命令中
--source-only
的含义为,只输出源码部分,如果不加这个参数,在反编译出的内容头部会携带类加载器的信息
修改 /tmp/DemoController.java
的内容,并保存
/*
* Decompiled with CFR.
*
* Could not load the following classes:
* org.slf4j.Logger
* org.slf4j.LoggerFactory
* org.springframework.web.bind.annotation.GetMapping
* org.springframework.web.bind.annotation.PathVariable
* org.springframework.web.bind.annotation.RequestMapping
* org.springframework.web.bind.annotation.RestController
*/
package fun.hman.demo.web;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.PathVariable;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
@RestController
@RequestMapping(value={"/demo"})
public class DemoController {
private static final Logger log = LoggerFactory.getLogger(DemoController.class);
@GetMapping(value={"/run/{num}"})
public String run(@PathVariable(value="num") int num) {
return "您输入的数字是:" + num + "\n";
}
@GetMapping
public String init() {
return "sucess \n";
}
}
- 使用 sc 命令找到 对于的 classLoad 类
sc -d fun.hman.demo.web.DemoController
最后一行 classLoaderHash
即为 DemoController 的类加载器 hash 值 。
- 以上命令 可以 优化成
sc -d fun.hman.demo.web.DemoController | grep classLoaderHash
只查看 classLoaderHash
- 使用 mc 命令 编译
mc -c 685f4c2e /tmp/DemoController.java -d /tmp
成功后输出:
Memory compiler output:
/tmp/fun/hman/demo/web/DemoController.class
Affect(row-cnt:1) cost in 8476 ms.
- redefine 热更新代码
redefine /tmp/fun/hman/demo/web/DemoController.class
这时候 我们再传入 666 就可以看到正常返回的结果了
[root@hman01 ~]# curl http://192.168.153.171:8080/demo/run/666
您输入的数字是:666
Arthas 命令
- help——查看命令帮助信息
- cls——清空当前屏幕区域
- session——查看当前会话的信息
- reset——重置增强类,将被 Arthas 增强过的类全部还原,Arthas 服务端关闭时会重置所有增强过的类
- version——输出当前目标 Java 进程所加载的 Arthas 版本号
- history——打印命令历史
- quit——退出当前 Arthas 客户端,其他 Arthas 客户端不受影响
- stop——关闭 Arthas 服务端,所有 Arthas 客户端全部退出
- keymap——Arthas快捷键列表及自定义快捷键
dashboard—— 当前系统的实时数据面板
sc—— 查找JVM里已加载的类
watch——查看函数的参数/返回值/异常信息
tt——即 TimeTunnel,它可以记录下指定方法每次调用的入参和返回信息,并能对这些不同的时间下调用进行观测
启动命令
arthas-boot.jar
支持很多参数,可以执行 java -jar arthas-boot.jar -h
来查看。
允许外部访问
默认情况下, arthas server侦听的是 127.0.0.1
这个IP,如果希望远程可以访问,可以使用--target-ip
的参数。
java -jar arthas-boot.jar --target-ip
动态执行函数
ognl
——可以动态的执行代码
例 :ognl '@java.lang.System@out.println("hello ognl")'
- OGNL特殊用法请参考:https://github.com/alibaba/arthas/issues/71
- OGNL表达式官方指南:https://commons.apache.org/proper/commons-ognl/language-guide.html
热更新代码
通过jad
/mc
/redefine
命令实现动态更新代码的功能。
退出Arthas
用 exit
或者 quit
命令可以退出Arthas。
退出Arthas之后,还可以再次用 java -jar arthas-boot.jar
来连接。
彻底退出Arthas
exit/quit
命令只是退出当前session,arthas server还在目标进程中运行。
想完全退出Arthas,可以执行 stop
命令。