本文分析基于Serial,cms,parnew,等经典分代垃圾收集器。
对JVM内存的系统级的调优主要的目的是减少GC的频率和Full GC的次数。导致Full GC的原因一般是老年代、元空间 不足。
先了解对象的空间分配机制,也是调优的基础
1. 对象优先在Eden分配
Eden 内存不够用会出发Minor GC
可能会有99%以上的被回收掉,剩余存活的被挪到为空的那块survivor区,下一次eden区满了后又会触发minor gc,把eden区和survivor区垃圾回收,把存活的对象一次性挪到另外一块为空的survivor区(survivor存不下会直接存入老年代)。因为新生代的对象都是朝生夕死的,存活时间很短,所以JVM默认的8:1:1的比例是很合适的,让eden区尽量的大,survivor区够用即可。
2. 长期存活的对象进入老年代
对象头中存储对象年龄,
对象在Eden诞生,经过第一次MinorGC后依然存活,且能被survivor 容纳,会被移动到survivor 并且年龄为1。对象在survivor中每熬过一次MinorGC年龄就加1.
到达一定年龄(默认15,cms默认6)进入老年代。不能被survivor容纳,直接入老年代。
如果 -XX:MaxTenuringThreshold=1,则在第二次MinorGC时,进入老年代
3. 大对象直接进入老年代配置
参数 -XX:pretenureSizeThreshold=1000 (单位是字节) 控制对象空间大于指定大小 直接进入老年代,需要在新生代使用对应的垃圾收集器。
以下两种都可以支持。
-XX:+UseSerialGc
-XX:+UseParNew
这样设置可避免大对象在Eden和两个s区来回复制,产生大量的内存复制操作。
4. 动态对象年龄判定
survivor 中 相同年龄的对象总和,大于survivor空间的一半,大于等于该年龄的对象可以直接进入老年代。无需等待到阈值年龄。
5. 空间分配担保
发生MinorGC 之前,虚拟机需要先检查老年代最大可用连续空间,是否大于新生代所有对象总空间。如果大于,执行MinorGC, 否则看是否设置了允许担保。
如果允许担保,则判断老年代最大可用连续空间是否大于 以往晋升到老年代对象的平均值, 如果大于,进行MinorGC, 如果小于,或者未设置担保,先进行Full Gc.
担保内容:Minor Gc之后大量对象依然存活,需要把无法存入survivor的对象直接送入老年代。
调优步骤
1. jinfo 查询 jvm参数,明确各区域内存空间大小
jinfo -flags pid
2. 明确年轻代对象增长的速率--》确定Eden 多久被放满
可以执行命令 jstat -gc pid 1000 10 (每隔1秒执行1次命令,共执行10次,打印堆、元空间的容量、已用空间,gc耗时等信息),通过观察EU(eden区的已使用)来估算每秒eden大概新增多少对象,如果系统负载不高,可以把频率1秒换成1分钟,甚至10分钟来观察整体情况。注意,一般系统可能有高峰期和日常期,所以需要在不同的时间分别估算不同情况下对象增长速率。
假设 每秒5M, 100s 放满Eden 区,那么100s 进行一次youngGC,如需放大年轻代gc周期,可以适当增大年轻代。并且考虑高峰期时,业务量情况。
3. 明确Young GC的触发频率和每次耗时
知道年轻代对象增长速率,就能推根据eden区的大小推算出Young GC大概多久触发一次,Young GC的平均耗时可以通过 YGCT/YGC大致计算得出,根据结果大概就能知道系统大概多久会因为Young GC的执行而卡顿多久。
4. 明确老年代对象增长速率
之前已经大概知道Young GC的频率,假设是每5分钟一次,那么可以执行命令 jstat -gc pid 300000 10 ,300000 即5分钟的毫秒数,观察每次结果eden,survivor和老年代使用的变化情况,在每次gc后eden区使用一般会大幅减少,survivor和老年代都有可能增长,这些增长的对象就是每次Young GC后存活的对象,同时还可以看出每次Young GC后进去老年代大概多少对象,从而可以推算出老年代对象增长速率。
需要考虑业务场景高峰期时,对象增长率突增。
5. Full GC的触发频率和每次耗时
知道了老年代对象的增长速率就可以推算出Full GC的触发频率了,Full GC的每次耗时可以用公式 FGCT/FGC 计算得出。根据业务需要调整老年代大小。控制full gc 频率。
6. 也根据业务场景分析每秒产生对象大小
假设每秒 500 个订单的系统,每个订单对象 大概占用空间多大(根据字段属性大致计算)。假设每个对象1kb, 每秒 0.5M, 由于系统还有 查询服务等其他对象。预估每秒对象占用空间 0.5 * 10 = 5M,如果 设置新生代 500M,比例 8:1:1,那么Eden 400M,80s Eden 放满,进行young GC。
最终目标
朝生夕死的对象,尽可能在 young GC 后回收,存活较久的对象尽早进入老年代。降低Full GC 、young GC 频率, 维持稳定的gc频率。根据GC 耗时,业务系统允许停顿时间,最终确定 堆空间大小和布局比例,进行验证,反复调整。
特殊情况
如果fullgc 频率较高,需要考虑以下几种情况:
- 是否触发了空间担保机制 --- 设置允许担保(默认允许)
- 是否因为survivor 太小导致对象过早进入老年代 --- 需要调整 增大 survivor
- 是否在代码中调用GC -- 通过参数禁止
- 元空间不足 -- 会自动扩展,但还是设置合适较好。
如果young GC 频繁,需要调整增大新生代,一般设置固定大小,不允许扩展。具体大小根据业务量计算。
尝试之后GC还是很频繁,考虑使用jmap堆中哪些对象占用空间较大,配合top 、jstack查看哪个线程在频繁创建该对象。根据代码分析是否存在问题.
jmap -histo [pid] 查看内存信息,实例个数以及占用内存大小
配合top -Hp pid 查询内存占用较高的线程,在使用jstack 命令
1,使用命令top -p <pid> ,显示你的java进程的内存情况,pid是你的java进程号,比如19663
2,按H,获取每个线程的内存情况
3,找到内存和cpu占用最高的线程tid,比如19664
4,19664转为十六进制得到 0x4cd0,此为线程id的十六进制表示
5,执行 jstack 19663|grep -A 10 4cd0,得到线程堆栈信息中 4cd0 这个线程所在行的后面10行,从堆栈中可以发现
6,查看对应的堆栈信息找出可能存在问题的代码
安全点导致的长时间停顿
根据gc日志观察用户线程停顿耗时,和垃圾收集耗时。差别较大时,可能存在安全点超时。
gc需要所有用户线程到达安全点才能开始。
代码中出现的循环可能会导致安全点超时。
循环中的变量如果是int,jvm认为是可数循环,可能不会在循还末尾设置安全点。中间如果存在耗时操作则会一直等待。可以修改为long 型,jvm判定为不可数循环。会在每次循环末尾设置安全点。也可以设置参数-XX:+UseCountedLoopSafepoints 强制可数循环中也防止安全点。这个参数 jdk1.8部分版本存在bug需要注意。
设置虚拟机安全点等待时间。超时2000ms后会自动打印线程名称 方便问题排查。
-XX:+SafepointTimeout
-XX:SafepointTimeoutDelay=2000