转:记又一次解决生产环境宕机问题(业务系统)

记录一个别人的心得。原文连接如下:

https://my.oschina.net/u/3345762/blog/1784199?p=2

摘要: OOM low memory 宕机 内存调优

写在前面:该篇宕机问题的排查难度远比上一篇(记一次解决线上OOM的心路历程)大的太多,上一篇中内存泄漏的问题是有迹可循的,本次的宕机在业务日志上没有任何征兆,另外本文有许多值得深挖的点,希望读者能找到自己感兴趣的点进行深挖,并将心得体会留言在评论区,让大家共同进步。

现象:zabbix告警生产环境应用shutdown,通过堡垒机登入生产环境,查看应用容器进程,并发现没有该业务应用的相应进程,第一感觉进程在某些条件下被系统杀死了,然后查看容器日志,发现均没异常可寻。

问题:

    1、为何会没有应用进程及异常的日志输出?如果真的是系统杀死了应用进程,是什么条件触发了它?

    2、测试环境、UAT环境为何从未有这样的情况,差别在哪?

排查:

    首先去查看生产环境系统资源情况及相应容器的配置,查得该台生产机器的总内存是8G:
image

接着查看该应用所在容器环境的变量设置:

#!/bin/sh

# chkconfig: 345 88 14
# description: Tomcat Daemon
set -m
#Change to your Jdk directory
SCRIPT_HOME=/home/appadmin/scripts/glink

export JAVA_HOME=/Data/software/jdk1.8.0_65

#Change to your Tomcat directory
CATALINA_HOME=/Data/software/tomcat-glink
export JAVA_OPTS="-server -Xms512m -Xmx4G 
-XX:PermSize=128M 
-XX:MaxNewSize=512m 
-XX:MaxPermSize=256m 
-Djava.awt.headless=true 
-XX:+PrintGCDetails 
-XX:+PrintGCApplicationStoppedTime
-XX:+PrintGCApplicationConcurrentTime 
-XX:+PrintGCTimeStamps 
-Xloggc:$CATALINA_HOME/logs/gc.log
-Djava.awt.headless=true
-Denv=prod
-Dproject=GLINK
-Dprofile=Production_us
-Dallow.push=true
-Dsave.directory=/Data/diamond/glink/config
-Dcat.app.name=GLINK_PROD
-Duser.timezone=GMT+08"

# Determine and execute action based on command line parameter
#-Ddiamond.conf.path=/Data/diamond/glink/diamond.properties
echo "Starting Best Glink Tomcat..."
DATE=`date "+%Y-%m-%d %H:%M:%S"`
echo "$DATE : user $USER starts tomcat." >> $SCRIPT_HOME/start.log
sh $CATALINA_HOME/bin/startup.sh

此处可以看到这里为java设置的最大内存为4G,接着我们又查看了部署在本台机器上的另一个应用环境的设置,结果和该应用一样,设置的内存大小为4G,我们继续查看了该机器上的其他java应用,发现另外还部署了一个本地queue(activitymq),且设置的最大占用内存为1G,此时似乎已经可以猜测,由于机器的总内存不够,当应用在申请新的内存时,由于环境变量设置的缘故并没有去触发GC,而是直接申请内存,系统方发现总内存已经不够用,于是直接将该应用进程杀死。

image

为了验证上面的说法,我们查找系统的相关日志:

less /var/log/messages
image

清晰地看到:Feb 23 00:01:09 us-app01 kernel: Out of memory: Kill process 14157 (java) score 619 or sacrifice child,此处说明的确是系统杀死了应用进程,根据这里的系统日志查询资料得知,系统会为每一块新分配的内存添加跟踪记录至low memory,当low memory的内存耗尽同时有需要新分配内存时,内核便会触发Kill process,此处为什么系统选择了kill该应用进程,我的猜想是一该应用进程属于用户进程,它的结束并不会影响系统的正常运行,二是由于该应用最大可用内存设置的不合理性,需要新分配内存来存储对象就发生在其中。由于当时的进程已经被系统杀死,我们无法得知当时具体内存的使用及分配情况,作为参考依据我们选择查看相同环境下的另一台机器的内存情况:

image

此处可以看出系统的总内存为7967m,low memory的总内存也为7967,(64位的系统,系统总内存与low memory相同),当前low memory已经使用7832(low memory = used + buff/cache)。

种种迹象表明:由于该应用及部署在同一台机器上的另一个应用,其环境中最大可用内存设置的不合理(系统总内存8G,这两个应用的最大可用内存设置为4G,同时机器上还有一个本地queue)性,导致其内部在申请内存时由于系统的low memory被耗尽,触使系统杀死了该应用进程。

临时解决:

   减少应用环境中的设置的最大可用内存,重启应用。

继续解决:

   应用重启后的一段时间(几天后),我们查看应用使用的内存情况:

 ![image](http://upload-images.jianshu.io/upload_images/5916514-34f5c7aab338e750.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

 我们想到该应用满足的业务量很小并没有那种数据量特别大的场景,为何系统会使用掉这么多的内存呢,于是我们决定对该应用从代码角度上进行一些可行的调优。

首先使用jmp dump出内存快照,并导入jprofiler,借助jprofiler进行分析:

image

从上图我们可以看到char[]占用了651m的内存,String占用的是10m左右,显然这里对char类型的使用或者处理是有问题的,我们进一步查看到底是什么地方使用了char[],又有哪些大的char[]实例,以及其中都存了怎样的数据:

image

这里我们看到有将近20个char[]实例的大小都超过了10m,其中最大的已然有30m,我们再查看这里都存了哪些数据:

image

此处可以看到其中有一些业务数据的记录,另外其内存数据中还有部分公司内部任务中心的一些任务信息(此处就不截图出来了),于是我们隐隐感觉到是不是任务平台做了什么事情,比如收集日志什么的,我们继续查看其引用情况:

image

看到此处的rabbit基本可以断定了就是任务中心client的引用,项目中其他地方并没有用到rabbit,于是我们找到任务中心的维护人员进行询问,他们的答案是不会去收集应用的日志的(我们心里的答案也是这,又不是日志平台的client,任务中心团队不会做这么傻的事),然而我们在char[]中的确看到的都是任务平台的信息这是怎么回事?于是我们查看任务平台客户端的源码及对外的api,看看能有什么线索,最终锁定了一个问题,任务平台客户端使用了线程池,并且默认的线程池中线程最多为100(这个是有些坑,简单说明,任务中心是通过queue实现的,服务端发送任务消息,client收到后消费)。

我们再看到截图中的线程,隐隐也是任务中心client的线程池中的线程,于是我们进一步查找到底哪里才会使用char[],并且会有业务数据,查看全局代码后我们发现对于应用中任务消息的处理器并没有直接使用char[],组内一位同学提醒是不是使用log4j打日志处理不当的原因,想一想就目前现状而言,这种说法说的通,于是我们在每一个任务处理器中查看日志上有没有大对象的输出,果然找到了一些(订单、库存等....)。

private List<AmazonOrderInfo> getAmazonOrderNotInLocal(CustomerSalesChannelVO channel) {
        List<AmazonOrderInfo> amazonOrderInfoList = new ArrayList<>();
        try {
            Date nowTime = new Date();
            Date toTime = new Date(nowTime.getTime() - 121000);
            Date fromTime = new Date(nowTime.getTime() - 720000);
            amazonOrderInfoList = amazonOrderService.getAmazonOrderInfoNotInLocal(channel, fromTime, toTime);
            BizLogger.info("get amazon new order when amazon inventory feedback, result : " + amazonOrderInfoList);
        } catch (Exception e) {
            BizLogger.syserror("getAmazonOrderNotInLocal error,", e);
        }
        return amazonOrderInfoList;
    }

    //获取本地amazon创建失败的平台订单暂用的库存量
    private List<AmazonOrderItemVO> getAmazonErrorOrderInLocal(String customerCode) {
        AmazonOrderSO so = new AmazonOrderSO();
        so.setCustomerCode(customerCode);
        so.setStatus(AmazonOrderStatus.ERROR);
        List<AmazonOrderItemVO> amazonOrderItemVOList = amazonOrderService.getAmazonOrderItemVOList(so);
        BizLogger.info("get amazon error order item in local when amazon inventory feedback, result : " + amazonOrderItemVOList);
        return amazonOrderService.getAmazonOrderItemVOList(so);
    }
 if (CollectionUtils.isNotEmpty(inventoryAgeVOList)) {
         BizLogger.info("send inventoryAge message." + inventoryAgeVOList);
                sendInventoryAgeSyncMessage(asnVO.getCustomerCode(), inventoryAgeVOList);
    }

于是我们查阅相关资料了解到log4j会将当前线程中被打印的最长记录的大小进行缓存,至此该问题已经说得通了。

由于任务中心的客户端启用了默认最大线程数为100的线程池,这些线程用来消费服务端发送过来的任务消息,该业务应用中配置很多关于库存、订单的相应任务,在这些具体任务消息的处理器中存在一定的大对象日志输出。由于线程是用线程池维护,每次执行完并不会被销毁掉,因此会存在大量的缓存区域。

这样也就能回答我们最初设想的第二个问题:测试环境、UAT环境为何从未有这样的情况,差别在哪?差别有四个地方:

  • 系统环境的内存大小及虚机版本。
  • 订单数据或是库存数据量的差异。
  • 测试环境和UAT环境我们并不会配置很多的job,更多的是测试完就结束。
  • 应用重启的频率不同,测试环境较为频繁。

最终处理方案:

(1)将任务中心客户端消费任务消息的线程池的最大线程数按照应用的实际情况改为10。

(2)去除对大对象的日志输出。

同时将任务中心客户端对于默认线程池的最大线程数设置的不合理性进行反馈,避免同样的事情发生在其他项目组。

总结:

1、当low memory被耗尽时,系统会kill掉不会影响自身稳定运行的用户进程。

2、应用上线程池的最大线程数的设置需要根据机器环境及应用本身进行合理设置,尤其要注意依赖消息实现的三方工具包中的线程次设置,避免被其引用的对象使用过量的缓存等。

3、在组内会议中明确,任务处理器中不允许有大对象的日志输出。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342

推荐阅读更多精彩内容