系统监控和业务监控

最近有一个项目有监控服务器系统指标和业务指标的功能，需要对页面展示数据和真实的系统和业务数据进行对比，总结一下系统监控的一些linux主机数据获取如下：
以centos7为例，

系统负载

（分钟数据，获取到的是1分钟均值，可以间隔10秒取一次，取6次值平均）

uptime | awk '{print $(NF-2)}'|awk -F ',' '{print $1}'

系统连接数

（实时数据，分钟数据可以在1分钟内多次获取，然后取均值或者根据需要取max或者min）

netstat -na|grep ESTABLISHED|wc -l

CPU信息

cat /proc/cpuinfo

CPU负载

CPU总使用

cat /proc/stat|  head -n 1 |grep cpu | awk '{print ($2+$3+$4+$5+$6+$7+$8+$9+$10)}'

(totalCpuTime = user + nice + system + idle + iowait + irq + softirq + stealstolen + guest)

CPU有效使用

cat /proc/stat|  head -n 1 |grep cpu | awk '{print ($2+$3+$4+$6+$7+$8+$9+$10)}'

上面两个值是系统开始到现在的总使用时间统计，所以需要在间隔时间之后再次取值，然后相减取差值
可以间隔单位时间再次取值
负载百分比等于 100单位时间有效使用/单位时间总使用
100 (total-idle)/total

CPU单核最高利用率

cpu的物理核数

cat /proc/stat | grep cpu |wc -l

取出所有的cpu使用情况

 cat /proc/stat|grep cpu

从第二行开始为各个cpu的使用情况，同计算负载一样的方法计算出单个cpu的负载，然后取最大值

CPU IO-Wait

cpu等待

cat /proc/stat|  head -n 1 |grep cpu | awk '{print $6}'

IO-Wait：

cpu等待/cpu总使用

内存信息

meminfo

cat /proc/meminfo

MEM-load

 free -b -t|grep Total|awk '{print 100*$3/$2}'

动态值，瞬时取值，单位时间值需要多次取值然后求均值

MEM-Swap

free -b -t|grep Swap|awk '{print 100*$3/$2}'

动态值，瞬时取值，单位时间值需要多次取值然后求均值

网卡：

ifconfig

不同的操作系统会得到不一样的数据
有些是
eth0: ..............
RX packets 2414861 bytes 224486412 (214.0 MiB)
RX errors 0 dropped 254480 overruns 0 frame 0
TX packets 488418 bytes 1252214442 (1.1 GiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0

lo: .........
RX packets 508834 bytes 128174116 (122.2 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 508834 bytes 128174116 (122.2 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0

有些是
eth0........................
RX packets:99183391 errors:0 dropped:0 overruns:0 frame:0
TX packets:95740501 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:44802775232 (41.7 GiB) TX bytes:21799717285 (20.3 GiB)

lo..........................
RX packets:1619038 errors:0 dropped:0 overruns:0 frame:0
TX packets:1619038 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:163500226 (155.9 MiB) TX bytes:163500226 (155.9 MiB)

rx入口包量

 ifconfig |grep 'RX packets'|sed 's/:/ /g'|awk '{sum += $3};END {print sum}'

tx出口包量

ifconfig |grep 'TX packets'|sed 's/:/ /g'|awk '{sum += $3};END {print sum}'

出口流量和入口流量就需要区别对待
不过还有一个方法，用cat /proc/net/dev（参见附部分说明）

出口包量：

 cat /proc/net/dev|grep :|awk '{sum +=$11};END {print sum}'

入口包量：

cat /proc/net/dev|grep :|awk '{sum +=$2};END {print sum}'

出口流量：

cat /proc/net/dev|grep :|awk '{sum +=$10};END {print sum}'

入口流量：

cat /proc/net/dev|grep :|awk '{sum +=$3};END {print sum}'

统计值是一个系统启动到当前的合计值，计算单位时间需要间隔时间取值两次取差值

磁盘数据

查看磁盘数据df -lh

 iostat -d -k

tps磁盘的请求数每秒
kB_read/s：每秒从设备（drive expressed）读取的数据量；
kB_wrtn/s：每秒向设备（drive expressed）写入的数据量；
kB_read：读取的总数据量；
kB_wrtn：写入的总数量数据量；这些单位都为Kilobytes

注意读写的总量是累计值，单位时间的值需要进行差值计算

业务数据分析

业务数据分析主要是分析nginx的日志请求
可以配置nginx的日志输出格式以及输出选项，对日志内容进行分析

案例1：

查询某一时间，第三个字段不为某值并且第21个字段为某值的百分比

cat nginx.log|awk -F '日志字段分隔符' '{if($1~/查询时间（日志的第一个字段是请求时间）/ && $3~!/（第三个字段不为某个值）/){sum +=$15; if($21~/（第21个字段为某一个值）/) sumhit += $15}};END {print 100*sumhit/sum}'

案例2：

查询某一时间，第12个字段是2xx或者3xx的日志条数

cat nginx.log|awk -F '日志字段分隔符' '{if($1~/查询时间（日志的第一个字段是请求时间）/&&($12~/2[0-9][0-9]/||$12~/3[0-9][0-9]/)) print $12}'|wc -l

案例3：

查询某一时间，如果第37字段为0则记为1，然后求第37字段之和与第15字段之和的商值

cat nginx.log|awk -F '|' '{if($1~/查询时间（日志的第一个字段是请求时间）/){if($37==0){$37=1;} sumin += $37;sumout +=$15}};END {print sumout/sumin}'

案例4：

查询某一时间，业务成功率，第12字段为业务返回码，2xx和3xx表示业务返回成功

cat nginx.log|awk -F '|' '{if($1~/查询时间（日志的第一个字段是请求时间）/) print $12}'|awk '{sum +=1;if($1~/2[0-9][0-9]/||$1~/3[0-9][0-9]/) oksum +=1};END {print 100*oksum/sum}'

案例5：

查询某一时间段内，业务成功率，第12字段为业务返回码，2xx和3xx表示业务返回成功

cat nginx.log|awk -F '|' '$1>"查询开始时间"（日志的第一个字段是请求时间）&& $1<"查询结束时间"' |awk -F '|' '{sum +=1;if($12~/2[0-9][0-9]/||$12~/3[0-9][0-9]/) oksum +=1};END {print 100*oksum/sum}'

等等
主要就是运用cat awk sed等对日志文件进行分析

（附：/proc/stat的说明）

 cat /proc/stat

user----从系统启动开始累计到当前时刻，处于用户态的运行时间，不包含 nice值为负进程
nice----从系统启动开始累计到当前时刻，nice值为负的进程所占用的CPU时间
system----从系统启动开始累计到当前时刻，处于核心态的运行时间
idle----从系统启动开始累计到当前时刻，除IO等待时间以外的其它等待时间
iowait----从系统启动开始累计到当前时刻，IO等待时间
irq----从系统启动开始累计到当前时刻，硬中断时间
softirq----从系统启动开始累计到当前时刻，软中断时间
stealstolen----虚拟环境中其他系统中运行时时间
guest----Linux内核来宾系统虚拟CPU所花费的时间

（附：/proc/net/dev的说明）

cat /proc/net/dev

Receive----表示收包，
Transmit----表示收包；
bytes----表示收发的字节数；
packets----表示收发正确的包量；
errs----表示收发错误的包量；
drop----表示收发丢弃的包量；

（附：iostat扩展）

 iostat -d -x -k

rrqm/s----每秒这个设备相关的读取请求有多少被Merge了（当系统调用需要读取数据的时候，VFS将请求发到各个FS，如果FS发现不同的读取请求读取的是相同Block的数据，FS会将这个请求合并Merge）；
wrqm/s----每秒这个设备相关的写入请求有多少被Merge了
rsec/s----每秒读取的扇区数；
wsec/s----每秒写入的扇区数。
rKB/s----每秒读数据；
wKB/s----每秒写数据；
avgrq-sz----平均请求扇区的大小；
avgqu-sz----是平均请求队列的长度。毫无疑问，队列长度越短越好；
await----每一个IO请求的处理的平均时间（单位是微秒毫秒）。这里可以理解为IO的响应时间，一般地系统IO响应时间应该低于5ms，如果大于10ms就比较大了。这个时间包括了队列时间和服务时间，也就是说，一般情况，await大于svctm，它们的差值越小，则说明队列时间越短，反之差值越大，队列时间越长，说明系统出了问题；
svctm----表示平均每次设备I/O操作的服务时间（以毫秒为单位）；如果svctm的值与await很接近，表示几乎没有I/O等待，磁盘性能很好，如果await的值远高于svctm的值，则表示I/O队列等待太长，系统上运行的应用程序将变慢；
%util----在统计时间内所有处理IO时间，除以总共统计时间。例如，如果统计间隔1秒，该设备有0.8秒在处理IO，而0.2秒闲置，那么该设备的%util = 0.8/1 = 80%，所以该参数暗示了设备的繁忙程度；一般，如果该参数是100%表示设备已经接近满负荷运行了（当然如果是多磁盘，即使%util是100%，因为磁盘的并发能力，所以磁盘使用未必就到了瓶颈）；

最后编辑于：2017.12.10 17:39:37

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342