假日期间常见的数据库磁盘空间处理小结

  数据库的报警可以拆分为很多类别,但是有一点是无论如何都跑不掉的,而且花样百出,那就是磁盘空间报警。

  在我的认知中,磁盘空间报警可以从上向下,从下向上的看待,如果从下向上看待,磁盘空间类报警的处理方法相对比较简单,只要分析了空间使用瓶颈,合理处理是按部就班的事情,重复度较高,难度适中,见效快。而从上向下看待,磁盘空间类报警是我们必须要搞定的一场硬仗,因为系统类报警,CPU,内存,磁盘,其中CPU,内存类报警的原因都不太明朗,需要做更进一步的分析,而处理方法则需要结合业务的改造或者系统层面的调整优化才能见效,磁盘类报警则相对来说属于性价比较高的,对于运维侧的需求则需要更进一步,那就是在重复度,复杂度的平衡中找到一种普适的处理办法,能够将这部分工作逐步的通过自动化方式处理,也就是从处理故障变为故障自愈模式。 

在节假日碰到磁盘报警是一种煎熬,如果已经在旅行途中,收到一条报警短信就像吃了苍蝇一样难受,大体有如下的一些处理方式:

一.系统层预处理:

在节假日前,我们一般会做两类工作:

第一类是做系统的全面巡检,主要涉及如下的几个指标,我们会汇总为一个指标巡检大盘:

1)磁盘空间使用率,拆分为根目录使用率和数据目录使用率

2)内存使用率

3)CPU使用率

4)inode使用率

5)系统负载情况

6)数据库延迟

这份指标能够发现绝大多数明显的问题,基本扫清之后就能够杜绝大部分的隐患。 


第二类工作,我们会把监控报警的阈值降低,比如磁盘空间的阈值为80%~85%左右,一般会降为75%左右,这样可以把一部分潜在的隐患也一并处理掉。 

如此一来能够杜绝大部分硬伤的报警,当然这个工作的潜在问题就是人工干预较为明显,如果能够做自动适配和指标回置,整个过程会更加有弹性。 


二.系统层处理

系统层处理的硬伤问题相对比较少,主要碰到几类:

1)查看系统层的空间使用异常,但是进程没有释放相关的句柄,导致空间没有彻底释放。 

比如一个nohup任务生成的日志比较大,我们手工删除了生成的日志文件,但是空间却没有释放,一般来说,可以使用lsof来得到相关的句柄的明细,也可以看到磁盘空间占用较高的文件对应的进程,顺着这条线分析,

常用的命令为:lsof|grep deleted ,即可查找相关的进程

2)inode异常,inode异常会导致很多奇怪的问题,比如数据分区无法写入文件,数据库无法登陆等,有一部分原因是crontab产生的大量碎片文件导致,可以通过如下的路径:

/var/spool/postfix/maildrop

/var/spool/clientmqueue/

来进行快速的清理。

如果文件较多,可以使用xargs分批删除

# ls -l 2020*|wc -l

-bash: /bin/ls: Argument list too long

0

可以采用-n选项

ls | xargs -n 20 rm -f

如果数量达到一定程度依然会报错,可以使用find+xargs的组合方式。 

如下效果较为稳定,可以根据find的通配模式进行匹配清理。

find . -name "20200825*" | xargs rm -f '20200825*'



三.数据库层处理

数据库层的清理可做的空间相对比较大,前提是你给自己预留的空间要足够大,否则坑足够大处理起来会比较纠结。


1)binlog配置和清理

binlog的配置主要有参数expire_logs_days控制,如果出现空间问题,而且我们确认了主从复制等基本配置,就可以调整expire_logs_days的配置,比如从7天调整为3天等。

如果binlog在短时间内产生的数量比较大,参数的控制已经满足不了了,则可以使用purge binary logs to 'xxx'的方式进行快速处理,当然处理的核心都是主从延迟情况。 

如果因为主从延迟较大,则可以专注于处理延迟的一些临时配置,比如双1配置调整,并行复制线程等配置。

2)回收站

数据库回收站模式在MySQL中是没有的,不代表我们不需要做,有很多敏感的数据清理任务造成的影响都具有延迟性,比如数据清理之后几天之后业务侧需要用的时候才会找过来,当然这个过程的敏感度可以更快一些,但是不能作为我们无法处理的借口。

数据库的回收站在MySQL的基本原理就是移形换位,把一张表通过renmae的方式快速的转移到一个独立的归档库下面,比如test_arch,在这个数据库中的表可以按照时间顺序进行数据清理,这样表中的数据就可以保存的时间就更长了,我印象中处理最长的数据是一个月,整个恢复的工作都是秒级,着实让业务同学目瞪口呆。

 3)InnoDB表格式row_format修改为compressed

如果有些数据表存放的是日志数据,而且日志数据出现了爆发式增长,那么一种快速的适配方法就是使用compressed的数据格式,经过测试,在有些场景下的压缩率达到了近50%,而且查取效率依然很高,对于存储方面的收益更高,比如一个业务的数据保留需要控制在2个月,一种方式是扩容一倍的存储空间,一种是开启compressed模式,在我们已验证的业务场景中算是取得了初步的效果。 

你们还有什么方法可以避免磁盘空间类问题的窘状,欢迎留言。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335