这大概就是智能运维的最早形态吧

嵌入式技术

1378人已加入

描述

我们搞运维的总幻想着,任何线上问题都能靠它自己自愈,它只需要在发生问题时自动解决问题后通知一下我们即可!

这不,今天就有这样一个小需求,对你来说一定非常简单。

【需求】

写一个自动化重启服务脚本,当访问日志频繁出现502状态码时,重启php-fpm服务。

提示:

假定Ngnix访问日志路径为/data/logs/www_access.log

重启php-fpm服务的命令为systemctl restart php-fpm

访问日志片段(里面的200就是状态码)

 

123.52.13.247 - [30/Jul/202203:15 +0800]bbs.aabcc.cn "/thread-2403963-2-198.html" 200 "http://bbs.aabcc.cn/thread-2403963-1-198.html" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"
171.8.172.146 - [30/Jul/202203:15 +0800]bbs.aabcc.cn "/thread-2430178-2-7.html" 200 "http://bbs.aabcc.cn:8234/thread-2430178-8-7.html" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"
171.8.173.103 - [30/Jul/202203:15 +0800]bbs.aabcc.cn "/forum.php?mod=viewthread&action=printable&tid=2407976" 200 "http://bbs.aabcc.cn:8784/forum.php?mod=viewthread&tid=2407976&extra&ordertype=2" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"
123.52.13.247 - [30/Jul/202203:15 +0800]bbs.aabcc.cn "/thread-2396686-1-245.html" 200 "http://bbs.aabcc.cn/thread-2396686-2-245.html" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"

 

脚本可以每分钟执行一次,脚本执行时截取上一分钟的日志,可以计算总日志行数,和出现502的行数,计算比例,这里我给大家定一个比例吧,超过20%就算是有问题啦

【解析】

首先,给出思路:

每分钟执行脚本,将过去一分钟的日志截取出来;

然后分析这一分钟内的日志,计算日志总行数,计算状态码为502的日志行数;

两个数字相除,计算百分比;

拿到百分比数字和20相比较;

高于20执行重启php-fpm服务的命令;

先看第一个需求点,如何拿到过去一分钟的日志?

看日志片段吧,很明显日志里有一个时间字段 "30/Jul/202203:15"

过去一分钟,就是拿当前的分钟减去一分钟,date就可以实现啊 : 

 

date -d "-1 min" +%Y:%H:%M

 

为了过滤的更加精准,建议在最后面再加个:

所以,从访问日志中截取过去一分钟的日志可以这样做:

 

last_t=`date -d "-1 min" +%Y:%H:%M"`
tail -n 10000 /data/logs/www_access.log |grep "/${last_t}:"  > /tmp/last.log

 

解释一下,为什么tail -n 10000呢,因为如果访问日志很大的话,直接去grep会比较耗费时间,所以先将最后面的1w行截取出来,效率会高很多。

当然,这个1w是我预估的,大家也可以根据实际的日志量来评估这个数字,你也可以是1000行。

将过滤后的日志先存放到一个临时文件里,留着备用。

下面就该计算日志总行数,这个很简单,直接 wc  -l  /tmp/last.log 就行了。

而502状态码的日志行数,还需要使用grep:

 

grep  -c '" 502 "' /tmp/last.log

 

大家注意,502左右都带有空格,这是为了更加精准匹配,因为日志里很有可能其它地方包含502关键词。

拿到两个数字后,接下来就该计算百分比了。

百分比要精确到小数点后两位,所以不能直接使用shell中的数学运算,得借助于一个linux下的计算器bc,先看例子吧 :

 

echo "scale=2; 12*100/101"|bc

 

日志

所以对应到本案例中,假设502行数用s502_c变量标记,最后1分钟日志总行数用last_1min_c标记,计算百分比,这样做:

 

echo "scale=2; ${s502_c}*100/${last_1min_c}"|bc

 

由于shell中的数学逻辑运算不能使用小数来比较,所以还需要将上面获取到的数字进一步包装,可以将其乘以100,也就是去掉点:

 

echo "scale=2; ${s502_c}*100/${last_1min_c}"|bc|sed 's/.//'

 

获取到这个数字后,然后再与2000进行比较。

之后,就是去做判断,若符合条件进行重启操作。

【参考答案】

脚本最终是这样的:

 

#!/bin/bash
logfile="/data/logs/www_access.log"
last_t=`date -d "-1 min" +%Y:%H:%M`
tail -n 10000 $logfile |grep "/${last_t}:"  > /tmp/last.log
last_1min_c=`wc -l /tmp/last.log|awk '{print $1}'`
s502_c=`grep  -c '" 502 "' /tmp/last.log`
p=`echo "scale=2; ${s502_c}*100/${last_1min_c}"|bc|sed 's/.//'`
if [ $p -gt 2000 ]
then
    echo "`date` 502日志大于20%,需要重启php-fpm服务" >> /tmp/restart_php-fpm.log
    systemctl restart php-fpm
fi
 

 

 审核编辑:汤梓红

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分