最近几天有一个问题一直困扰着我,就是我维护的一个网站最近几天总是在整点附近出问题,那时候数据库服务器CPU使用率超高,持续时间1-5分钟。
然后,我就开始各种查、各种记,出问题的时间点,数据库查询量很大,我把这些查询记录了下来,并做分析,然而并没有什么特别有规律的现象,因为这些查询非常分散,跟正常的查询一般无二,唯一区别就是量大。
同时,也去分析了WEB端的访问日志,截取出问题那几分钟的日志进行分析,过去两天一直都没有找到规律,跟数据库一样,非常分散,跟正常的访问一样,只是量大了一些。
我甚至怀疑是不是这台数据库服务器的硬件出现了问题,毕竟我们用的是腾讯云的机器,云主机存在资源共享的问题。所以,我还提交了工单,让售后去帮忙查,但无果。
今天,我再次分析日志时,发现了一些规律,那就是有三个ip访问量非常大。
这是一分钟内的统计数据,左边为IP的请求次数,一分钟一个正常的IP的请求数怎么可能超过1000次呢?甚至连100次都不应该超过才对。所以,直接把IP封掉。
也许这几天的问题跟IP访问量大没有直接关系,但既然今天发现了此问题,那就先解决再说。
考虑到后面还会有类似的IP访问,那我干脆直接写一个自动封IP的脚本,IP封了肯定需要自动解封,所以,我的脚本主要逻辑是:
1)每分钟查一下过去1分钟的日志,对IP进行分析,将访问量大于400的给封掉;
2)每隔半小时针对过去半小时以来的被封的IP进行分析,如果不再有数据包过来,则解封。 下面是脚本内容:
#! /bin/bash #定义1分钟以前的时间,用于过滤1分钟以前的日志 t1=`date -d "-1 min" +%Y:%H:%M` log=/var/log/nginx/access.log block_ip() { egrep "$t1:[0-5]+" $log > /tmp/tmp_last_min.log #把1分钟内访问量高于400的ip记录到一个临时文件中 # 过滤掉白名单IP(81.123.35.171) awk '{print $1}' /tmp/tmp_last_min.log|grep -v '81.123.35.171' |sort -n |uniq -c|sort -n |awk '$1>400 {print $2}' > /tmp/bad_ip.list #计算ip的数量 n=`wc -l /tmp/bad_ip.list|awk '{print $1}'` #当ip数大于0时,才会用iptables封掉它 if [ $n -ne 0 ] then for ip in `cat /tmp/bad_ip.list` do /usr/sbin/iptables -I INPUT -s $ip -j DROP done #将这些被封的IP记录到日志里 echo "`date` 封掉的IP有:" >> /tmp/block_ip.log cat /tmp/bad_ip.list >> /tmp/block_ip.log fi } unblock_ip() { #首先将包个数小于5的ip记录到一个临时文件里,把它们标记为白名单IP /usr/sbin/iptables -nvL INPUT|sed '1d' |awk '$1<5 {print $8}' > /tmp/good_ip.list n=`wc -l /tmp/good_ip.list|awk '{print $1}'` if [ $n -ne 0 ] then for ip in `cat /tmp/good_ip.list` do /usr/sbin/iptables -D INPUT -s $ip -j DROP done echo "`date` 解封的IP有:" >> /tmp/unblock_ip.log cat /tmp/good_ip.list >> /tmp/unblock_ip.log fi #当解封完白名单IP后,将计数器清零,进入下一个计数周期 /usr/sbin/iptables -Z } #取当前时间的分钟数 t=`date +%M` #当分钟数为00或者30时(即每隔30分钟),执行解封IP的函数,其他时间只执行封IP的函数 if [ $t == "00" ] || [ $t == "30" ] then unblock_ip block_ip else block_ip fi
然后写一个每分钟都执行的任务计划就可以啦。
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !