Linux磁盘空间告警的常见原因和诊断方法

描述

Linux磁盘空间告警?三步快速定位

背景与目的

磁盘空间告警是运维工作中最常见的告警类型之一。当磁盘空间耗尽时,应用程序无法写入日志、数据库无法正常提交、容器无法创建新镜像,甚至系统日志写入失败会导致难以诊断的连锁故障。本文从实际运维经验出发,提供一套完整的磁盘空间问题定位和解决流程。

前置知识:本文假设你已经掌握Linux基本命令和文件目录操作。了解常见的Linux发行版(CentOS/RHEL/Rocky/Ubuntu等)。

环境说明:本文示例基于Rocky Linux 9.4(等同于RHEL 9.4),文件系统为XFS,工具版本:df(GNU coreutils 9.1)、du(GNU findutils 4.9)、ncdu(1.17)。

1. 磁盘告警的常见原因

1.1 日志文件暴涨

这是最常见的磁盘空间告警原因。应用程序日志、Web访问日志、数据库慢查询日志等,在高并发或异常情况下可能快速增长。

典型场景

应用程序debug模式未关闭,日志量暴增10倍

错误循环导致重复写日志

日志轮转配置缺失或失效

大流量访问产生海量访问日志

表现特征

 

/var/log/messages 单文件超过GB级别
/var/log/nginx/access.log 单文件超过10GB
/var/lib/mysql/slow-query.log 持续增长

 

1.2 临时文件和缓存未清理

系统运行过程中产生的临时文件和缓存,如果未及时清理会占用大量空间。

典型场景

/tmp 目录积累大量临时文件

包管理器缓存(yum/dnf/apt)未清理

编译产生的中间文件未删除

容器镜像/构建缓存未清理

表现特征

 

/var/cache 目录占用数十GB
/tmp 下有大量一个月前的文件
docker system df 显示异常大的空间占用

 

1.3 数据文件自然增长

数据库、KV存储、日志聚合系统等,数据会随时间自然增长。

典型场景

MySQL InnoDB表空间持续增长

PostgreSQL数据目录膨胀

Elasticsearch索引无限增长

MongoDB数据文件未启用自动压缩

1.4 隐藏的大文件

某些场景下,大文件可能被删除但进程仍持有文件句柄,导致磁盘空间无法释放。

典型场景

日志文件被删除但进程未重启

临时文件创建后删除但进程仍写入

镜像文件传输中断产生空洞文件

表现特征

 

df显示已满,但du显示使用量很少
文件明明删除了但空间不释放
重启进程后空间释放

 

1.5 inode耗尽

虽然少见,但inode耗尽也会导致"磁盘满"的问题。inode用于存储文件元数据,每个文件至少占用一个inode。

典型场景

小文件过多(大量缓存文件、邮件队列)

文件系统创建时inode数量配置不足

2. 第一步:快速定位

当收到磁盘告警时,第一步是快速判断是哪个分区、哪个挂载点出现了问题。

2.1 df命令基础用法

df是磁盘空间查看的基础命令,必须掌握。

 

# 查看文件系统使用情况(人类可读格式)
$ df -h

Filesystem      Size  Used Avail Use% Mounted on
devtmpfs         16G     0   16G   0% /dev
tmpfs            16G     0   16G   0% /dev/shm
tmpfs            16G  1.2G   15G   8% /run
/dev/sda1       100G   45G   55G  45% /
/dev/sda2       200G   180G   20G  90% /data
/dev/sdb1       500G   450G   50G  90% /var/lib/mysql

# 查看inode使用情况
$ df -i

Filesystem      Inode  IUsed  IFree IUse% Mounted on
/dev/sda1      524288  123456 400832    23% /
/dev/sda2     1048576  523456 525120    50% /data

# 显示文件系统类型
$ df -hT

Filesystem     Type      Size  Used Avail Use% Mounted on
/dev/sda1      xfs       100G   45G   55G  45% /
/dev/sda2      ext4      200G   180G   20G  90% /data

# 排除伪文件系统,只看真实磁盘
$ df -h --output=source,size,used,avail,pcent,target 
  | grep -E '^/dev|^/mnt|^/vol'

# 查找使用率超过80%的分区
$ df -h | awk 'NR>1 && $5+0 > 80 {print}'
/dev/sda2      200G   180G   20G  90% /data

 

2.2 快速定位脚本

 

#!/bin/bash
# script: quick_disk_check.sh
# 用途:收到告警后30秒内定位问题

echo "=== 磁盘空间快速检查 ==="
echo "检查时间:$(date)"
echo ""

# 1. 找出使用率超过80%的分区
echo "【1】使用率超过80%的分区:"
df -h | awk 'NR>1 && $5+0 > 80 {
    printf "  %s: %s/%s (使用率%s)
", $1, $3, $2, $5
}'
echo ""

# 2. 如果是/分区告警,检查是否boot分区问题
echo "【2】各分区使用率概览:"
df -h | awk 'NR>1 {
    printf "  %-30s %6s  使用率: %s
", $6, $2, $5
}'
echo ""

# 3. 检查inode
echo "【3】Inode使用情况:"
df -i | awk 'NR>1 && $5+0 > 80 {
    printf "  警告:%s inode使用率%s
", $6, $5
}'
echo ""

# 4. 检查最近磁盘增长趋势(需要历史数据支持)
echo "【4】近期活跃目录(按修改时间):"
find / -maxdepth 3 -type d -mtime -1 2>/dev/null | head -20
echo ""

echo "=== 快速检查完成 ==="

 

2.3 du命令基础用法

du用于查看目录或文件的磁盘使用量,是精确定位的核心工具。

 

# 查看当前目录各子目录大小
$ du -sh *

# 查看指定目录大小(人类可读)
$ du -sh /var/log

# 查看子目录大小并排序(人类可读)
$ du -h /var | sort -rh | head -20

# 深度2层子目录大小
$ du -h --max-depth=2 /var

# 只显示超过100M的目录
$ du -h --threshold=100M /var

# 显示磁盘使用总量(不显示子目录)
$ du -sh /var/log

# 排除某些挂载点
$ du -sh --exclude=/proc --exclude=/sys /

# du结果导出
$ du -h / 2>/dev/null | sort -rh > /tmp/du_result.txt

 

2.4 ncdu交互式工具

ncdu是du的增强版,提供交互式界面,特别适合快速定位大目录。

 

# 安装ncdu
dnf install ncdu -y   # CentOS/RHEL/Rocky
apt install ncdu -y   # Ubuntu/Debian

# 使用ncdu分析目录
ncdu -x /    # -x 不跨文件系统,跟随挂载点
ncdu -q /   # q退出模式,适合脚本调用

# 常用快捷键(在ncdu界面中)
# 上下箭头:选择目录
# 回车:进入目录
# d:删除选中文件/目录
# n:按名称排序
# s:按大小排序
# t:显示目录优先
# g:显示百分比
# q:退出

 

2.5 快速定位大文件

 

#!/bin/bash
# script: find_large_files.sh
# 用途:快速找到系统中的大文件

echo "=== 大文件扫描开始 ==="
echo "扫描时间:$(date)"
echo ""

# 1. 查找超过1GB的文件
echo "【1】超过1GB的文件:"
find / -type f -size +1G -exec ls -lh {} ; 2>/dev/null | 
    awk '{print $5, $9}'

echo ""

# 2. 查找超过100MB的文件(限制数量)
echo "【2】超过100MB的文件(前50个):"
find / -type f -size +100M 2>/dev/null | 
    head -50 | xargs -I{} ls -lh {} 2>/dev/null | 
    awk '{print $5, $9}'

echo ""

# 3. 查找最大的10个目录
echo "【3】系统中最大的10个目录:"
du -Sh / 2>/dev/null | sort -rh | head -10

echo ""

# 4. 检查特定目录
for dir in /var /home /tmp /opt /usr; do
    if [ -d "$dir" ]; then
        echo "【4.1】${dir} 目录大小:$(du -sh $dir 2>/dev/null | cut -f1)"
    fi
done

 

3. 第二步:深度分析

定位到问题分区后,第二步是深度分析,找出占用空间的具体文件和目录。

3.1 分析日志文件

 

#!/bin/bash
# script: analyze_logs.sh
# 用途:分析/var/log目录,定位占用空间大的日志

echo "=== 日志目录分析 ==="
echo ""

# 列出/var/log下所有目录和文件大小
echo "【1】/var/log 各子目录大小:"
du -sh /var/log/* 2>/dev/null | sort -rh | head -15

echo ""

# 找出超过100MB的日志文件
echo "【2】超过100MB的日志文件:"
find /var/log -type f -size +100M 2>/dev/null | while read f; do
    size=$(ls -lh "$f" | awk '{print $5}')
    modified=$(stat -c %y "$f" | cut -d' ' -f1)
    echo "  $size  $modified  $f"
done

echo ""

# 统计日志文件增长趋势(需要对比)
echo "【3】日志文件详情:"
find /var/log -type f -exec ls -lh {} ; 2>/dev/null | 
    awk '{print $5, $6, $7, $9}' | sort -rh | head -20

echo ""

# 检查日志轮转配置
echo "【4】日志轮转配置状态:"
for logfile in /var/log/messages /var/log/secure /var/log/nginx/*.log; do
    if [ -f "$logfile" ]; then
        echo "  $logfile:"
        ls -lh "${logfile}"* 2>/dev/null | head -5
        echo ""
    fi
done

 

3.2 分析数据库数据目录

 

#!/bin/bash
# script: analyze_db_space.sh
# 用途:分析数据库目录占用情况

echo "=== 数据库空间分析 ==="
echo ""

# MySQL数据目录
MYSQL_DATA="/var/lib/mysql"
if [ -d "$MYSQL_DATA" ]; then
    echo "【1】MySQL数据目录:${MYSQL_DATA}"
    echo "  总大小:$(du -sh $MYSQL_DATA 2>/dev/null | cut -f1)"

    # 按表大小排序
    echo "  按表大小排序(前10):"
    find "$MYSQL_DATA" -name "*.ibd" -exec du -h {} ; 2>/dev/null | 
        sort -rh | head -10 | while read size file; do
            echo "    $size  $(basename $file)"
        done

    # 检查InnoDB表空间
    echo "  InnoDB表空间文件:"
    ls -lh "$MYSQL_DATA"/ibdata* 2>/dev/null
    echo ""
fi

# PostgreSQL数据目录
POSTGRES_DATA="/var/lib/pgsql/data"
if [ -d "$POSTGRES_DATA" ]; then
    echo "【2】PostgreSQL数据目录:${POSTGRES_DATA}"
    echo "  总大小:$(du -sh $POSTGRES_DATA 2>/dev/null | cut -f1)"
    echo "  Base目录内容:"
    du -sh "$POSTGRES_DATA/base" 2>/dev/null
    echo "  WAL目录:"
    du -sh "$POSTGRES_DATA/pg_wal" 2>/dev/null
    echo ""
fi

# MongoDB数据目录
MONGO_DATA="/var/lib/mongodb"
if [ -d "$MONGO_DATA" ]; then
    echo "【3】MongoDB数据目录:${MONGO_DATA}"
    echo "  总大小:$(du -sh $MONGO_DATA 2>/dev/null | cut -f1)"
    ls -lh "$MONGO_DATA"/*.wt 2>/dev/null | head -10
    echo ""
fi

 

3.3 分析临时文件和缓存

 

#!/bin/bash
# script: analyze_temp_cache.sh
# 用途:分析临时文件和缓存占用

echo "=== 临时文件和缓存分析 ==="
echo ""

# /tmp目录
echo "【1】/tmp 目录分析:"
tmp_count=$(find /tmp -type f 2>/dev/null | wc -l)
tmp_size=$(du -sh /tmp 2>/dev/null | cut -f1)
echo "  文件数量:$tmp_count"
echo "  总大小:$tmp_size"
echo "  /tmp 前10大文件:"
find /tmp -type f -exec du -h {} ; 2>/dev/null | 
    sort -rh | head -10 | while read size file; do
        age=$(stat -c %y "$file" 2>/dev/null | cut -d' ' -f1)
        echo "    $size  $age  $(basename "$file")"
    done
echo ""

# /var/tmp目录
if [ -d /var/tmp ]; then
    echo "【2】/var/tmp 目录分析:"
    echo "  总大小:$(du -sh /var/tmp 2>/dev/null | cut -f1)"
    echo "  前10大文件:"
    find /var/tmp -type f -exec du -h {} ; 2>/dev/null | 
        sort -rh | head -10
    echo ""
fi

# 包管理器缓存
echo "【3】包管理器缓存:"

# DNF/YUM缓存
if [ -d /var/cache/dnf ]; then
    echo "  DNF缓存大小:$(du -sh /var/cache/dnf 2>/dev/null | cut -f1)"
    echo "  DNF缓存包数量:$(find /var/cache/dnf -name "*.rpm" 2>/dev/null | wc -l)"
fi

# APT缓存
if [ -d /var/cache/apt ]; then
    echo "  APT缓存大小:$(du -sh /var/cache/apt 2>/dev/null | cut -f1)"
fi

# Yarn缓存
if [ -d /home/*/.cache/yarn ]; then
    echo "  Yarn缓存总大小:$(du -sh /home/*/.cache/yarn 2>/dev/null | cut -f1)"
fi

# npm缓存
if [ -d /home/*/.npm ]; then
    echo "  npm缓存总大小:$(du -sh /home/*/.npm 2>/dev/null | cut -f1)"
fi
echo ""

# Docker相关
if command -v docker &> /dev/null; then
    echo "【4】Docker空间占用:"
    docker system df 2>/dev/null || echo "  Docker命令执行失败"
    echo ""
fi

# 旧内核
echo "【5】旧内核占用:"
if [ -d /boot ]; then
    echo "  /boot总大小:$(du -sh /boot | cut -f1)"
    echo "  已安装内核版本:"
    ls /boot/vmlinuz-* 2>/dev/null | sed 's/.*vmlinuz-//' | while read ver; do
        size=$(ls -lh /boot/vmlinuz-$ver 2>/dev/null | awk '{print $5}')
        echo "    $ver ($size)"
    done
fi

 

3.4 分析隐藏的大文件

 

#!/bin/bash
# script: find_deleted_but_open.sh
# 用途:查找已删除但仍被进程占用的文件

echo "=== 已删除但未释放空间的文件 ==="
echo ""

# 遍历所有进程,查找已删除但仍打开的文件
for pid in $(ls /proc | grep -E '^[0-9]+$'); do
    if [ -d "/proc/$pid/fd" ]; then
        # 查找符号链接指向(deleted)的文件描述符
        for fd in /proc/$pid/fd/*; do
            target=$(readlink "$fd" 2>/dev/null)
            if [[ "$target" == *"(deleted)"* ]]; then
                size=$(ls -lh "$fd" 2>/dev/null | awk '{print $5}')
                cmd=$(cat /proc/$pid/cmdline 2>/dev/null | tr '�' ' ' | head -c 50)
                echo "PID: $pid | CMD: $cmd"
                echo "  FD: $fd -> $target | Size: $size"
            fi
        done
    fi
done | head -50

echo ""
echo "说明:上述文件已删除但进程仍在使用,重启相关进程可释放空间"

 

3.5 分析容器和镜像

 

#!/bin/bash
# script: analyze_container_space.sh
# 用途:分析容器和镜像占用的磁盘空间

if ! command -v docker &> /dev/null; then
    echo "Docker未安装或未运行"
    exit 0
fi

echo "=== Docker空间占用分析 ==="
echo ""

# 总体空间占用
echo "【1】Docker总体空间:"
docker system df

echo ""

# 详细分类
echo "【2】空间占用明细:"
docker system df -v 2>/dev/null | head -50

echo ""

# 悬空镜像( dangling)
echo "【3】悬空镜像(无标签):"
dangling=$(docker images -f "dangling=true" -q)
if [ -n "$dangling" ]; then
    echo "  悬空镜像数量:$(echo $dangling | wc -w)"
    docker images -f "dangling=true"
else
    echo "  无悬空镜像"
fi

echo ""

# 停止的容器
echo "【4】停止的容器:"
stopped=$(docker ps -a -f status=exited -q)
if [ -n "$stopped" ]; then
    echo "  停止容器数量:$(echo $stopped | wc -w)"
    docker ps -a -f status=exited --format "{{.ID}}	{{.Names}}	{{.Status}}"
else
    echo "  无停止的容器"
fi

echo ""

# 各镜像大小
echo "【5】镜像大小排序(前10):"
docker images --format "{{.Repository}}:{{.Tag}}	{{.Size}}" | 
    sort -t$'	' -k2 -rh | head -10

echo ""
echo "清理命令:"
echo "  docker system prune -a      # 删除所有未使用的镜像和容器"
echo "  docker container prune      # 删除停止的容器"
echo "  docker image prune          # 删除悬空镜像"
echo "  docker volume prune         # 删除未使用的卷"

 

4. 第三步:清理与预警

定位问题后,第三步是执行清理操作并建立预警机制。

4.1 日志清理

手动清理日志

 

#!/bin/bash
# script: clean_old_logs.sh
# 用途:清理超过指定天数的日志文件

MAX_DAYS=30
LOG_DIRS="/var/log /opt/*/logs"

echo "=== 日志清理脚本 ==="
echo "清理超过${MAX_DAYS}天的日志..."
echo ""

count=0
total_size=0

for logdir in $LOG_DIRS; do
    if [ -d "$logdir" ]; then
        # 查找符合条件的日志文件
        find "$logdir" -type f -name "*.log" -mtime +$MAX_DAYS 2>/dev/null | while read logfile; do
            size=$(du -k "$logfile" | cut -f1)
            total_size=$((total_size + size))
            rm -f "$logfile"
            count=$((count + 1))
            echo "  Deleted: $logfile (${size}KB)"
        done

        # 清理gz压缩包(保留180天)
        find "$logdir" -type f -name "*.gz" -mtime +180 2>/dev/null | while read gzfile; do
            size=$(du -k "$gzfile" | cut -f1)
            total_size=$((total_size + size))
            rm -f "$gzfile"
            count=$((count + 1))
            echo "  Deleted: $gzfile (${size}KB)"
        done
    fi
done

echo ""
echo "清理完成:删除${count}个文件,释放约$((total_size/1024))MB"

 

清空当前日志文件(保留文件)

 

# 方法1:使用truncate
truncate -s 0 /var/log/messages

# 方法2:使用重定向
> /var/log/messages

# 方法3:使用dd(对于需要保留文件句柄的场景)
dd if=/dev/null of=/var/log/messages

# 验证
ls -lh /var/log/messages

 

4.2 配置日志轮转

 

# /etc/logrotate.d/nginx 示例配置
/var/log/nginx/*.log {
    daily                    # 每天轮转
    missingok               # 忽略文件不存在错误
    rotate 14               # 保留14个轮转文件
    compress                # 压缩旧日志
    delaycompress           # 延迟压缩(保留最近一个不压缩)
    notifempty             # 空日志不轮转
    create 0640 nginx adm  # 创建新文件权限
    sharedscripts           # 脚本只执行一次
    postrotate
        if [ -f /var/run/nginx.pid ]; then
            kill -USR1 `cat /var/run/nginx.pid`
        fi
    endscript
}

# /etc/logrotate.d/mysql 示例配置
/var/log/mysql/slow.log {
    daily
    rotate 7
    compress
    delaycompress
    missingok
    notifempty
    create 0600 mysql mysql
}

/var/log/mysql/error.log {
    daily
    rotate 14
    compress
    delaycompress
    missingok
    notifempty
    create 0600 mysql mysql
}

 

4.3 清理临时文件

 

#!/bin/bash
# script: clean_temp_files.sh
# 用途:清理临时文件和缓存

echo "=== 临时文件清理 ==="
echo "开始时间:$(date)"
echo ""

# 清理/tmp下超过7天的文件
echo "【1】清理/tmp下7天前的文件:"
tmp_deleted=$(find /tmp -type f -atime +7 2>/dev/null | wc -l)
find /tmp -type f -atime +7 -delete 2>/dev/null
echo "  删除文件数:$tmp_deleted"

# 清理/var/tmp下超过30天的文件
echo "【2】清理/var/tmp下30天前的文件:"
vartmp_deleted=$(find /var/tmp -type f -atime +30 2>/dev/null | wc -l)
find /var/tmp -type f -atime +30 -delete 2>/dev/null
echo "  删除文件数:$vartmp_deleted"

# 清理dnf缓存
echo "【3】清理DNF缓存:"
dnf clean all
echo "  DNF缓存已清理"

# 清理旧内核
echo "【4】清理旧内核:"
if command -v yum &> /dev/null; then
    # 列出已安装的内核
    current_kernel=$(uname -r)
    installed_kernels=$(rpm -q kernel | wc -l)

    if [ "$installed_kernels" -gt 1 ]; then
        # 保留当前内核和最新的一个旧内核
        rpm -q kernel | tail -n +2 | head -n -1 | while read kernel; do
            echo "  移除内核:$kernel"
            dnf remove -y "$kernel" 2>/dev/null || true
        done
    fi
fi

# 清理孤儿包
echo "【5】清理孤儿包:"
dnf autoremove -y 2>/dev/null || true

echo ""
echo "清理完成:$(date)"
echo "当前磁盘使用情况:"
df -h /

 

4.4 清理Docker空间

 

#!/bin/bash
# script: clean_docker_space.sh
# 用途:清理Docker占用的磁盘空间

echo "=== Docker空间清理 ==="
echo ""

# 查看当前占用
echo "【1】清理前Docker空间:"
docker system df

echo ""

# 1. 删除停止的容器
echo "【2】删除停止的容器:"
stopped_count=$(docker ps -a -f status=exited -q | wc -l)
if [ "$stopped_count" -gt 0 ]; then
    docker container prune -f
    echo "  已删除 $stopped_count 个停止的容器"
else
    echo "  无停止的容器"
fi

echo ""

# 2. 删除悬空镜像
echo "【3】删除悬空镜像:"
dangling_count=$(docker images -f "dangling=true" -q | wc -l)
if [ "$dangling_count" -gt 0 ]; then
    docker image prune -f
    echo "  已删除 $dangling_count 个悬空镜像"
else
    echo "  无悬空镜像"
fi

echo ""

# 3. 删除未使用的卷
echo "【4】删除未使用的卷:"
unused_volumes=$(docker volume ls -f dangling=true -q | wc -l)
if [ "$unused_volumes" -gt 0 ]; then
    docker volume prune -f
    echo "  已删除 $unused_volumes 个未使用的卷"
else
    echo "  无未使用的卷"
fi

echo ""

# 4. 删除build缓存(可选,会删除所有build缓存)
read -p "是否删除所有build缓存?(y/N): " confirm
if [ "$confirm" = "y" ]; then
    docker builder prune -f
    echo "  已删除build缓存"
fi

echo ""

# 5. 全面清理(可选)
read -p "是否执行全面清理(删除所有未使用的对象)?(y/N): " full_clean
if [ "$full_clean" = "y" ]; then
    docker system prune -a -f --volumes
    echo "  已执行全面清理"
fi

echo ""
echo "【5】清理后Docker空间:"
docker system df

 

4.5 建立磁盘监控预警

 

#!/bin/bash
# script: disk_alert_monitor.sh
# 用途:监控磁盘使用率,超过阈值时发送告警

# 配置
WARNING_THRESHOLD=80
CRITICAL_THRESHOLD=90
ALERT_LOG="/var/log/disk_alert.log"
EMAIL_TO="ops@example.com"

# 获取磁盘使用信息
check_disk() {
    local mount_point="$1"
    local usage=$(df "$mount_point" | awk 'NR==2 {print $5}' | sed 's/%//')
    local device=$(df "$mount_point" | awk 'NR==2 {print $1}')
    local size=$(df -h "$mount_point" | awk 'NR==2 {print $2}')
    local used=$(df -h "$mount_point" | awk 'NR==2 {print $3}')
    local avail=$(df -h "$mount_point" | awk 'NR==2 {print $4}')

    echo "$usage|$device|$size|$used|$avail"
}

# 发送告警
send_alert() {
    local level="$1"
    local message="$2"

    echo "[$(date '+%Y-%m-%d %H:%M:%S')] [$level] $message" >> "$ALERT_LOG"

    # 邮件告警(需要mailx)
    if command -v mailx &> /dev/null; then
        echo "$message" | mailx -s "[$level] Disk Alert on $(hostname)" "$EMAIL_TO"
    fi
}

# 主监控逻辑
echo "=== 磁盘监控检查 ==="
echo "检查时间:$(date)"
echo ""

CHECK_MOUNTS="/ /data /var /home /boot"

for mount_point in $CHECK_MOUNTS; do
    if [ -d "$mount_point" ]; then
        info=$(check_disk "$mount_point")
        usage=$(echo "$info" | cut -d'|' -f1)
        device=$(echo "$info" | cut -d'|' -f2)
        size=$(echo "$info" | cut -d'|' -f3)
        used=$(echo "$info" | cut -d'|' -f4)
        avail=$(echo "$info" | cut -d'|' -f5)

        echo "$mount_point ($device): $usage% used ($used/$size, 可用$avail)"

        if [ "$usage" -ge "$CRITICAL_THRESHOLD" ]; then
            send_alert "CRITICAL" "磁盘使用率危急!${mount_point}使用率${usage}%,设备${device},可用空间${avail}"
        elif [ "$usage" -ge "$WARNING_THRESHOLD" ]; then
            send_alert "WARNING" "磁盘使用率告警!${mount_point}使用率${usage}%,设备${device},可用空间${avail}"
        fi
    fi
done

 

4.6 自动化清理脚本

 

#!/bin/bash
# script: automated_disk_cleanup.sh
# 用途:自动化磁盘空间维护脚本,建议通过cron定期执行

# 配置
MAX_LOG_AGE_DAYS=30
MAX_TMP_AGE_DAYS=7
DOCKER_PRUNE_WEEKLY=true
LOG_DIR="/var/log/cleanup"

# 创建日志目录
mkdir -p "$LOG_DIR"

log() {
    echo "[$(date '+%Y-%m-%d %H:%M:%S')] $1" | tee -a "$LOG_DIR/cleanup_$(date +%Y%m%d).log"
}

# 主流程
log "========== 开始磁盘清理 =========="

# 1. 清理旧日志
log "步骤1:清理${MAX_LOG_AGE_DAYS}天前的日志文件"
find /var/log -type f -name "*.log" -mtime +$MAX_LOG_AGE_DAYS -delete 2>/dev/null
find /var/log -type f -name "*.gz" -mtime +180 -delete 2>/dev/null
log "  日志清理完成"

# 2. 清理临时文件
log "步骤2:清理${MAX_TMP_AGE_DAYS}天未访问的临时文件"
find /tmp -type f -atime +$MAX_TMP_AGE_DAYS -delete 2>/dev/null
find /var/tmp -type f -atime +$MAX_TMP_AGE_DAYS -delete 2>/dev/null
log "  临时文件清理完成"

# 3. 清理包管理器缓存
log "步骤3:清理包管理器缓存"
dnf clean all 2>/dev/null
log "  包管理器缓存清理完成"

# 4. 清理旧内核(仅保留最新2个)
log "步骤4:清理旧内核"
current_kernel=$(uname -r)
kernel_count=0
for k in $(rpm -q kernel --last | sed 's/kernel-//' | cut -d' ' -f1); do
    if [ "$kernel_count" -gt 1 ]; then
        if [ "$k" != "$current_kernel" ]; then
            dnf remove -y "kernel-$k" 2>/dev/null && log "  移除内核:$k" || true
        fi
    fi
    kernel_count=$((kernel_count + 1))
done

# 5. Docker清理(每周执行)
day_of_week=$(date +%u)
if [ "$DOCKER_PRUNE_WEEKLY" = true ] && [ "$day_of_week" = 1 ]; then
    log "步骤5:Docker空间清理(周一执行)"
    docker system prune -f --filter "until=168h" 2>/dev/null || true
    log "  Docker清理完成"
fi

# 6. 清理旧日志轮转文件
log "步骤6:清理过期的logrotate文件"
find /var/lib/logrotate -type f -mtime +60 -delete 2>/dev/null

# 7. 清理旧tmp文件(系统)
log "步骤7:清理系统tmp目录"
find /var/tmp -type f -mtime +30 -delete 2>/dev/null

log "========== 磁盘清理完成 =========="
log "清理后磁盘使用情况:"
df -h / | tee -a "$LOG_DIR/cleanup_$(date +%Y%m%d).log"

 

5. inode满了怎么办

5.1 排查inode使用

 

#!/bin/bash
# script: check_inode_usage.sh
# 用途:检查inode使用情况

echo "=== Inode使用情况 ==="
echo ""

# 查看各分区inode使用
echo "【1】各分区inode使用率:"
df -i

echo ""

# 查找inode占用最多的目录
echo "【2】/var目录inode分布:"
find /var -type d 2>/dev/null | while read dir; do
    count=$(find "$dir" -maxdepth 1 -type f 2>/dev/null | wc -l)
    echo "  $count  $dir"
done | sort -rn | head -20

echo ""

# 统计各类型文件数量
echo "【3】文件类型统计:"
find /var -type f 2>/dev/null | sed 's/.*.//' | sort | uniq -c | sort -rn | head -20

 

5.2 清理inode占用

 

#!/bin/bash
# script: free_inodes.sh
# 用途:释放inode占用的空间

echo "=== 释放inode空间 ==="
echo ""

# 1. 清理/var/spool下的旧邮件
echo "【1】清理邮件队列:"
mail_count=$(find /var/spool/mail -type f 2>/dev/null | wc -l)
echo "  邮件文件数:$mail_count"
find /var/spool/mail -type f -mtime +30 -delete 2>/dev/null
echo "  已清理30天前的邮件"

# 2. 清理临时socket文件
echo "【2】清理临时socket文件:"
socket_count=$(find /tmp -type s 2>/dev/null | wc -l)
echo "  socket文件数:$socket_count"
find /tmp -type s -mtime +1 -delete 2>/dev/null

# 3. 清理空目录
echo "【3】清理空目录:"
find /var -type d -empty -delete 2>/dev/null

# 4. 清理小的tmp文件
echo "【4】清理小的临时文件:"
find /tmp -type f -size -1k -mtime +1 -delete 2>/dev/null

# 5. 清理日志目录中的old文件
echo "【5】清理日志目录中的归档文件:"
find /var/log -type f -name "*.old" -mtime +7 -delete 2>/dev/null
find /var/log -type f -name "*.bak" -mtime +7 -delete 2>/dev/null

echo ""
echo "清理完成。当前inode使用:"
df -i /

 

6. LVM逻辑卷扩展

当磁盘空间真的不够用时,需要扩展逻辑卷。

6.1 查看LVM状态

 

# 查看PV(物理卷)
pvs

# 查看VG(卷组)
vgs

# 查看LV(逻辑卷)
lvs

# 详细查看
pvdisplay
vgdisplay
lvdisplay

 

6.2 扩展逻辑卷

 

#!/bin/bash
# script: extend_lvm.sh
# 用途:扩展LVM逻辑卷

# 配置:要扩展的LV和要扩展的大小
VG_NAME="vg00"
LV_NAME="lv_data"
EXTEND_SIZE="+50G"

echo "=== LVM逻辑卷扩展 ==="
echo ""

# 1. 查看当前状态
echo "【1】当前状态:"
lvs
echo ""
lvdisplay /dev/${VG_NAME}/${LV_NAME}
echo ""

# 2. 检查VG剩余空间
echo "【2】卷组剩余空间:"
vgs
vgextend --help | head -1
echo ""

# 3. 如果VG有足够空间,直接扩展
echo "【3】执行扩展..."
lvextend -L +50G /dev/${VG_NAME}/${LV_NAME}

# 4. 扩展文件系统(XFS)
echo "【4】扩展XFS文件系统..."
xfs_growfs /dev/${VG_NAME}/${LV_NAME}

# 5. 验证
echo "【5】扩展后状态:"
df -h /dev/${VG_NAME}/${LV_NAME}

 

6.3 添加新磁盘到VG

 

#!/bin/bash
# script: add_disk_to_vg.sh
# 用途:将新磁盘添加到卷组

NEW_PV="/dev/sdb"
VG_NAME="vg00"

echo "=== 添加新磁盘到VG ==="
echo ""

# 1. 创建物理卷
echo "【1】创建物理卷:"
pvcreate "$NEW_PV"

# 2. 添加到卷组
echo "【2】添加到卷组:"
vgextend "$VG_NAME" "$NEW_PV"

# 3. 验证
echo "【3】卷组状态:"
vgs

# 4. 现在可以扩展LV
echo "【4】可以执行:lvextend -L + /dev/${VG_NAME}/"

 

7. 磁盘quota配额管理

7.1 启用磁盘配额

 

# 1. 编辑/etc/fstab,添加usrquota和grpquota
# /dev/mapper/vg00-lv_home /home xfs defaults,usrquota,grpquota 0 0

# 2. 重新挂载
mount -o remount /home

# 3. 初始化配额数据库
quotacheck -cug /home

# 4. 启用配额
quotaon /home

 

7.2 设置用户配额

 

# 设置用户磁盘限制
edquota -u username

# 示例配置:
# Disk quotas for user username (uid 1000):
#   Filesystem   blocks   soft   hard   inodes   soft   hard
#   /dev/mapper/vg00-lv_home
#                  1024    5000   6000     100     150    200

# blocks: 当前使用(KB)
# soft: 软限制(超过后警告)
# hard: 硬限制(不能超过)
# inodes: 文件数量限制

 

7.3 配额管理脚本

 

#!/bin/bash
# script: quota_report.sh
# 用途:生成磁盘配额报告

echo "=== 磁盘配额报告 ==="
echo "生成时间:$(date)"
echo ""

# 查看所有用户的配额状态
echo "【1】用户配额汇总:"
repquota -aug

echo ""

# 查看超过配额的用户
echo "【2】超配额用户:"
repquota -aug | grep -E "^*" | while read line; do
    echo "  $line"
done

echo ""

# 清理超过soft limit的用户的部分文件
echo "【3】可以建议清理的文件(按用户分组):"
for user in $(ls /home/); do
    quota=$(quota -u "$user" 2>/dev/null | tail -1 | awk '{print $3}')
    if [ -n "$quota" ] && [ "$quota" -gt 0 ]; then
        usage=$(quota -u "$user" 2>/dev/null | tail -1 | awk '{print $2}')
        if [ "$usage" -gt "$quota" ]; then
            echo "  用户 $user:使用${usage}KB,配额${quota}KB"
        fi
    fi
done

 

8. 预防性监控方案

8.1 Zabbix监控模板

 

# Zabbix Agent配置 - 磁盘监控项
# /etc/zabbix/zabbix_agent2.d/disk.conf

# 磁盘空间(百分比)
UserParameter=disk.space[*],df -h "$1" | awk 'NR>1 {gsub(/%/,"",$5); print $5}'

# 磁盘inode(百分比)
UserParameter=disk.inode[*],df -i "$1" | awk 'NR>1 {gsub(/%/,"",$5); print $5}'

# 磁盘IO
UserParameter=disk.io[*],iostat -d "$1" | awk 'NR>4 {print $2}'

# 大文件检测
UserParameter=disk.large_files,find / -type f -size +1G 2>/dev/null | wc -l

 

8.2 Prometheus告警规则

 

# prometheus/alerts/disk.yml

groups:
  - name: disk
    rules:
      # 磁盘空间告警
      - alert: DiskSpaceWarning
        expr: (node_filesystem_avail_bytes{mountpoint="/"} / node_filesystem_size_bytes{mountpoint="/"}) < 0.2
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "磁盘空间告警"
          description: "根分区剩余空间不足20%"

      - alert: DiskSpaceCritical
        expr: (node_filesystem_avail_bytes{mountpoint="/"} / node_filesystem_size_bytes{mountpoint="/"}) < 0.1
        for: 1m
        labels:
          severity: critical
        annotations:
          summary: "磁盘空间危急"
          description: "根分区剩余空间不足10%,立即处理!"

      # inode告警
      - alert: DiskInodesWarning
        expr: (node_filesystem_files_free{mountpoint="/"} / node_filesystem_files{mountpoint="/"}) < 0.1
        for: 10m
        labels:
          severity: warning
        annotations:
          summary: "Inode告警"
          description: "Inode使用率超过90%"

 

8.3 自动化监控脚本

 

#!/bin/bash
# script: comprehensive_disk_monitor.sh
# 用途:综合磁盘监控脚本,可配置cron执行

# 配置文件
CONFIG_FILE="/etc/sysconfig/disk_monitor.conf"

# 默认配置
WARNING_THRESHOLD=80
CRITICAL_THRESHOLD=90
LOG_FILE="/var/log/disk_monitor.log"
EXCLUDE_MOUNTS="/proc|/sys|/dev/shm|/run"

# 读取配置(如果存在)
[ -f "$CONFIG_FILE" ] && source "$CONFIG_FILE"

log() {
    echo "[$(date '+%Y-%m-%d %H:%M:%S')] $1" >> "$LOG_FILE"
}

check_mount() {
    local mount="$1"

    # 获取使用率
    local usage=$(df "$mount" 2>/dev/null | awk 'NR==2 {gsub(/%/,"",$5); print $5}')

    # 获取设备
    local device=$(df "$mount" 2>/dev/null | awk 'NR==2 {print $1}')

    # 获取可用空间
    local avail=$(df -h "$mount" 2>/dev/null | awk 'NR==2 {print $4}')

    if [ -z "$usage" ]; then
        return
    fi

    local timestamp=$(date '+%Y-%m-%d %H:%M:%S')

    if [ "$usage" -ge "$CRITICAL_THRESHOLD" ]; then
        log "CRITICAL|${timestamp}|${mount}|${device}|${usage}%|${avail}"
        return 2
    elif [ "$usage" -ge "$WARNING_THRESHOLD" ]; then
        log "WARNING|${timestamp}|${mount}|${device}|${usage}%|${avail}"
        return 1
    else
        log "OK|${timestamp}|${mount}|${device}|${usage}%|${avail}"
        return 0
    fi
}

# 主监控
log "========== 磁盘监控开始 =========="

# 获取所有挂载点
mounts=$(df -h | awk 'NR>1 {print $6}' | grep -vE "^(${EXCLUDE_MOUNTS})$")

critical_count=0
warning_count=0

for mount in $mounts; do
    check_mount "$mount"
    result=$?

    if [ $result -eq 2 ]; then
        critical_count=$((critical_count + 1))
    elif [ $result -eq 1 ]; then
        warning_count=$((warning_count + 1))
    fi
done

log "========== 监控完成 =========="
log "结果:${critical_count}个危急,${warning_count}个告警"

# 如果有告警,输出汇总
if [ $critical_count -gt 0 ] || [ $warning_count -gt 0 ]; then
    echo ""
    echo "磁盘告警汇总:"
    grep -E "CRITICAL|WARNING" "$LOG_FILE" | tail -20
fi

 

9. 自动化清理脚本分享

9.1 完整清理脚本

 

#!/bin/bash
# script: full_disk_cleanup.sh
# 用途:一次性执行所有常见磁盘清理操作

set -e

echo "========================================"
echo "      磁盘空间全面清理工具"
echo "========================================"
echo ""
echo "开始时间:$(date)"
echo ""

# 配置
MAX_LOG_DAYS=30
MAX_TMP_DAYS=7
DO_DOCKER_PRUNE=false
DO_DNF_CLEAN=false
DO_KERNEL_CLEAN=false
DRY_RUN=false

# 解析参数
while [[ $# -gt 0 ]]; do
    case $1 in
        --docker)
            DO_DOCKER_PRUNE=true
            shift
            ;;
        --dnf)
            DO_DNF_CLEAN=true
            shift
            ;;
        --kernel)
            DO_KERNEL_CLEAN=true
            shift
            ;;
        --dry-run)
            DRY_RUN=true
            shift
            ;;
        --all)
            DO_DOCKER_PRUNE=true
            DO_DNF_CLEAN=true
            DO_KERNEL_CLEAN=true
            shift
            ;;
        *)
            echo "未知参数: $1"
            echo "用法: $0 [--docker] [--dnf] [--kernel] [--all] [--dry-run]"
            exit 1
            ;;
    esac
done

# 清理函数
run_cmd() {
    if [ "$DRY_RUN" = true ]; then
        echo "[DRYRUN] $1"
    else
        echo "[EXEC] $1"
        eval "$1"
    fi
}

# 1. 清理日志
echo "【1】清理${MAX_LOG_DAYS}天前的日志文件..."
run_cmd "find /var/log -type f -name '*.log' -mtime +${MAX_LOG_DAYS} -delete"
run_cmd "find /var/log -type f -name '*.gz' -mtime +180 -delete"
echo "    完成"

# 2. 清理临时文件
echo "【2】清理${MAX_TMP_DAYS}天未访问的临时文件..."
run_cmd "find /tmp -type f -atime +${MAX_TMP_DAYS} -delete 2>/dev/null || true"
run_cmd "find /var/tmp -type f -atime +${MAX_TMP_DAYS} -delete 2>/dev/null || true"
echo "    完成"

# 3. 清理dnf缓存
if [ "$DO_DNF_CLEAN" = true ]; then
    echo "【3】清理DNF缓存..."
    run_cmd "dnf clean all"
    echo "    完成"
fi

# 4. 清理旧内核
if [ "$DO_KERNEL_CLEAN" = true ]; then
    echo "【4】清理旧内核..."
    current_kernel=$(uname -r)
    installed_kernels=$(rpm -q kernel 2>/dev/null | wc -l)

    if [ "$installed_kernels" -gt 2 ]; then
        for kernel in $(rpm -q kernel 2>/dev/null | sed 's/kernel-//'); do
            if [ "$kernel" != "$current_kernel" ]; then
                run_cmd "rpm -e kernel-${kernel} 2>/dev/null || true"
            fi
        done
    fi
    echo "    完成"
fi

# 5. Docker清理
if [ "$DO_DOCKER_PRUNE" = true ]; then
    echo "【5】清理Docker空间..."
    if command -v docker &> /dev/null; then
        run_cmd "docker system prune -f"
    else
        echo "    Docker未安装,跳过"
    fi
fi

# 6. 清理yum缓存
echo "【6】清理YUM/DNF缓存..."
run_cmd "yum clean all 2>/dev/null || true"
echo "    完成"

# 7. 清理孤儿包
echo "【7】清理孤儿包..."
run_cmd "package-cleanup --leaves 2>/dev/null | head -20 || true"
echo "    完成"

# 8. 清理旧日志轮转状态
echo "【8】清理logrotate状态..."
run_cmd "find /var/lib/logrotate -type f -mtime +60 -delete 2>/dev/null || true"
echo "    完成"

echo ""
echo "========================================"
echo "清理完成!"
echo "结束时间:$(date)"
echo ""
echo "当前磁盘使用情况:"
df -h /
echo "========================================"

# 估算释放空间(如果可能)
if [ "$DRY_RUN" = false ]; then
    echo ""
    echo "各目录清理后大小:"
    for dir in /var/log /tmp /var/tmp /var/cache; do
        if [ -d "$dir" ]; then
            size=$(du -sh "$dir" 2>/dev/null | cut -f1)
            echo "  $dir: $size"
        fi
    done
fi

 

9.2 定时任务配置

 

# 将以下内容添加到crontab
# 编辑: crontab -e

# 每天凌晨2点执行快速磁盘检查
0 2 * * * /opt/scripts/quick_disk_check.sh >> /var/log/disk_check.log 2>&1

# 每天凌晨3点执行日志清理(保留30天)
0 3 * * * /opt/scripts/clean_old_logs.sh

# 每周一凌晨4点执行全面清理
0 4 * * 1 /opt/scripts/full_disk_cleanup.sh --docker --dnf --kernel >> /var/log/weekly_cleanup.log 2>&1

# 每5分钟执行磁盘监控
*/5 * * * * /opt/scripts/disk_alert_monitor.sh

 

10. 总结:磁盘管理Checklist

10.1 收到告警时的标准处理流程

 

【第1步:30秒内初步判断】
□ 查看df -h输出,确认是哪个挂载点告警
□ 判断是/、/data、/var还是其他挂载点
□ 快速判断使用率是否真的超过阈值

【第2步:5分钟内定位问题】
□ 使用du -h --max-depth=1 定位最大的子目录
□ 检查日志目录(/var/log)
□ 检查临时目录(/tmp, /var/tmp)
□ 如果是数据库,检查数据目录
□ 如果是容器环境,检查docker目录

【第3步:确定清理方案】
□ 日志问题:检查logrotate配置,执行手动清理
□ 临时文件:清理n天前的文件
□ 数据库:检查表空间,考虑归档或清理
□ 容器:执行docker system prune

【第4步:执行清理】
□ 先备份重要数据
□ 执行清理操作
□ 验证空间释放
□ 确认服务正常

【第5步:建立长效机制】
□ 检查logrotate配置
□ 配置监控告警
□ 考虑自动化清理
□ 记录问题根因

 

10.2 预防性维护清单

每日检查

 

□ 确认没有磁盘告警
□ 检查关键服务的日志写入是否正常

 

每周维护

 

□ 审查日志轮转日志
□ 检查临时文件增长趋势
□ 确认监控告警配置正常

 

每月维护

 

□ 执行全面的磁盘审计
□ 清理旧的日志和临时文件
□ 检查inode使用率
□ 审查磁盘空间增长趋势
□ 更新容量规划

 

10.3 容量规划参考

服务类型 单机容量建议 监控阈值
Web服务器 /var/log至少50GB 告警80%
MySQL 数据目录200GB起步 告警70%
PostgreSQL 数据目录100GB起步 告警70%
Redis 内存2倍大小 告警80%
Elasticsearch 磁盘2倍内存 告警80%
Docker Host 空闲50%以上 告警75%

10.4 快速命令速查表

场景 命令
查看磁盘使用 df -h
查看目录大小 du -sh /path
找大文件 find / -type f -size +1G
找大目录 ncdu -x /
清理日志 > /var/log/xxx.log
清理临时文件 find /tmp -type f -atime +7 -delete
清理Docker docker system prune -a
查看inode df -i
清理inode find / -type f -empty -delete
LVM扩展 lvextend -L +50G /dev/vg00/lv
配额的启用 quotaon /home
检查配额 repquota -aug

10.5 常见问题解答

Q: 删除文件后空间不释放?A: 可能是进程持有文件句柄。检查lsof +L1,找到占用文件然后重启相关进程。

Q: inode满了怎么办?A: 查找小文件过多的目录:find / -type f -size -10k | wc -l,然后清理。

Q: 如何预测磁盘增长?A: 记录每日df -h结果到时序数据库,绘制趋势图。简单方法:df -h >> /var/log/df_history.log。

Q: LVM卷已满但VG没有空间?A: 需要扩展VG:添加新磁盘,创建PV,vgextend加入VG,然后lvextend扩展LV。

参考信息

环境版本

操作系统:Rocky Linux 9.4

内核版本:6.8.5

XFS文件系统版本:1.2.1

df/du版本:GNU coreutils 9.1

ncdu版本:1.17

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分