Linux内核参数调优清单

描述

背景与适用场景

Linux 系统从发行版自带的默认内核参数是为通用场景设计的,保守、保守、再保守。很多时候机器跑在低负载、低并发、低内存压力下,这些默认值没有问题。但当业务进入生产环境,尤其是 Web 服务、高并发 API、数据库、缓存、消息队列、容器平台等场景,默认参数会迅速成为瓶颈。

需要调内核参数的典型信号:

Nginx / Apache 连接建立时报 connect: cannot assign requested address 或 too many open files

MySQL / PostgreSQL 连接数突增时部分请求失败,日志出现 Too many connections

服务器在大量并发下出现卡顿,CPU 和内存明明还有余量但请求超时

业务正常但系统日志出现 kernel: TCP: too many orphaned sockets 或 Out of socket memory

压测时 QPS 怎么也上不去,排除应用层问题后怀疑是内核队列满了

容器宿主机上跑着几十个容器,时不时报 cannot create file: No space left on device 或者句柄耗尽

本文覆盖 20 项生产环境最常需要调整的内核参数,分网络、内存文件句柄、进程信号、磁盘文件系统四个维度,配有判断方法、修改命令、验证手段和回滚思路。调参之前先做好一件事:把当前值备份。

调参前准备:备份与回滚

所有内核参数都在 /proc/sys/ 下,通过 sysctl 命令读写。生产环境修改前,务必记录原始值。

 

# 备份所有内核参数到文件
sysctl -a > /backup/sysctl_backup_$(date +%Y%m%d_%H%M%S).conf

# 查看单个参数的当前值
sysctl net.core.somaxconn

# 查看多个参数(快速巡检)
sysctl net.core.somaxconn net.core.netdev_max_backlog net.ipv4.tcp_max_syn_backlog 
  net.ipv4.ip_local_port_range fs.file-max vm.swappiness

 

回滚时用备份文件恢复:

 

# 回滚所有参数(慎用,会一次性覆盖,建议按需回滚单个)
sysctl -p /backup/sysctl_backup_20260521_143000.conf

# 回滚单个参数
sysctl -w net.core.somaxconn=128

 

调参的永久生效方式是写入 /etc/sysctl.conf 或 /etc/sysctl.d/ 下的配置文件,如 /etc/sysctl.d/99-custom.conf。写入后执行 sysctl -p /etc/sysctl.d/99-custom.conf 使其生效,不需要重启系统。

以下按类别逐一说明每项参数。

第一类:网络相关参数

网络是调参需求最密集的区域。高并发服务器出问题,十有八九在网络队列、端口范围、连接复用、缓冲区大小上。

1. net.core.somaxconn —— 全连接队列上限

作用原理: 当客户端发起 TCP 连接,服务端收到 SYN 包后会在内核里创建一个半连接(half-open)放入 Accept 队列,调用 accept() 后再放入全连接队列等待应用取走。全连接队列的最大长度受 net.core.somaxconn 和应用程序 listen() 第二个参数的双重限制,取两者较小值。

默认值: 128(大多数发行版)

现象: Nginx 报错 connect() failed (99: Cannot assign requested address) 或 upstream 响应 502,原因是 Nginx 向上游服务建立连接时发现本地没有可用端口;又或者全连接队列满了,客户端 SYN+ACK 被丢弃,表现为connect 超时。

调优方法:

 

# 查看当前值
sysctl net.core.somaxconn

# 临时生效(重启失效)
sysctl -w net.core.somaxconn=65535

# 永久生效
echo "net.core.somaxconn = 65535" >> /etc/sysctl.d/99-custom.conf
sysctl -p /etc/sysctl.d/99-custom.conf

 

应用侧配合: Nginx 配置中 listen 80 backlog=65535; 需要和内核参数匹配,否则以较小值为准。MySQL 的 back_log 参数同理。

验证方法:

 

# 查看各端口的全连接队列长度(需要 ss 命令)
ss -ltn sport = :80

# 确认内核值已生效
sysctl net.core.somaxconn

# 压测时观察是否有连接堆积
watch -n1 "ss -s | grep -i est"

 

2. net.core.netdev_max_backlog —— 网卡收包队列长度

作用原理: 当网卡收到数据包的速度快于内核协议栈处理速度时,超出的包会放入网卡的 backlog 队列,等待软中断处理。这个队列的长度由 net.core.netdev_max_backlog 控制。如果队列满了,新来的数据包被丢弃,表现为丢包。

默认值: 1000(视发行版而定,RHEL/CentOS 可能是 1000,Ubuntu/Debian 可能是 1000 或 500)

现象:netstat -i 或 ifconfig 看到 RX errors、RX drops、RX overruns 计数不断增长;业务延迟增加但 CPU 不高;大量 TIME_WAIT 连接。

调优方法:

 

sysctl -w net.core.netdev_max_backlog=65535
echo "net.core.netdev_max_backlog = 65535" >> /etc/sysctl.d/99-custom.conf

 

配合检查: 用 cat /proc/net/softnet_stat 查看每列 CPU 的 softnet 统计,第三列是 drops 计数,应该在压测或高负载下观察是否增长。

3. net.ipv4.tcp_max_syn_backlog —— 半连接队列长度

作用原理: TCP 三次握手中,服务端收到 SYN 后创建半连接放入半连接队列(也称 SYN queue),队列长度受 net.ipv4.tcp_max_syn_backlog 控制。半连接队列满了则新 SYN 被丢弃,客户端表现是 SYN 超时重传。

注意: 该参数在 Linux 4.3 以后受 net.core.somaxconn 限制,实际队列长度为两者较小值。

默认值: 128(CentOS/RHEL 6)或 1280(部分新版本)

现象: 大量 SYN 包进来时客户端连接失败;在 netstat -s 中看到 SYNs to LISTEN sockets dropped 计数增长。

调优方法:

 

sysctl -w net.ipv4.tcp_max_syn_backlog=65535
echo "net.ipv4.tcp_max_syn_backlog = 65535" >> /etc/sysctl.d/99-custom.conf

 

4. net.ipv4.ip_local_port_range —— 客户端可用端口范围

作用原理: 当 Linux 作为客户端对外发起连接时,本地会分配一个临时源端口。端口范围默认是 32768-60999,共约 28000 多个端口。对于跑在服务器上的代理服务、爬虫、HTTP 客户端等场景,如果并发连接数逼近这个范围,会出现 cannot assign requested address 错误。

现象: Nginx 反向代理到 upstream 时报错;高并发 HTTP 客户端大量报无法建连;ss -s 显示端口使用率接近上限。

调优方法:

 

# 查看当前范围
sysctl net.ipv4.ip_local_port_range

# 扩大范围,留更多可用端口
sysctl -w net.ipv4.ip_local_port_range="1024 65535"
echo "net.ipv4.ip_local_port_range = 1024 65535" >> /etc/sysctl.d/99-custom.conf

 

注意: 低端口 1024 以下是系统保留端口,如果服务器同时有服务端监听 80/443 端口,这里改成 1024 起不会影响服务端监听。但部分业务可能依赖 1024-60000 范围内的端口做通信,需确认后再改。

验证:

 

# 查看当前范围
sysctl net.ipv4.ip_local_port_range

# 查看已使用端口数(快速估算)
ss -tan | awk '{print $4}' | cut -d: -f2 | sort -n | tail -1
ss -tan state established | wc -l

 

5. net.ipv4.tcp_fin_timeout 和 net.ipv4.tcp_keepalive_* —— 连接回收策略

作用原理: TCP 连接关闭时,主动关闭方会进入 TIME_WAIT 状态,持续 tcp_fin_timeout 秒(默认 60 秒)。在这期间,连接占用的本地端口无法释放。高并发短连接场景下,TIME_WAIT 连接堆积会迅速耗尽端口范围。

相关参数组:

net.ipv4.tcp_fin_timeout:主动关闭方 FIN_WAIT_2 状态的超时,默认 60 秒

net.ipv4.tcp_keepalive_time:TCP 保活探测空闲时间,默认 7200 秒(2小时)

net.ipv4.tcp_keepalive_intvl:保活探测重试间隔,默认 75 秒

net.ipv4.tcp_keepalive_probes:保活探测重试次数,默认 9 次

现象: 服务器出现大量 TIME_WAIT 连接(netstat -an | grep TIME_WAIT | wc -l 几万甚至几十万);端口范围被占满导致无法建立新连接;短连接服务频繁报 Address already in use。

调优方法:

 

# 降低 FIN_WAIT 超时,加速连接回收
sysctl -w net.ipv4.tcp_fin_timeout=15
echo "net.ipv4.tcp_fin_timeout = 15" >> /etc/sysctl.d/99-custom.conf

# 如果是 Nginx 作为反向代理,配合 upstream 配置:
# upstream 配置中加入 keepalive 32; 减少短连接建立

 

风险提醒:tcp_fin_timeout 设置过短可能导致正常连接在数据传输未完成时提前关闭,引发数据丢失。如果业务侧有长连接或大文件传输,谨慎调整。

tp_tcp_keepalive 配置:

 

# 保活时间缩短到 5 分钟(适合通过负载均衡器长连接的场景)
sysctl -w net.ipv4.tcp_keepalive_time=300
sysctl -w net.ipv4.tcp_keepalive_intvl=30
sysctl -w net.ipv4.tcp_keepalive_probes=5

 

6. net.ipv4.tcp_tw_reuse 和 net.ipv4.tcp_tw_recycle —— TIME_WAIT 复用

作用原理:tcp_tw_reuse 允许内核在特定条件下将新的连接复用处于 TIME_WAIT 状态的 socket 资源,主要用于客户端。tcp_tw_recycle 允许快速回收 TIME_WAIT 连接,在服务端同时处理大量短连接时效果明显。

注意:tcp_tw_recycle 在 NAT 环境下会导致客户端连接异常,因为它会忽略同一 IP 不同时间戳的连接。在云环境或负载均衡环境下,强烈建议保持关闭,只开 tcp_tw_reuse。

默认值:tcp_tw_reuse = 0 或 1(视发行版),tcp_tw_recycle = 0

现象: TIME_WAIT 连接堆积,端口耗尽,cannot assign requested address。

调优方法:

 

sysctl -w net.ipv4.tcp_tw_reuse=1
echo "net.ipv4.tcp_tw_reuse = 1" >> /etc/sysctl.d/99-custom.conf

# 关闭 tcp_tw_recycle(云环境和 NAT 环境下必须关闭)
sysctl -w net.ipv4.tcp_tw_recycle=0

 

验证:

 

# 压测后观察 TIME_WAIT 连接数量
netstat -an | awk '/^tcp/ {print $6}' | sort | uniq -c | sort -rn | head -10

# 观察端口复用情况
ss -s

 

7. net.core.rmem_max / net.core.wmem_max / net.ipv4.tcp_rmem / net.ipv4.tcp_wmem —— TCP 缓冲区大小

作用原理: Linux TCP 协议栈为每个连接维护发送缓冲区和接收缓冲区。缓冲区太小会导致高延迟(数据等待累积),缓冲区太大会占用过多内存。默认的内存自动调整机制会按需分配,但默认最大值对高吞吐场景不够用。

参数说明:

net.core.rmem_default:默认接收缓冲区大小

net.core.rmem_max:接收缓冲区最大大小(所有协议)

net.core.wmem_default:默认发送缓冲区大小

net.core.wmem_max:发送缓冲区最大大小(所有协议)

net.ipv4.tcp_rmem:TCP 接收缓冲区配置(min / default / max)

net.ipv4.tcp_wmem:TCP 发送缓冲区配置(min / default / max)

现象: 高吞吐场景下带宽利用率低,明明网卡是万兆但实际流量上不去;或者时延抖动大。

调优方法(适用于万兆网卡高吞吐场景):

 

# 增大 TCP 缓冲区上限
sysctl -w net.core.rmem_max=16777216
sysctl -w net.core.wmem_max=16777216
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.ipv4.tcp_wmem="4096 65536 16777216"

 

写入配置:

 

cat >> /etc/sysctl.d/99-custom.conf << 'EOF'
net.core.rmem_max = 16777216
net.core.wmem_max = 16777216
net.ipv4.tcp_rmem = 4096 87380 16777216
net.ipv4.tcp_wmem = 4096 65536 16777216
EOF
sysctl -p /etc/sysctl.d/99-custom.conf

 

验证:

 

# 查看 TCP 连接的实际缓冲区使用情况
cat /proc/sys/net/ipv4/tcp_rmem
cat /proc/sys/net/ipv4/tcp_wmem

# 压测观察吞吐和延迟变化
iperf3 -c  -t 60 -R  # 测接收带宽

 

风险提醒: 增大这些值会占用更多内存。确认服务器有足够 RAM,且不能无限增大,要在内存容量和性能间取平衡。

8. net.ipv4.conf.default.rp_filter 和 net.ipv4.conf.all.rp_filter —— 反向路径过滤

作用原理: 反向路径过滤(Reverse Path Filtering)是 Linux 内核的一种安全机制,用于防止 IP 欺骗攻击。当收到一个数据包时,内核检查该数据包的源地址是否应该从该网卡进来。如果来源路由不符合预期,rp_filter 会丢弃该包。值 0 表示关闭,1 表示严格模式,2 表示宽松模式。

现象: 服务器在多网卡、VPN、负载均衡或 Docker 环境下出现奇怪的连接问题——数据包进来了但应用收不到;同网段通信正常但跨网段通信失败;服务启动后部分 IP 无法访问。

典型故障场景: Docker 默认创建的 bridge 网络默认使用 172.17.0.0/16,如果服务器的 rp_filter 设置为严格模式,可能导致容器访问外部网络时数据包被丢弃。

调优方法:

 

# 查看当前值
sysctl net.ipv4.conf.all.rp_filter
sysctl net.ipv4.conf.default.rp_filter

# 如果需要关闭(容器、VPN、多路径场景)
sysctl -w net.ipv4.conf.all.rp_filter=2
sysctl -w net.ipv4.conf.default.rp_filter=2

# 或者针对单个网卡配置
sysctl -w net.ipv4.conf.eth0.rp_filter=2

 

安全提醒: 关闭反向路径过滤会降低对 IP 欺骗攻击的防护能力。只在确认有实际需求(容器、VPN、多网卡绑定)的场景下才关闭,并在其他接口上保持默认严格模式。

永久配置:

 

cat >> /etc/sysctl.d/99-custom.conf << 'EOF'
net.ipv4.conf.all.rp_filter = 2
net.ipv4.conf.default.rp_filter = 2
EOF

 

9. net.ipv4.conf.all.accept_source_route 和 net.ipv4.conf.default.accept_source_route —— 禁用源路由

作用原理: 源路由是一种允许发送者指定数据包经过的网络路径的机制。攻击者可以利用源路由来绕过网络访问控制,因此生产环境应禁用。

默认值: 大多数发行版默认关闭,但应检查确认。

调优方法:

 

# 确认已禁用(值为 0)
sysctl net.ipv4.conf.all.accept_source_route
sysctl net.ipv4.conf.default.accept_source_route

# 如需开启(不建议),设为 0
sysctl -w net.ipv4.conf.all.accept_source_route=0

 

永久配置:

 

cat >> /etc/sysctl.d/99-custom.conf << 'EOF'
net.ipv4.conf.all.accept_source_route = 0
net.ipv4.conf.default.accept_source_route = 0
EOF

 

第二类:内存与文件句柄相关参数

10. fs.file-max 和 fs.nr_open —— 系统级文件句柄上限

作用原理:fs.file-max 是系统级别的最大文件句柄数,fs.nr_open 是单个进程最大能打开的文件句柄数。进程调用 open() 或 socket() 都会消耗一个文件描述符(file descriptor)。默认的 fs.file-max 通常足够,但某些高并发服务(如 Nginx、MySQL Proxy)可能达到上限。

默认值:fs.file-max 默认约几百万,fs.nr_open 默认 1048576(100万)。

现象: 进程日志报 Too many open files;ls /proc//fd | wc -l 接近系统限制;cat /proc/sys/fs/file-nr 显示已分配句柄数接近上限。

调优方法:

 

# 查看当前值
sysctl fs.file-max fs.nr_open

# 查看已使用情况
cat /proc/sys/fs/file-nr
# 输出格式:已分配文件句柄数 / 已分配但未使用数 / 最大句柄数

# 提高系统级上限
sysctl -w fs.file-max=2097152
echo "fs.file-max = 2097152" >> /etc/sysctl.d/99-custom.conf

 

进程级限制配合: 系统级 fs.nr_open 是上限,进程级限制在 /etc/security/limits.conf 中配置:

 

# /etc/security/limits.conf
root soft nofile 1048576
root hard nofile 1048576
* soft nofile 1048576
* hard nofile 1048576

 

注意:limits.conf 中的 nofile 值不能超过 fs.nr_open。

验证:

 

# 查看进程打开的句柄数
ls /proc/$(pgrep -n nginx)/fd | wc -l

# 查看系统级句柄使用情况
cat /proc/sys/fs/file-nr

# 查看各进程句柄占用排名
lsof -n 2>/dev/null | awk '{print $1,$2}' | sort | uniq -c | sort -rn | head -20

 

11. vm.swappiness —— 内存交换倾向

作用原理:vm.swappiness 控制系统使用 swap 的激进程度,范围 0-100。值越大越倾向于把不活跃的内存页换出到 swap 区,值越小越倾向于优先回收 page cache 和 slab 对象而不是换页。默认 60。

现象: 物理内存还有剩余但系统开始大量使用 swap;Java 进程被 OOM Killer 杀掉;MySQL InnoDB Buffer Pool 被换出导致性能急剧下降。

典型问题: MySQL 和 PostgreSQL 数据库进程被换出后性能雪崩,因为数据库依赖常驻内存的 Buffer Pool 和查询缓存。容器环境下也常出现,宿主机内存不足时容器被悄悄换出。

调优方法:

 

# 查看当前值
sysctl vm.swappiness

# 临时修改(生产环境建议先临时测试再永久)
sysctl -w vm.swappiness=10

# 永久配置(数据库和内存敏感场景建议 10 或更低)
echo "vm.swappiness = 10" >> /etc/sysctl.d/99-custom.conf

 

重要提醒:vm.swappiness=0 在 Linux 3.5 之前是完全禁止使用 swap,3.5 之后变为"只有在极端情况下才使用 swap"。生产环境通常设置 10-30 之间,既保留一定 swap 能力防止 OOM,又避免过早换出活跃内存。

验证:

 

# 查看 swap 使用情况
free -h
# 查看各进程 swap 占用
for f in /proc/*/status; do awk '/VmSwap/{if($2>0)print $0}' $f; done | sort -k2 -rn | head -10

 

12. vm.dirty_ratio 和 vm.dirty_background_ratio —— 脏页回写策略

作用原理: 当进程写文件时,数据先写入 page cache,形成"脏页"(dirty pages)。内核会定期或当脏页比例达到阈值时将数据写回磁盘。vm.dirty_background_ratio 是触发后台回写的内存比例,vm.dirty_ratio 是触发同步写(阻塞进程)的比例。

默认值:vm.dirty_background_ratio 默认 10,vm.dirty_ratio 默认 20。

现象: 大量写入后突然卡顿(pdflush/flush 进程在做同步写);数据库事务提交后数据未刷盘(取决于 MySQL 的 innodb_flush_log_at_trx_commit 配置);进程在写大文件时阻塞时间过长。

调优思路:

对 MySQL:建议降低这两个值,让数据更频繁地写回磁盘,减少数据丢失窗口(但会降低写入性能)。配合 MySQL 的 innodb_flush_log_at_trx_commit 一起看。

对日志写入、大文件顺序写:可以适当提高阈值,让更多数据留在 page cache 中提高吞吐。

对高可靠数据库:降低阈值,接近 5/10 级别。

调优方法:

 

# 降低触发同步写的阈值(适合数据库场景,更快写盘)
sysctl -w vm.dirty_background_ratio=5
sysctl -w vm.dirty_ratio=10
echo "vm.dirty_background_ratio = 5" >> /etc/sysctl.d/99-custom.conf
echo "vm.dirty_ratio = 10" >> /etc/sysctl.d/99-custom.conf

 

验证:

 

# 查看当前脏页数量和内存占比
cat /proc/meminfo | grep -E "(Dirty|Writeback)"

# 查看 pdflush/flush 进程活动
ps aux | grep -E "flush|kworker" | head -10

 

13. vm.vfs_cache_pressure —— 文件系统缓存回收压力

作用原理: 内核在内存压力下会回收 page cache(文件缓存)和 inode/dentry 缓存(VFS 缓存)。vm.vfs_cache_pressure 控制回收倾向:100 是默认值(公平回收),值越大越倾向于尽快回收缓存,值越小越倾向于保留缓存。

现象: 服务器重启后 MySQL 性能急剧下降(page cache 被回收,Buffer Pool 未预热);频繁访问的文件(如字典、日志)反复被读入内存又换出;slab 占用过高导致内存不足。

调优方法:

 

# 查看当前值
sysctl vm.vfs_cache_pressure

# 如果是数据库服务器,倾向于保留缓存
sysctl -w vm.vfs_cache_pressure=50
echo "vm.vfs_cache_pressure = 50" >> /etc/sysctl.d/99-custom.conf

 

14. kernel.shmmax 和 kernel.shmall —— 共享内存参数

作用原理: 共享内存是进程间通信的一种高性能方式,数据库(MySQL 的 InnoDB Buffer Pool 在 SGA 模式下使用)、Redis(部分部署方式)、Oracle 等都依赖共享内存。kernel.shmmax 是单个共享内存段的最大字节数,kernel.shmall 是系统范围内共享内存页的总和。

现象: MySQL 启动时报 InnoDB: Cannot allocate memory for the buffer pool;共享内存分配失败;Redis 启动时报 failed to allocate SMART memory。

调优方法:

 

# 查看当前值
sysctl kernel.shmmax kernel.shmall

# 临时修改(共享内存建议设大一些,单位是字节)
# shmmax 设置为 64GB:64 * 1024 * 1024 * 1024 = 68719476736
sysctl -w kernel.shmmax=68719476736
sysctl -w kernel.shmall=16777216

# 永久配置
cat >> /etc/sysctl.d/99-custom.conf << 'EOF'
kernel.shmmax = 68719476736
kernel.shmall = 16777216
EOF

 

计算公式:kernel.shmall 的单位是页(page),在 x86_64 架构下 page size 为 4096 字节。64GB / 4096 = 16777216 页。

验证: MySQL 查看 SGA 大小:

 

SHOW VARIABLES LIKE 'innodb_buffer_pool_size';
SHOW VARIABLES LIKE 'innodb_log_file_size';

 

确保 SGA + 日志缓冲 + 其他共享内存不超过 kernel.shmmax。

15. kernel.msgmnb 和 kernel.msgmni —— 消息队列参数

作用原理: 消息队列是 System V IPC 机制之一,部分老式应用和中间件仍在使用。kernel.msgmnb 是单个消息队列的最大字节数,kernel.msgmni 是系统范围内最大消息队列数量。

现象: 较为少见,多见于老的中间件或自定义 IPC 应用报 "Message queue error"。

调优方法:

 

sysctl -w kernel.msgmnb=65536
sysctl -w kernel.msgmni=1024
echo "kernel.msgmnb = 65536" >> /etc/sysctl.d/99-custom.conf
echo "kernel.msgmni = 1024" >> /etc/sysctl.d/99-custom.conf

 

16. net.core.rmem_default 和 net.core.wmem_default —— 默认缓冲区大小

作用原理:net.core.rmem_default 和 net.core.wmem_default 是各协议默认的套接字接收/发送缓冲区大小,通常不需要手动设置,因为 Linux 会通过 net.ipv4.tcp_rmem 和 net.ipv4.tcp_wmem 自动调整。只在特殊场景下作为兜底值。

调优方法(一般保持默认值即可,但如果默认自动调整的中间值偏小):

 

sysctl -w net.core.rmem_default=262144
sysctl -w net.core.wmem_default=262144

 

第三类:进程与信号相关参数

17. kernel.pid_max —— 最大进程 ID

作用原理: Linux 中每个进程和线程都有唯一的 PID,内核用 pid_max 限制 PID 的上限。达到上限后 PID 会回绕,可能导致旧进程信息被错误复用。

默认值: 32768(32位)和 4194304(64位),后者足够绝大多数场景。

现象: 机器上跑着大量容器或 Java 进程(每个容器对应一个 PID namespace,宿主机上进程数可能非常多);ps 看到 PID 接近 32768;或者在高线程数场景下(如 Tomcat 每个请求一个线程)进程数快速增长。

调优方法:

 

# 查看当前值
sysctl kernel.pid_max

# 扩大上限
sysctl -w kernel.pid_max=4194304
echo "kernel.pid_max = 4194304" >> /etc/sysctl.d/99-custom.conf

 

验证:

 

# 查看当前最大 PID
cat /proc/sys/kernel/pid_max

# 查看当前进程/线程总数
ps -eLf | wc -l
# 或
ps -eo pid,tid,cmd | wc -l

 

18. kernel.threads-max —— 最大线程数

作用原理:kernel.threads-max 限制系统范围内最大线程数。默认值是 kernel.pid_max 的两倍。高线程数场景(如 Nginx(每个连接一个 worker)、Java 应用(每个请求一个线程)、Python Gevent 应用)容易触达上限。

现象:fork: Resource temporarily unavailable;创建线程失败;系统日志报 kernel request for more threads。

调优方法:

 

# 查看当前值
sysctl kernel.threads-max

# 临时调整
sysctl -w kernel.threads-max=4194304
echo "kernel.threads-max = 4194304" >> /etc/sysctl.d/99-custom.conf

 

配合进程级限制:/etc/security/limits.conf 中也需要调整 nproc(最大进程/线程数):

 

* soft nproc 4194304
* hard nproc 4194304

 

验证:

 

# 查看当前线程总数
ps -eLf | wc -l

# 按用户查看线程数
ps -eLf | awk '{print $1}' | sort | uniq -c | sort -rn | head -10

 

19. kernel.sem —— 信号量参数

作用原理: System V 信号量(semaphore)是进程间同步机制之一,数据库和某些中间件依赖它。kernel.sem 包含四个值:SEMMSL(每个信号量集最大信号量数)、SEMMNS(系统最大信号量数)、SEMOPM(单个 semop 调用最大操作数)、SEMMNI(最大信号量集数量)。

现象: 少见,通常是 Oracle、PostgreSQL 等数据库在启动或高并发时遇到。

调优方法:

 

# 查看当前值
sysctl kernel.sem

# 推荐值(适合大多数数据库)
# 格式:SEMMSL  SEMMNS  SEMOPM  SEMMNI
sysctl -w kernel.sem="250 32000 100 256"
echo "kernel.sem = 250 32000 100 256" >> /etc/sysctl.d/99-custom.conf

 

第四类:磁盘与文件系统参数

20. net.ipv4.icmp_echo_ignore_broadcasts 和 net.ipv4.icmp_ratelimit —— ICMP 防护

作用原理: ICMP 广播/多播可以被利用做放大攻击(Smurf Attack)。icmp_echo_ignore_broadcasts 设为 1 时忽略 ICMP 广播 echo 请求(ping 广播地址)。icmp_ratelimit 限制 ICMP 响应速率,防止 ICMP 洪水。

调优方法:

 

sysctl -w net.ipv4.icmp_echo_ignore_broadcasts=1
sysctl -w net.ipv4.icmp_ratelimit=1000
echo "net.ipv4.icmp_echo_ignore_broadcasts = 1" >> /etc/sysctl.d/99-custom.conf
echo "net.ipv4.icmp_ratelimit = 1000" >> /etc/sysctl.d/99-custom.conf

 

注意:icmp_ratelimit 的单位是"每 jiffy",具体时间长度取决于内核 HZ 设置,通常 1000 已经相当宽松。

生产环境操作规范

永久生效的标准写法

将所有参数集中写入一个专属配置文件,不要散落在多处:

 

cat > /etc/sysctl.d/99-custom.conf << 'EOF'
# 网络参数
net.core.somaxconn = 65535
net.core.netdev_max_backlog = 65535
net.ipv4.tcp_max_syn_backlog = 65535
net.ipv4.ip_local_port_range = 1024 65535
net.ipv4.tcp_fin_timeout = 15
net.ipv4.tcp_keepalive_time = 300
net.ipv4.tcp_keepalive_intvl = 30
net.ipv4.tcp_keepalive_probes = 5
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 0
net.core.rmem_max = 16777216
net.core.wmem_max = 16777216
net.ipv4.tcp_rmem = 4096 87380 16777216
net.ipv4.tcp_wmem = 4096 65536 16777216
net.ipv4.conf.all.rp_filter = 2
net.ipv4.conf.default.rp_filter = 2
net.ipv4.conf.all.accept_source_route = 0
net.ipv4.conf.default.accept_source_route = 0

# 内存与文件句柄
fs.file-max = 2097152
vm.swappiness = 10
vm.dirty_background_ratio = 5
vm.dirty_ratio = 10
vm.vfs_cache_pressure = 50
kernel.shmmax = 68719476736
kernel.shmall = 16777216
kernel.msgmnb = 65536
kernel.msgmni = 1024
net.core.rmem_default = 262144
net.core.wmem_default = 262144

# 进程与信号
kernel.pid_max = 4194304
kernel.threads-max = 4194304
kernel.sem = 250 32000 100 256

# ICMP 安全
net.ipv4.icmp_echo_ignore_broadcasts = 1
net.ipv4.icmp_ratelimit = 1000
EOF

# 使配置生效
sysctl -p /etc/sysctl.d/99-custom.conf

 

验证脚本

写一个简单的验证脚本,逐项比对预期值:

 

#!/bin/bash
# verify_sysctl.sh - 验证内核参数是否符合预期值

EXPECTED=(
  "net.core.somaxconn=65535"
  "net.core.netdev_max_backlog=65535"
  "net.ipv4.tcp_max_syn_backlog=65535"
  "fs.file-max=2097152"
  "vm.swappiness=10"
  "kernel.pid_max=4194304"
)

for item in "${EXPECTED[@]}"; do
  param="${item%%=*}"
  expected="${item##*=}"
  actual=$(sysctl -n "$param" 2>/dev/null)
  if [[ "$actual" == "$expected" ]]; then
    echo "[OK] $param = $actual"
  else
    echo "[FAIL] $param: expected $expected, got $actual"
  fi
done

 

分步上线流程

高危修改(如 vm.swappiness、net.ipv4.tcp_tw_reuse)建议分步上线:

在一台机器上临时修改(sysctl -w),观察 24-48 小时无异常

确认无误后写入 /etc/sysctl.d/99-custom.conf

使用 Ansible 或 Salt 批量推送到同类型机器

批量推送时建议使用 rolling restart 策略,分批重启相关服务

回滚操作

如果修改后出现异常,优先用备份的回滚单个参数,而不是重启机器:

 

# 查看备份文件
ls -lt /backup/sysctl_*.conf

# 回滚单个参数
sysctl -w net.core.somaxconn=128

# 如果需要完全恢复备份
sysctl -p /backup/sysctl_backup_20260521_143000.conf

 

总结:20 项参数速查清单

# 参数 推荐值 适用场景 风险
1 net.core.somaxconn 65535 高并发 Web 服务
2 net.core.netdev_max_backlog 65535 高吞吐网卡服务器
3 net.ipv4.tcp_max_syn_backlog 65535 高并发短连接服务
4 net.ipv4.ip_local_port_range 1024 65535 代理/爬虫/客户端
5 net.ipv4.tcp_fin_timeout 15 大量短连接场景
6 net.ipv4.tcp_tw_reuse 1 大量 TIME_WAIT 堆积
7 net.ipv4.tcp_tw_recycle 0 NAT/云环境必为 0
8 net.core.rmem_max/wmem_max 16777216 万兆网卡高吞吐
9 net.ipv4.conf.*.rp_filter 2 容器/Docker 环境
10 fs.file-max 2097152 高并发进程
11 vm.swappiness 10 数据库服务器
12 vm.dirty_ratio 10 数据库/高可靠场景
13 vm.vfs_cache_pressure 50 数据库服务器
14 kernel.shmmax/shmall 按需调大 共享内存数据库
15 kernel.pid_max 4194304 高线程数应用
16 kernel.threads-max 4194304 高线程数应用
17 kernel.sem 250 32000 100 256 数据库
18 net.ipv4.icmp_echo_ignore_broadcasts 1 所有服务器
19 net.ipv4.conf.*.accept_source_route 0 安全加固
20 vm.dirty_background_ratio 5 数据库/高可靠场景

实战排查路径汇总

当遇到网络/连接问题需要快速定位时,按以下顺序检查内核参数:

连接无法建立:net.core.somaxconn → net.ipv4.tcp_max_syn_backlog → fs.file-max(句柄耗尽)

TIME_WAIT 堆积:net.ipv4.tcp_fin_timeout → net.ipv4.tcp_tw_reuse → net.ipv4.ip_local_port_range

端口耗尽:net.ipv4.ip_local_port_range → net.ipv4.tcp_tw_reuse → net.core.somaxconn(accept 队列满导致连接堆积)

丢包/网络卡顿:net.core.netdev_max_backlog → net.core.rmem_max/wmem_max → cat /proc/net/softnet_stat

内存换页严重:vm.swappiness → vm.dirty_ratio → vm.vfs_cache_pressure

进程/线程数达上限:kernel.pid_max → kernel.threads-max → ulimit -u / nproc

数据库共享内存不足:kernel.shmmax → kernel.shmall → ipcs -m

所有调参操作建议在业务低峰期执行,并在修改后通过监控观察 24 小时内是否有异常。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分