如何判断Linux系统运行状态是否良好

KQfe_aming_linu 2022-12-12 1696

嵌入式技术

1376人已加入

描述

众所周知，生病了需要去医院看病，大夫首先要询问我们哪里不舒服，然后再通过观察和自己的经验，大体上就能判定我们得的是什么病。然而Linux不会说话，它不会主动告诉我们哪里出现了问题，需要我们自己去观察。那么如何评估系统运行状态是否良好呢？下面阿铭就介绍一些帮我们分析系统状态的工具。

14.1.1　使用w命令查看当前系统的负载

具体用法如下：

# w
22:07:15 up 74 days, 7:52,  1 user,  load average: 0.00, 0.00, 0.00
USER TTY      FROM             LOGIN@   IDLE   JCPU   PCPU WHAT
root pts/0    192.168.18.1     22:07    1.00s  0.07s  0.01s w

相信所有Linux管理员最常用的命令就是这个w了，该命令显示的信息很丰富。第1行从左至右显示的信息依次为：时间、系统运行时间、登录用户数、平均负载。从第2行开始的所有行则是告诉我们：当前登录的用户名及其登录地址等。其实在这些信息中，阿铭认为最应该关注第1行中的 load average:后面的3个数值。第1个数值表示1分钟内系统的平均负载值，第2个数值表示5分钟内系统的平均负载值，第3个数值表示15分钟内系统的平均负载值。我们着重看第1个值，它表示单位时间段内使用CPU的活动进程数（在这里其实就是1分钟内），值越大就说明服务器压力越大。一般情况下，这个值只要不超过服务器的CPU数量就没有关系。如果服务器的CPU数量为8，那么值小于8就说明当前服务器没有压力；否则就要关注一下了。查看服务器有几个CPU的方法如下所示：

# cat /proc/cpuinfo
processor  : 0
vendor_id  : GenuineIntel
cpu family  : 6
model    : 62
model name  : Intel(R) Xeon(R) CPU E5-2650 v2 @ 2.60GHz
stepping  : 4
microcode  : 0x427
cpu MHz    : 2600.039
cache size  : 20480 KB
physical id  : 0
siblings  : 1
core id    : 0
cpu cores  : 1
apicid    : 0
initial apicid  : 0
fpu    : yes
fpu_exception  : yes
cpuid level  : 13
wp    : yes
flags    : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc cpuid aperfmperf pni pclmulqdq ssse3 cx16 pcid sse4_1 sse4_2 x2apic popcnt aes xsave avx f16c rdrand hypervisor lahf_lm cpuid_fault pti fsgsbase smep xsaveopt dtherm ida arat pln pts
bugs    : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf
bogomips  : 5200.07
clflush size  : 64
cache_alignment  : 64
address sizes  : 40 bits physical, 48 bits virtual
power management:
processor  : 1
vendor_id  : GenuineIntel
cpu family  : 6
model    : 62
model name  : Intel(R) Xeon(R) CPU E5-2650 v2 @ 2.60GHz
stepping  : 4
microcode  : 0x427
cpu MHz    : 2600.039
cache size  : 20480 KB
physical id  : 2
siblings  : 1
core id    : 0
cpu cores  : 1
apicid    : 2
initial apicid  : 2
fpu    : yes
fpu_exception  : yes
cpuid level  : 13
wp    : yes
flags    : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc cpuid aperfmperf pni pclmulqdq ssse3 cx16 pcid sse4_1 sse4_2 x2apic popcnt aes xsave avx f16c rdrand hypervisor lahf_lm cpuid_fault pti fsgsbase smep xsaveopt dtherm ida arat pln pts
bugs    : cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf
bogomips  : 5200.07
clflush size  : 64
cache_alignment  : 64
address sizes  : 40 bits physical, 48 bits virtual
power management:

上例中，/proc/cpuinfo这个文件记录了CPU的详细信息。目前市面上的服务器有很多是2颗多核CPU，在Linux看来，它就是2*n个CPU（这里的n为单颗物理CPU上有几核）。假如n是4，则查看这个文件时会显示8段类似的信息，而最后一段信息的processor : 后面会显示7。所以查看当前系统有几个CPU，我们可以使用命令grep -c 'processor' /proc/cpuinfo。然而查看有几颗物理CPU时，则需要查看关键字physical id。另外一个查看CPU信息的命令为lscpu，如下所示：

# lscpu
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 2
On-line CPU(s) list: 0,1
Thread(s) per core: 1
Core(s) per socket: 1
Socket(s): 2
NUMA node(s): 1
Vendor ID: GenuineIntel
CPU family: 6
Model: 62
Model name: Intel(R) Xeon(R) CPU E5-2650 v2 @ 2.60GHz
Stepping: 4
CPU MHz: 2600.039
BogoMIPS: 5200.07
Hypervisor vendor: VMware
Virtualization type: full
L1d cache: 32K
L1i cache: 32K
L2 cache: 256K
L3 cache: 20480K
NUMA node0 CPU(s): 0,1
Flags: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts mmx fxsr sse sse2 ss syscall nx rdtscp lm constant_tsc arch_perfmon pebs bts nopl xtopology tsc_reliable nonstop_tsc cpuid aperfmperf pni pclmulqdq ssse3 cx16 pcid sse4_1 sse4_2 x2apic popcnt aes xsave avx f16c rdrand hypervisor lahf_lm cpuid_fault pti fsgsbase smep xsaveopt dtherm ida arat pln pts

14.1.2　用vmstat命令监控系统的状态 具体用法如下：

# vmstat
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
3  0      0 938948   4184 645672    0    0    61   128   90  182  1  1 98  0  0

命令w查看的是系统整体上的负载，通过看那个数值可以知道当前系统有没有压力。但它无法判断具体是哪里（CPU、内存、磁盘等）有压力，所以这就用到了vmstat。vmstat命令打印的结果共分为6部分：procs、memory、swap、io、system和cpu。请重点关注一下r、b、si、so、bi、bo这几列信息。

procs显示进程的相关信息。

r（run）：表示运行或等待CPU时间片的进程数。大家不要误认为等待CPU时间片意味着这个进程没有运行，实际上某一时刻1个CPU只能有一个进程占用，其他进程只能排着队等着，此时这些排队等待CPU资源的进程依然是运行状态。该数值如果长期大于服务器CPU的个数，则说明CPU资源不够用了。 b（block）：表示等待资源的进程数，这个资源指的是I/O、内存等。举个例子，当磁盘读写非常频繁时，写数据就会非常慢，此时CPU运算很快就结束了，但进程需要把计算的结果写入磁盘，这样进程的任务才算完成，那此时这个进程只能慢慢地等待磁盘了，这样这个进程就是这个b状态。该数值如果长时间大于1，则需要关注一下了。

memory显示内存的相关信息。

swpd：表示切换到交换分区中的内存数量，单位为KB。

free：表示当前空闲的内存数量，单位为KB。

buff：表示（即将写入磁盘的）缓冲大小，单位为KB。

cache：表示（从磁盘中读取的）缓存大小，单位为KB。

swap显示内存的交换情况。

si：表示由交换区写入内存的数据量，单位为KB。 so：表示由内存写入交换区的数据量，单位为KB。

io显示磁盘的使用情况。

bi：表示从块设备读取数据的量（读磁盘），单位为KB。 bo：表示从块设备写入数据的量（写磁盘），单位为KB。

system显示采集间隔内发生的中断次数。

in：表示在某一时间间隔内观测到的每秒设备的中断次数。 cs：表示每秒产生的上下文切换次数。

cpu显示CPU的使用状态。

us：显示用户下所花费CPU的时间百分比。 sy：显示系统花费CPU的时间百分比。 id：表示CPU处于空闲状态的时间百分比。 wa：表示I/O等待所占用CPU的时间百分比。 st：表示被偷走的CPU所占百分比（一般都为0，不用关注）。以上所介绍的各个参数中，阿铭经常会关注r、b和wa这3列。io部分的bi和bo也是要经常参考的对象，如果磁盘io压力很大，这两列的数值会比较高。另外，当si和so两列的数值比较高并且不断变化时，说明内存不够了，内存中的数据频繁交换到交换分区中，这往往对系统性能影响极大。我们使用vmstat查看系统状态时，通常都是使用如下形式：

# vmstat 1 5

或者：

# vmstat 1

前一条命令表示每隔1秒输出一次状态，共输出5次；后一条命令表示每隔1秒输出一次状态且一直输出，除非按Ctrl+C键结束。 14.1.3　用top命令显示进程所占的系统资源 具体用法如下：

# top
top - 2230 up 2 days, 8:14,  1 user,  load average: 0.00, 0.00, 0.00
Tasks: 154 total, 2 running, 152 sleeping,   0 stopped,   0 zombie
%Cpu(s): 2.6 us,  7.7 sy,  0.0 ni, 87.2 id,  0.0 wa,  2.6 hi,  0.0 si,  0.0 st
MiB Mem : 3770.4 total,   2086.4 free,    437.3 used,   1246.8 buff/cache
MiB Swap: 4060.0 total,   4060.0 free,      0.0 used.   2893.2 avail Mem
PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND                                                                                                                
28123 root 20   0   60948   3948   3308 R   5.6   0.1   0:00.03 top                                                                                                                    
1 root      20   0  246944  14540   9144 S   0.0   0.4   3:42.49 systemd                                                                                                                
2 root      20   0       0      0      0 S   0.0   0.0   0:04.89 kthreadd                                                                                                               
3 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 rcu_gp                                                                                                                 
4 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 rcu_par_gp                                                                                                             
6 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 kworker/0:0H-kblockd                                                                                                   
8 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 mm_percpu_wq                                                                                                           
9 root      20   0       0      0      0 S   0.0   0.0  31:45.82 ksoftirqd/0                                                                                                            
10 root      20   0       0      0      0 R   0.0   0.0  34:36.15 rcu_sched                                                                                                              
11 root      rt   0       0      0      0 S   0.0   0.0  16:37.79 migration/0                                                                                                            
12 root      rt   0       0      0      0 S   0.0   0.0   0:45.63 watchdog/0                                                                                                             
13 root      20   0       0      0      0 S   0.0   0.0   0:00.00 cpuhp/0                                                                                                                
14 root      20   0       0      0      0 S   0.0   0.0   0:00.00 cpuhp/1                                                                                                                
15 root      rt   0       0      0      0 S   0.0   0.0   0:46.99 watchdog/1                                                                                                             
16 root      rt   0       0      0      0 S   0.0   0.0  14:44.19 migration/1

top命令用于动态监控进程所占的系统资源，每隔3秒变一次。它的特点是把占用系统资源（CPU、内存、磁盘I/O等）最高的进程放到最前面。上例中，top命令打印出了很多信息，包括系统负载（load average）、进程数（Tasks）、CPU使用情况、内存使用情况以及交换分区使用情况。这些内容其实可以通过其他命令来查看，用top重点查看的还是下面的进程使用系统资源的详细状况，其中你需要关注%CPU、%MEM和COMMAND这几项所代表的意义。RES这一项为进程所占的内存大小，而%MEM这一项为使用内存的百分比。在top状态下，按Shift+m键可以按照内存使用大小排序。按数字1可以列出所有核CPU的使用状态，按q键可以退出top。另外，阿铭经常用到命令top -bn1，它表示非动态打印系统资源的使用情况，可以用在shell脚本中。示例如下：

# top -bn1 |head
top - 2237 up 2 days, 8:15,  1 user,  load average: 0.00, 0.00, 0.00
Tasks: 155 total, 1 running, 154 sleeping,   0 stopped,   0 zombie
%Cpu(s): 0.0 us,  5.6 sy,  0.0 ni, 91.7 id,  0.0 wa,  2.8 hi,  0.0 si,  0.0 st
MiB Mem : 3770.4 total,   2086.1 free,    437.6 used,   1246.8 buff/cache
MiB Swap: 4060.0 total,   4060.0 free,      0.0 used.   2893.0 avail Mem
PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND
28137 root 20   0   60944   3944   3392 R   6.2   0.1   0:00.02 top
1 root      20   0  246944  14540   9144 S   0.0   0.4   3:42.49 systemd
2 root      20   0       0      0      0 S   0.0   0.0   0:04.89 kthreadd

和top命令唯一的区别就是，它一次性输出所有信息而非动态显示。 14.1.4　用sar命令监控系统状态 sar命令很强大，它可以监控系统几乎所有资源的状态，比如平均负载、网卡流量、磁盘状态、内存使用等。与其他系统状态监控工具不同，它可以打印历史信息，可以显示当天从零点开始到当前时刻的系统状态信息。如果你的系统没有安装这个命令，请使用命令yum install -y sysstat安装。初次使用sar命令会报错，那是因为sar工具还没有生成相应的数据库文件（无需实时监控，因为不用去查询那个库文件）。它的数据库文件在/var/log/sa/目录下。因为这个命令太复杂，所以阿铭只介绍以下两个方面。 1. 查看网卡流量 sar -n DEV 具体用法如下：

# sar -n DEV 1 5
Linux 4.18.0-80.el8.x86_64 (localhost.localdomain) 03/03/20   _x86_64_  (2 CPU)
22:31:30 IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
22:31:31 virbr0    0.00    0.00    0.00     0.00     0.00     0.00     0.00     0.00
22:31:31 lo     0.00    0.00      0.00      0.00      0.00      0.00      0.00      0.00
22:31:31 ens33     1.00     1.00     0.06     0.18     0.00      0.00      0.00      0.00
22:31:31 IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
22:31:32 virbr0     0.00     0.00     0.00     0.00     0.00      0.00      0.00      0.00
22:31:32 lo       0.00     0.00     0.00     0.00     0.00     0.00      0.00      0.00
22:31:32 ens33    12.00    23.00     0.70     2.69     0.00      0.00      0.00      0.00
22:31:32 IFACE  rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
22:31:33 virbr0    0.00    0.00     0.00      0.00      0.00      0.00      0.00      0.00
22:31:33 lo    0.00    0.00    0.00      0.00      0.00      0.00      0.00      0.00
22:31:33 ens33     1.00     2.00     0.06     0.71     0.00      0.00      0.00      0.00
22:31:33 IFACE  rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
22:31:34 virbr0    0.00     0.00     0.00     0.00     0.00      0.00      0.00      0.00
22:31:34 lo     0.00     0.00     0.00     0.00     0.00      0.00      0.00      0.00
22:31:34 ens33    1.00    2.00     0.06     0.71     0.00      0.00      0.00      0.00
22:31:34 IFACE   rxpck/s  txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
22:31:35 virbr0    0.00     0.00     0.00     0.00     0.00     0.00      0.00      0.00
22:31:35 lo      0.00     0.00     0.00     0.00     0.00     0.00      0.00      0.00
22:31:35 ens33    1.00     1.00     0.06     0.60     0.00     0.00      0.00      0.00
Average: IFACE  rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
Average: virbr0    0.00     0.00     0.00     0.00      0.00      0.00      0.00      0.00
Average: lo    0.00     0.00     0.00     0.00      0.00      0.00      0.00      0.00
Average: ens33    3.20     5.80     0.19     0.98      0.00      0.00      0.00      0.00

你的结果可能和阿铭的不一样，这是因为网卡名字不一样，总之这个命令会把网卡信息打印出来，这里的1 5和vmstat用法一样，表示每隔1秒打印一次，共打印5次。IFACE这一列表示设备名称，rxpck/s这一列表示每秒进入收取的包的数量，txpck/s这一列表示每秒发送出去的包的数量，rxkB/s这一列表示每秒收取的数据量（单位为KB），txkB/s这一列表示每秒发送的数据量（后面几列不需要关注）。如果有一天服务器丢包非常严重，那么你就应该查一下网卡流量是否异常了。如果rxpck/s那一列的数值大于4000，或者rxkB/s那一列的数值大于5000000，很有可能是被攻击了。正常的服务器网卡流量不会这么高，除非是你自己在复制数据。另外也可以使用-f选项查看某一天的网卡流量历史，后面跟文件名。在Red Hat或者CentOS发行版中，sar的库文件一定在/var/log/sa/目录下，如果你刚安装syssta包，该目录下还未生成任何文件，其用法如下所示：

# sar -n DEV -f /var/log/sa/sa03

2. 查看历史负载 sar -q 具体用法如下：

# sar -q
Cannot open /var/log/sa/sa03: No such file or directory

如果报如上错误，可以重启syssta服务，命令为systemctl restart sysstat。即使生成该文件，但依然还不能正常显示结果，因为它需要每隔10分钟才会记录一次数据。这个命令有助于我们查看服务器在过去某个时间的负载状况。其实阿铭介绍sar命令，只是为了让你学会查看网卡流量（这是非常有用的）。如果你感兴趣可以man一下，它的用法还有很多。 14.1.5　用nload命令查看网卡流量 sar虽然可以查看网卡流量，但是不够直观，还有一个更好用的工具，那就是nload。系统没有默认安装它，安装方法如下：

# yum install –y epel-release; yum install –y nload

安装过程阿铭不再贴出来。关于上面的命令，也许你有疑问，为什么不直接写两个包呢？这是因为要想安装nload，前提是先安装epel-release包，nload包是在epel这个扩展源里面的。以后在工作中，你一定会经常使用epel扩展源安装一些软件包，非常方便。安装完之后，直接运行nload命令，然后回车就会出现如下界面。是动态的哦，很直观对不对？相信你会喜欢上这个工具。

Device ens33 [192.168.72.128] (1/2):
==
Incoming:
Curr: 944.00 Bit/s
Avg: 1.20 kBit/s
Min: 944.00 Bit/s
Max: 1.84 kBit/s
Ttl: 1.17 GByte
Outgoing:
Curr: 8.88 kBit/s
Avg: 8.67 kBit/s
Min: 5.35 kBit/s
Max: 9.83 kBit/s
Ttl: 58.45 MByt

最上面一行为网卡名字以及IP地址，按向右箭头可以查看其他网卡的网络流量。输出结果分为两部分，Incoming为进入网卡的流量，Outgoing为网卡出去的流量，我们关注的当然是Curr那行的数据，其单位也可以动态自动调整，非常人性化。按q退出该界面。 14.1.6　用free命令查看内存使用状况 具体用法如下：

total        used        free      shared  buff/cache   available
Mem: 1849532      230972     1346700        8852      271860     1460708
Swap: 2097148           0     2097148

free命令可以查看当前系统的总内存大小以及使用内存的情况。

total：内存总大小。

used：真正使用的实际内存大小。

free：剩余物理内存大小（没有被分配，纯剩余）。

shared：共享内存大小，不用关注它。

buff/cache：分配给buffer和cache的内存总共有多大。关于buffer和cache大家也许有一些疑惑，因为字面意思上两者很相近。阿铭教你一个很容易区分这两者的方法，buffer和cache都是一部分内存，内存的作用就是缓解CPU和IO（如，磁盘）的速度差距的，你可以这样理解：数据经过CPU计算，即将要写入磁盘，这时用的内存为buffer；CPU要计算时，需要把数据从磁盘中读出来，临时先放到内存中，这部分内存就是cache。

available：系统可使用内存有多大，它包含了free。Linux系统为了让应用跑得更快，会预先分配一部分内存（buffer/cache）给某些应用使用，虽然这部分内存并没有真正使用，但也已经分配出去了。然而，当另外一个服务要使用更多内存时，是可以把这部分预先分配的内存拿来用的。所以还没有被占用的这部分buffer和cache再加上free就是available。

这个free命令显示的结果中，其实有一个隐藏的公式：total=used+free+buff/cache。另外，available是由free这部分内存和buff/cache还未被占用的那部分内存组成。used那部分内存和buff/cache被占用的内存是没有关系的。 free命令还可以加-m和-g选项（分别以MB或GB为单位）打印内存的使用状况，甚至也支持-h选项。示例命令如下：

# free -m
total        used        free      shared  buff/cache   available
Mem: 1806         225        1315           8         265        1426
Swap: 2047           0        2047
# free -g
total        used        free      shared  buff/cache   available
Mem: 1           0           1           0           0           1
Swap: 1           0           1
# free -h
total        used        free      shared  buff/cache   available
Mem: 1.8Gi       225Mi       1.3Gi       8.0Mi       265Mi       1.4Gi
Swap: 2.0Gi          0B       2.0Gi

14.1.7　用ps命令查看系统进程 系统管理员一定要知道你所管理的系统都有哪些进程在运行，在Windows下只要打开任务管理器即可查看。那么在Linux下如何查看呢？其实使用前面介绍的top命令就可以，但是查看起来没有ps命令方便，它是专门显示系统进程的命令，如下所示：

# ps aux
USER PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root 1  0.1  0.7 178496 13248 ?        Ss   20:32   0:01 /usr/lib/systemd/systemd --switched-root --system --deserialize 17
root 2  0.0  0.0      0     0 ?        S    20:32   0:00 [kthreadd]
root 3  0.0  0.0      0     0 ?        I<   20:32   0:00 [rcu_gp]
root 4  0.0  0.0      0     0 ?        I<   20:32   0:00 [rcu_par_gp]
root 6  0.0  0.0      0     0 ?        I<   20:32   0:00 [kworker/0:0H-kblockd]
root 7  0.0  0.0      0     0 ?        I    20:32   0:00 [kworker/u256:0-events_unbound]
root 8  0.0  0.0      0     0 ?        I<   20:32   0:00 [mm_percpu_wq]
root 9  0.0  0.0      0     0 ?        S    20:32   0:00 [ksoftirqd/0]
root 10  0.0  0.0      0     0 ?        R    20:32   0:00 [rcu_sched]
root 11  0.0  0.0      0     0 ?        S    20:32   0:00 [migration/0]
root 12  0.0  0.0      0     0 ?        S    20:32   0:00 [watchdog/0]
root 13  0.0  0.0      0     0 ?        S    20:32   0:00 [cpuhp/0]
root 15  0.0  0.0      0     0 ?        S    20:32   0:00 [kdevtmpfs]
root 16  0.0  0.0      0     0 ?        I<   20:32   0:00 [netns]
root 17  0.0  0.0      0     0 ?        S    20:32   0:00 [kauditd]
root 18  0.0  0.0      0     0 ?        S    20:32   0:00 [khungtaskd]
root 19  0.0  0.0      0     0 ?        S    20:32   0:00 [oom_reaper]
root 20  0.0  0.0      0     0 ?        I<   20:32   0:00 [writeback]
root 21  0.0  0.0      0     0 ?        S    20:32   0:00 [kcompactd0]
root 22  0.0  0.0      0     0 ?        SN   20:32   0:00 [ksmd]
root 23  0.0  0.0      0     0 ?        SN   20:32   0:00 [khugepaged]
root 24  0.0  0.0      0     0 ?        I<   20:32   0:00 [crypto]
root 25  0.0  0.0      0     0 ?        I<   20:32   0:00 [kintegrityd]

阿铭也经常看到有人喜欢用命令ps -elf，但它们显示的信息基本上是一样的。ps命令还有更多的用法，你只要会用这个命令就足够了。下面介绍几个系统进程的参数。

PID：表示进程的ID，这个ID很有用。在Linux中，内核管理进程就得靠pid来识别和管理某一个进程。比如我想终止某一个进程，则用命令“kill 进程的pid”。有时这样并不能终止进程，需要加-9选项，即“kill -9 进程的pid”，但这样有点暴力，严重的时候会丢数据，所以尽量还是别用。

STAT：进程的状态。进程状态分为以下几种（不要求记住，但要了解）。

D：不能中断的进程（通常为IO）。

R（run）：正在运行中的进程，其中包括了等待CPU时间片的进程。

S（sleep）：已经中断的进程。通常情况下，系统的大部分进程都是这个状态。

T：已经停止或者暂停的进程。如果我们正在运行一个命令，比如说sleep 10，我们按一下Ctrl+Z暂停进程时，用ps命令查看就会显示T这个状态。

W：（内核2.6xx以后不可用），没有足够的内存页分配。

X：已经死掉的进程（这个好像从来不会出现）。 Z：僵尸进程，即杀不掉、打不死的垃圾进程，占用系统一点资源，不过没有关系。如果占用太多（一般不会出现），就需要重视了。 <：高优先级进程。 N：低优先级进程。 L：在内存中被锁了内存分页。 s：主进程，后面阿铭讲到nginx或者php-fpm服务的时候，你就能更好地理解它了。 l：多线程进程。 +：在前台运行的进程，比如在当前终端执行ps aux就是前台进程。 ps命令是阿铭在工作中用得非常多的一个命令，所以请记住它。阿铭经常会将ps连同管道符一起使用，用来查看某个进程或者它的数量。示例命令如下：

# ps aux |grep -c sshd
4
# ps aux |grep sshd
root 814  0.0  0.3  92304  6648 ?        Ss   20:33   0:00 /usr/sbin/sshd -D -oCiphers=aes256-gcm@openssh.com,chacha20-poly1305@openssh.com,aes256-ctr,aes256-cbc,aes128-gcm@openssh.com,aes128-ctr,aes128-cbc -oMACs=hmac-sha2-256-etm@openssh.com,hmac-sha1-etm@openssh.com,umac-128-etm@openssh.com,hmac-sha2-512-etm@openssh.com,hmac-sha2-256,hmac-sha1,umac-128@openssh.com,hmac-sha2-512 -oGSSAPIKexAlgorithms=gss-gex-sha1-,gss-group14-sha1- -oKexAlgorithms=curve25519-sha256,curve25519-sha256@libssh.org,ecdh-sha2-nistp256,ecdh-sha2-nistp384,ecdh-sha2-nistp521,diffie-hellman-group-exchange-sha256,diffie-hellman-group14-sha256,diffie-hellman-group16-sha512,diffie-hellman-group18-sha512,diffie-hellman-group-exchange-sha1,diffie-hellman-group14-sha1 -oHostKeyAlgorithms=rsa-sha2-256,rsa-sha2-256-cert-v01@openssh.com,ecdsa-sha2-nistp256,ecdsa-sha2-nistp256-cert-v01@openssh.com,ecdsa-sha2-nistp384,ecdsa-sha2-nistp384-cert-v01@openssh.com,rsa-sha2-512,rsa-sha2-512-cert-v01@openssh.com,ecdsa-sha2-nistp521,ecdsa-sha2-nistp521-cert-v01@openssh.com,ssh-ed25519,ssh-ed25519-cert-v01@openssh.com,ssh-rsa,ssh-rsa-cert-v01@openssh.com -oPubkeyAcceptedKeyTypes=rsa-sha2-256,rsa-sha2-256-cert-v01@openssh.com,ecdsa-sha2-nistp256,ecdsa-sha2-nistp256-cert-v01@openssh.com,ecdsa-sha2-nistp384,ecdsa-sha2-nistp384-cert-v01@openssh.com,rsa-sha2-512,rsa-sha2-512-cert-v01@openssh.com,ecdsa-sha2-nistp521,ecdsa-sha2-nistp521-cert-v01@openssh.com,ssh-ed25519,ssh-ed25519-cert-v01@openssh.com,ssh-rsa,ssh-rsa-cert-v01@openssh.com -oCASignatureAlgorithms=rsa-sha2-256,ecdsa-sha2-nistp256,ecdsa-sha2-nistp384,rsa-sha2-512,ecdsa-sha2-nistp521,ssh-ed25519,ssh-rsa
root 1709  0.0  0.5 151200  9368 ?        Ss   20:54   0:00 sshd: root [priv]
root 1713  0.0  0.2 151200  5300 ?        S    20:54   0:00 sshd: root@pts/0
root 1745  0.0  0.0  12320  1080 pts/0    R+   20:57   0:00 grep --color=auto sshd

上例中的4不准确，需要减掉1。因为使用grep命令时，grep命令本身也算一个进程。 14.1.8　用netstat命令查看网络状况具体用法如下：

# netstat -lnp
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address Foreign Address         State       PID/Program name    
tcp 0      0 0.0.0.0:22              0.0.0.0:*               LISTEN      814/sshd            
tcp6 0      0 :::22                   :::*                    LISTEN      814/sshd            
udp 0      0 0.0.0.0:68              0.0.0.0:*                           1648/dhclient       
udp 0      0 127.0.0.1:323           0.0.0.0:*                           766/chronyd         
udp6 0      0 :323                 :::*                                766/chronyd         
raw6 0      0 :::58                   :::*                    7           796/NetworkManager  
Active UNIX domain sockets (only servers)
Proto RefCnt Flags Type       State         I-Node   PID/Program name     Path
unix 2      [ ACC ]     SEQPACKET  LISTENING     21770    1/systemd            /run/systemd/coredump
unix 2      [ ACC ]     STREAM     LISTENING     25846    783/sssd_nss         /var/lib/sss/pipes/nss
unix 2      [ ACC ]     SEQPACKET  LISTENING     21557    1/systemd            /run/udev/control
unix 2      [ ACC ]     STREAM     LISTENING     24964    1/systemd            /var/run/.heim_org.h5l.kcm-socket
unix 2      [ ACC ]     STREAM     LISTENING     24966    1/systemd            /run/dbus/system_bus_socket
unix 2      [ ACC ]     STREAM     LISTENING     12679    1/systemd            /run/systemd/journal/stdout
unix 2      [ ACC ]     STREAM     LISTENING     32410    1496/systemd         /run/user/0/systemd/private
unix 2      [ ACC ]     STREAM     LISTENING     32419    1496/systemd         /run/user/0/bus
unix 2      [ ACC ]     STREAM     LISTENING     25795    763/sssd             /var/lib/sss/pipes/private/sbus-monitor
unix 2      [ ACC ]     STREAM     LISTENING     25816    780/sssd_be          /var/lib/sss/pipes/private/sbus-dp_implicit_files.780
unix 2      [ ACC ]     STREAM     LISTENING     25804    761/VGAuthService    /var/run/vmware/guestServicePipe
unix 2      [ ACC ]     STREAM     LISTENING     21476    1/systemd            /run/systemd/private
Active Bluetooth connections (only servers)
Proto Destination       Source            State         PSM DCID   SCID      IMTU    OMTU Security
Proto Destination       Source            State     Channel

若没有此命令，请使用yum install net-tools安装。由于书本页面有限，显示的字符已经换行，看起来有点乱。显示的结果中，上面那一部分是tcp/ip，下面一部分是监听的socket（unix开头的行）。netstat命令用来打印网络连接状况、系统所开放端口、路由表等信息。阿铭最常用的两种用法是netstat -lnp（打印当前系统启动哪些端口）和netstat -an（打印网络连接状况），它们非常有用，请一定要记住。示例如下：

# netstat -an |head -n 20  // 为了节省空间， 只显示前20行
Active Internet connections (servers and established)
Proto Recv-Q Send-Q Local Address Foreign Address         State      
tcp 0      0 0.0.0.0:22              0.0.0.0:*               LISTEN     
tcp 0     52 192.168.72.128:22       192.168.72.1:52219   ESTABLISHED
tcp6 0      0 :::22                   :::*                    LISTEN     
udp 0      0 0.0.0.0:68              0.0.0.0:*                          
udp 0      0 127.0.0.1:323           0.0.0.0:*                          
udp6 0      0 :323                 :::*                               
raw6 0      0 :::58                   :::*                    7          
Active UNIX domain sockets (servers and established)
Proto RefCnt Flags Type       State         I-Node   Path
unix 2      [ ACC ]     SEQPACKET  LISTENING     21770    /run/systemd/coredump
unix 2      [ ACC ]     STREAM     LISTENING     25846    /var/lib/sss/pipes/nss
unix 2      [ ACC ]     SEQPACKET  LISTENING     21557    /run/udev/control
unix 3      [ ]         DGRAM                    12656    /run/systemd/notify
unix 2      [ ]         DGRAM                    12658    /run/systemd/cgroups-agent
unix 12     [ ]         DGRAM                    12670    /run/systemd/journal/dev-log
unix 2      [ ]         DGRAM                    25475    /var/run/chrony/chronyd.sock
unix 2      [ ACC ]     STREAM     LISTENING     24964    /var/run/.heim_org.h5l.kcm-socket
unix 2      [ ACC ]     STREAM     LISTENING     24966    /run/dbus/system_bus_socket

最右侧为网络连接的状态，如果你对TCP三次握手比较熟悉，那应该对最后这一列的字符串不陌生。如果你管理是一台提供Web服务（80端口）的服务器，那么就可以使用命令netstat -an |grep 80来查看当前连接Web服务的有哪些IP了。

编辑:黄飞

打开APP阅读更多精彩内容