Kubernetes 默认情况下使用 Cadvisor 来收集容器的各项指标,足以满足大多数人的需求,但还是有所欠缺,比如缺少对以下几个指标的收集:
- OOM kill
- 容器重启的次数
- 容器的退出码
missing-container-metrics 这个项目弥补了 Cadvisor 的缺陷,新增了以上几个指标,集群管理员可以利用这些指标迅速定位某些故障。例如,假设某个容器有多个子进程,其中某个子进程被 OOM kill,但容器还在运行,如果不对 OOM kill 进行监控,管理员很难对故障进行定位。
支持的容器运行时
- Docker
- Containerd