今日头条
摘要: 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控 使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控 1 背景 上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GP.
上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控项,就可以实现对指定GPU实例内指定GPU的相应数据进行监控,对相应监控项设置相应数据的报警规则,就能实现监控数据的自动报警。
但是自定义监控的采集脚本需要用户自己实现,并且云监控控制台上自定义监控的展示维度也很有限,只能查看指定VM指定GPU的某个数据。
通过使用阿里云提供的云监控插件,可以一键安装就实现GPU指标的采集和上报,同时展示维度上可以与目前的ECS一样获得更多维度的展示,比如Dashborad监控大盘,可以监控集群级别的GPU指标,主机监控则可以在一个页面显示该实例所有GPU的所有监控指标。
本文将会详细介绍如何通过安装云监控插件来实现更全面、更易用的GPU云监控和报警。
云监控插件从1.2.28版本开始支持GPU数据的采集。云监控Agent(即云监控插件)的安装可以参考云监控官方使用文档:云监控Agent安装。同时支持Linux和Window操作系统。
也可以在云监控控制台主机监控部分一键点击安装最新的云监控插件,并查看云监控插件的版本,如下图:
目前只有GPU计算型实例支持GPU云监控,实例必须要安装GPU驱动和云监控插件的1.2.28以上版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表。
在云监控控制台中进入主机监控,进入需要查看监控数据的实例,点击GPU监控标签页,就可以看到该实例所有GPU的GPU使用率、编码器/解码器使用率、显存使用量、GPU功率、GPU温度等监控数据。
可以在云监控控制台Dashboard中创建自定义GPU监控大盘,以多种图表类型大盘展示分别分组、实例、GPU维度的各个GPU指标。
下图是以折线图形式展示特定分组的实例维度GPU显存使用量的平均值,可以一目了然的查看相关实例的显存使用量波动情况。
下图是以折线图形式展示特定分组的分组维度GPU温度的平均值,可以一目了然的查看指定分组相关实例的GPU温度波动情况。
下图是以TopN表格形式展示实例维度GPU温度的最大值,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时温度情况,并确定GPU温度最高的实例。
下图是以TopN表格形式展示实例维度GPU功率的平均,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时功率情况,并确定GPU功率最高的实例。
TopN表格形式同样能非常方便的查看各个实例的GPU利用率和编码器/解码器利用率以及显存使用情况,从而判断业务运行是否正常,以及判断资源利用是否充分。
新增的GPU监控项添加报警规则方式同ECS的其他指标一样,可以针对某一特定指标设置报警规则,如下图:
推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践。
GPU相关监控指标提供3个维度的数据
GPU维度的指标,采集每个GPU层面的监控数据。
MetricName
单位
名称
dimensions
gpu_memory_freespace
Bytes
GPU维度显存空闲量
instanceId,gpuId
gpu_memory_totalspace
Bytes
GPU维度显存总量
instanceId,gpuId
gpu_memory_usedspace
Bytes
GPU维度显存使用量
instanceId,gpuId
gpu_gpu_usedutilization
%
GPU维度GPU使用率
instanceId,gpuId
gpu_encoder_utilization
%
GPU维度编码器使用率
instanceId,gpuId
gpu_decoder_utilization
%
GPU维度解码器使用率
instanceId,gpuId
gpu_gpu_temperature
℃
GPU维度GPU温度
instanceId,gpuId
gpu_power_readings_power_draw
W
GPU维度GPU功率
instanceId,gpuId
gpu_memory_freeutilization
%
GPU维度显存空闲率
instanceId,gpuId
gpu_memory_useutilization
%
GPU维度显存使用率
instanceId,gpuId
实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。
MetricName
单位
名称
dimensions
instance_gpu_decoder_utilization
%
实例维度GPU解码器使用率
instanceId
instance_gpu_encoder_utilization
%
实例维度GPU编码器使用率
instanceId
instance_gpu_gpu_temperature
℃
实例维度GPU温度
instanceId
instance_gpu_gpu_usedutilization
%
实例维度GPU使用率
instanceId
instance_gpu_memory_freespace
Bytes
实例维度GPU显存空闲量
instanceId
instance_gpu_memory_freeutilization
%
实例维度GPU显存空闲率
instanceId
instance_gpu_memory_totalspace
Bytes
实例维度GPU显存总量
instanceId
instance_gpu_memory_usedspace
Bytes
实例维度GPU显存使用量
instanceId
instance_gpu_memory_usedutilization
%
实例维度GPU显存使用率
instanceId
instance_gpu_power_readings_power_draw
W
实例维度GPU功率
instanceId
分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。
MetricName
单位
名称
dimensions
group_gpu_decoder_utilization
%
分组维度GPU解码器使用率
groupId
group_gpu_encoder_utilization
%
分组维度GPU编码器使用率
groupId
group_gpu_gpu_temperature
℃
分组维度GPU温度
groupId
group_gpu_gpu_usedutilization
%
分组维度GPU使用率
groupId
group_gpu_memory_freespace
Bytes
分组维度GPU显存空闲量
groupId
group_gpu_memory_freeutilization
%
分组维度GPU显存空闲率
groupId
group_gpu_memory_totalspace
Bytes
分组维度GPU显存总量
groupId
group_gpu_memory_usedspace
Bytes
分组维度GPU显存使用量
groupId
group_gpu_memory_usedutilization
%
分组维度GPU显存使用率
groupId
group_gpu_power_readings_power_draw
W
分组维度GPU功率
groupId
可以使用OpenAPI来查询GPU监控数据。参考文档:https://help.aliyun.com/document_detail/51936.html
参数说明:Project=acs_ecs_dashboard,Metric及Dimensions参考上述监控项表格中的GPU指标。
本文为云栖社区原创内容,未经允许不得转载。
全部0条评论
快来发表一下你的评论吧 !