阿里云GPU云服务器操作指南-管理GPU实例-GPU监控
云监控通过安装在阿里云主机(ECS实例)上的云监控插件,采集GPU的监控数据,您还可以为这些监控项设置报警规则。当某个监控项达到报警条件时,会给您发送报警通知,以便您及时关注其动态。
前提条件
-
请确保您已在云服务器ECS上创建GPU计算型实例,且已安装GPU驱动。具体操作,请参见创建GPU实例。
如果您先安装云监控插件,再安装GPU驱动,则需要重启云监控插件。关于如何重启云监控插件,请参见如何重启云监控C++版本插件?。
-
请确保您已在云服务器ECS上安装云监控插件。具体操作,请参见安装云监控插件。
监控项说明
您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。
监控项 |
单位 |
MetricName |
Dimensions |
(Agent)GPU维度解码器使用率 |
% |
gpu_decoder_utilization |
userId、instanceId、gpuId |
(Agent)GPU维度编码器使用率 |
% |
gpu_encoder_utilization |
userId、instanceId、gpuId |
(Agent)GPU维度GPU温度 |
℃ |
gpu_gpu_temperature |
userId、instanceId、gpuId |
(Agent)GPU维度GPU使用率 |
% |
gpu_gpu_usedutilization |
userId、instanceId、gpuId |
(Agent)GPU维度显存空闲量 |
Byte |
gpu_memory_freespace |
userId、instanceId、gpuId |
(Agent)GPU维度显存空闲率 |
% |
gpu_memory_freeutilization |
userId、instanceId、gpuId |
(Agent)GPU维度显存使用量 |
Byte |
gpu_memory_usedspace |
userId、instanceId、gpuId |
(Agent)GPU维度显存使用率 |
% |
gpu_memory_usedutilization |
userId、instanceId、gpuId |
(Agent)GPU维度GPU功率 |
W |
gpu_power_readings_power_draw |
userId、instanceId、gpuId |
查看GPU的监控数据
-
登录云监控控制台。
-
在左侧导航栏,选择
。 -
在主机监控页面,单击目标主机的实例名称链接,或单击目标主机对应操作列的监控图表。
-
单击GPU监控页签。