GPU节点资源
更新时间:2025-05-30
GPU 节点资源,包含占用 GPU 的 Pod 数量、GPU 卡分配情况、GPU 卡使用情况、GPU & Memory 总量、GPU & Memory 利用率、GPU 卡平均利用率、GPU 卡利用率、卡平均显存利用率、卡显存利用率、GPU 利用率、Memory 利用率、运行中的占 GPU 的 Pod 列表。
前提条件
- 已安装 CCE AI Job Scheduler 组件且版本 >= 1.7.9
- 已安装 CCE GPU Manager 组件
- 已接入监控实例
- 需启用采集任务,具体参考文档:接入监控实例并启用采集任务
使用方法
- 登录容器引擎CCE控制台。
- 点击左侧集群管理,在集群列表中选择您需要的集群名称,在右侧操作>更多中点击Prometheus监控,即可跳转至Prometheus监控服务。

- 在Prometheus监控页面下方选项中选择云原生AI监控,随后选择GPU节点资源。
GPU节点资源如图所示

您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新。
GPU节点资源具体说明
占用GPU的Pod数量
| 监控项 | 说明 |
|---|---|
| 占用GPU的Pod数量 | 当前节点内占用GPU资源的Pod数量 |
卡分配情况
| 监控项 | 说明 |
|---|---|
| 总卡数 | 当前节点内全部GPU卡数 |
| 分配数 | 当前节点内已分配的GPU卡数 |
| 卡分配率 | 分配率=已分配GPU卡数/总GPU卡数 |
卡使用情况
| 监控项 | 说明 |
|---|---|
| 卡平均利用率 | 当前节点内所有GPU卡平均利用率实时值,卡平均利用率=sum(所有GPU卡利用率)/所有GPU卡数 |
| 卡显存平均利用率 | 当前节点内所有GPU卡显存平均利用率实时值,显存平均利用率=sum(所有GPU卡显存利用率)/所有GPU卡数 |
CPU&Memory总量/利用率
| 监控项 | 说明 |
|---|---|
| CPU核数 | 当前节点内CPU总核数 |
| CPU平均利用率 | 当前节点内所有CPU平均利用率实时值 |
| 内存总量 | 当前节点内存总量 |
| 内存利用率 | 当前节点内所有内存平均利用率实时值 |
利用率
| 监控项 | 说明 |
|---|---|
| 卡平均利用率 | 当前节点内所有GPU卡平均利用率实时值,卡平均利用率=sum(所有GPU卡利用率)/所有GPU卡数 |
| 卡利用率 | 当前节点内所有GPU卡利用率实时值 |
| 卡平均显存利用率 | 当前节点内所有GPU卡显存平均利用率实时值,显存平均利用率=sum(所有GPU卡显存利用率)/所有GPU卡数 |
| 卡显存利用率 | 当前节点内所有GPU卡显存利用率实时值 |
| CPU利用率 | 当前节点内所有CPU利用率实时值 |
| Memory利用率 | 当前节点内所有内存利用率实时值 |

运行中的占GPU的Pod列表
| 监控项 | 说明 |
|---|---|
| 负载名称 | 当前节点运行中的占GPU的Pod所在工作负载名称 |
| 类型 | 当前节点运行中的占GPU的Pod任务类型 |
| 命名空间 | 当前节点运行中的占GPU的Pod所在命名空间 |
| Pod名称 | 当前节点运行中的占GPU的Pod名称 |
| GPU配给卡数 | 当前节点运行中的占GPU的Pod的配给GPU卡数 |
| GPU平均利用率 | 当前节点运行中的占GPU的Pod内GPU卡平均利用率实时值 |
| GPU显存平均利用率 | 当前节点运行中的占GPU的Pod内GPU卡显存平均利用率实时值 |
| 内存使用量 | 当前节点运行中的占GPU的Pod的内存使用量 |
| CPU核数 | 当前节点运行中的占GPU的Pod的CPU核数 |

