百度智能云

搜索本产品文档关键词

所有文档

没有找到结果，请重新输入

容器引擎 CCE

GPU工作负载资源

更新时间：2025-05-30

GPU 工作负载资源，包含任务属性、GPU 卡数、GPU 资源使用情况、GPU 节点使用概要。

前提条件

已安装 CCE AI Job Scheduler 组件且版本 >= 1.7.9
已安装 CCE GPU Manager 组件
已接入监控实例
需启用采集任务,具体参考文档：接入监控实例并启用采集任务

使用方法

登录容器引擎CCE控制台。
点击左侧集群管理，在集群列表中选择您需要的集群名称，在右侧操作>更多中点击Prometheus监控，即可跳转至Prometheus监控服务。

在Prometheus监控页面下方选项中选择云原生AI监控，随后选择GPU工作负载资源。

GPU工作负载资源如图所示

您可以点击右上角按钮，自行设定监控时间、手动刷新、自动刷新。

GPU工作负载资源具体说明

任务属性

监控项	说明
负载名称	当前工作负载的名称
类型	当前工作负载的类型
命名空间	当前工作负载所在命名空间
开始时间	当前工作负载的开始时间
运行时长	当前工作负载的运行时长

卡数&GPU资源使用情况

监控项	说明
卡数	当前工作负载的GPU卡数
GPU利用率	当前工作负载所有GPU的平均利用率实时值
显存利用率	当前工作负载所有显存的平均利用率实时值
显存使用量	当前工作负载所有显存的使用量实时值

GPU节点使用概要

监控项	说明
命名空间	当前工作负载中GPU节点所在命名空间
节点IP	当前工作负载中GPU节点IP
Pod名称	当前工作负载中GPU节点中运行Pod名称
GPU配给卡数	当前工作负载中GPU节点的GPU配给卡数
GPU平均利用率	当前工作负载中GPU节点的GPU平均利用率
显存使用量	当前工作负载中GPU节点的显存使用量
显存平均利用率	当前工作负载中GPU节点的显存平均利用率

AI Job Scheduler组件

GPU节点资源