搜索本产品文档关键词
昇腾工作负载资源
所有文档
menu

容器引擎 CCE

昇腾工作负载资源

前提条件

使用方法

  1. 登录容器引擎CCE控制台
  2. 点击左侧集群管理,在集群列表中选择您需要的集群名称,在右侧操作>更多中点击Prometheus监控,即可跳转至Prometheus监控服务

image.png

  1. Prometheus监控页面下方选项中选择云原生AI监控,随后选择昇腾工作负载资源

昇腾工作负载资源如图所示

image.png

您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新

昇腾工作负载资源具体说明

卡数&NPU资源使用情况

监控项 说明
卡数 当前工作负载的NPU卡数
NPU利用率 当前工作负载所有NPU的平均利用率实时值
显存利用率 当前工作负载所有显存的平均利用率实时值
显存使用量 当前工作负载所有显存的使用量实时值

image.png)

NPU节点使用概要

监控项 说明
命名空间 当前工作负载中NPU节点所在命名空间
节点名称 当前工作负载中NPU节点名称
Pod名称 当前工作负载中NPU节点中运行Pod名称
NPU配给卡数 当前工作负载中NPU节点的NPU配给卡数
NPU平均利用率 当前工作负载中NPU节点的NPU平均利用率
显存使用量 当前工作负载中NPU节点的显存使用量
显存平均利用率 当前工作负载中NPU节点的显存平均利用率

image.png

上一篇
昇腾节点资源
下一篇
昇腾资源池总览