搜索本产品文档关键词
CCE NPU Manager 说明
所有文档
menu

容器引擎 CCE

CCE NPU Manager 说明

组件介绍

一系列NPU Device Plugin、Exporter的集合,结合配套的Scheduler可以实现NPU资源调度能力。

目前该组件依赖于CCE AI Job Scheduler,若您需要请一同安装,否则可能导致组件功能不可用。

组件功能

支持对NPU资源管理、分配以及指标上报,支持使用RDMA网络。

使用场景

在CCE集群中有NPU资源时,需要安装该组件后才能正常调度使用。

安装组件

  1. 登录百度智能云官网,并进入管理控制台。
  2. 选择”产品服务>云原生>容器引擎CCE”,单击进入容器引擎管理控制台。
  3. 单击左侧导航栏中的”集群管理>集群列表”。
  4. 在集群列表页面中,单击目标集群名称进入集群管理页面。
  5. 在集群管理页面单击”组件管理”。
  6. 在组件管理列表中选择“CCE NPU Manager”组件单击”安装”。

image.png

  1. 点击”确认”按钮完成组件的安装。

组件状态确认

通过如下命令查看K8s集群中跟CCE NPU Manager组件相关的Pod,需要满足以下Pod的STATUS都为Running,READY都为1/1,则该组件运行状态为正常。(该命令输出的pod数量跟集群节点数量有关,每个节点对应3个pod)

kubectl -n kube-system get po | grep xpu

xpu-device-plugin-daemonset-v3-8pzxn                       1/1     Running   0               55s
xpu-exporter-v3-bm6cd                                      1/1     Running   0               55s
rdma-shared-dp-ds                                          1/1     Running   0               55s
上一篇
CCE CSI CDS Plugin 说明
下一篇
CCE Image Accelerate 说明