CCE Deep Learning Frameworks Operator 说明
更新时间:2025-08-05
组件介绍
主流深度学习框架 operator 组件,结合 CCE AI Job Scheduler,可实现直接在 CCE 上进行深度学习模型训练。
组件功能
集成主流深度学习框架,提供开箱即用的深度学习任务提交能力,目前支持以下深度学习框架:
1、TensorFlow(TFJob)
2、PyTorch(PyTorchJob)
3、MXNet(MXJob)
4、PaddlePaddle(PaddleJob)
使用场景
您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。
限制说明
- 仅支持 v1.18 及以上版本的 Kubernetes 集群。
安装组件
- 登录百度智能云官网,并进入管理控制台。
- 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
- 单击左侧导航栏中的 集群管理 > 集群列表 。
- 在集群列表页面中,单击目标集群名称进入集群管理页面。
- 在集群管理页面单击 运维与管理 > 组件管理 。
- 在组件管理列表中选择 CCE Deep Learning Frameworks Operator 组件单击“安装。
- 框架:目前支持 TensorFlow、Pytorch、Mxnet、PaddlePaddle 四种深度学习框架。
版本记录
版本号 | 适配集群版本 | 更新时间 | 更新内容 | 影响 |
---|---|---|---|---|
1.6.33 | CCE/v1.18+ | 2025.06.18 | 新功能: |
此次升级不会对业务造成影响 |
1.6.32 | CCE/v1.18+ | 2025.05.22 | 新功能: |
此次升级不会对业务造成影响 |
1.6.31 | CCE/v1.18+ | 2025.02.18 | 新功能: 修复: |
此次升级不会对业务造成影响 |
1.6.30 | CCE/v1.18+ | 2025.01.21 | 新功能: 优化: |
此次升级不会对业务造成影响 |
1.6.29 | CCE/v1.18+ | 2024.12.30 | 新功能: |
此次升级不会对业务造成影响 |
1.6.28 | CCE/v1.18+ | 2024.12.20 | 新功能: |
此次升级不会对业务造成影响 |
1.6.27 | CCE/v1.18+ | 2024.11.18 | 新功能: 修复: 优化: |
此次升级不会对业务造成影响 |
1.6.26 | CCE/v1.18+ | 2024.11.04 | 新功能: |
此次升级不会对业务造成影响 |
1.6.25 | CCE/v1.18+ | 2024.09.20 | 新功能: 修复: |
此次升级不会对业务造成影响 |
1.6.24 | CCE/v1.18+ | 2024.09.18 | 新功能: |
此次升级不会对业务造成影响 |
1.6.23 | CCE/v1.18+ | 2024.09.11 | 新功能: 优化: |
此次升级不会对业务造成影响 |
1.6.22 | CCE/v1.18+ | 2024.08.28 | 新功能: 优化: |
此次升级不会对业务造成影响 |
1.6.21 | CCE/v1.18+ | 2024.07.22 | 新功能: 优化: |
- |
1.6.20 | CCE/v1.18+ | 2024.05.29 | 修复: ftagent 会占用 8080 端口的问题 |
- |
1.6.19 | CCE/v1.18+ | 2024.05.29 | 新功能: 修复: |
- |
1.6.18 | CCE/v1.18+ | 2024.05.17 | 新功能: |
- |
1.6.17 | CCE/v1.18+ | 2024.04.12 | 新功能: ftagent-exporter 指标新增 pod_name, job_name 标签 |
- |
1.6.16 | CCE/v1.18+ | 2024.03.11 | 新功能: 支持训练任务性能指标采集和上报:吞吐性能指标、分阶段耗时指标 |
- |
1.6.15 | CCE/v1.18+ | 2024.02.26 | 任务被抢占&触发容错重调度,pytorchjob置为Restarting状态,修复pytorchjob没有Created状态bug,修复pod failed pytorchjob为running bug;新增ftagent exporter,支持集合通信带宽指标暴露; | - |
1.6.14 | CCE/v1.18+ | 2024.02.06 | 新增任务事件timeline&容错事件&tensorboard gc | - |
1.6.13 | CCE/v1.18+ | 2024.01.17 | 新增master/worker node not ready 场景容错优化 | - |
1.6.12 | CCE/v1.18+ | 2023.12.18 | 新增 Training-Operator、Mpi-Operator 支持优先级抢占; bugfix: Mpi-Operator 修复同名任务频繁创删场景 创建 pod 卡住问题 | - |
1.6.11 | CCE/v1.18+ | 2023.12.04 | 新增自动容错覆盖节点not ready的场景; | - |
1.6.10 | CCE/v1.18+ | 2023.11.22 | 新增容错支持 master-worker 模式 | - |
1.6.9 | CCE/v1.18+ | 2023.11.03 | 新增hang 检测解耦etcd;新增非法任务名校验;新增任务名长度校验不超过50;bugfix: ft-agent 支持重启策略为OnFailure Pod;修复c10d 作业概率性创建失败问题;新增容错开关;任务hang 支持容错;1.6.9 版本不部署etcd;新版本容错对接控制台;training-operator 默认关闭job barrier 功能; | - |
1.6.8 | CCE/v1.18+ | 2023.10.10 | 容错功能重构,解决任务失败资源无法释放的问题 | - |
1.6.6 | CCE/v1.18+ | 2023.08.25 | PytorchJob支持hang检测;MPIJob支持hostfile注入worker节点和任务停止;修复training-operator快速删除、创建任务时Pod无法被创建;PytorchJob initContainer添加最大重试次数;Training-Operator 任务失败 ftagent 退出时清理训练进程 | - |
1.6.5 | CCE/v1.18+ | 2023.07.07 | 升级 Pytorchjob支持宕机容错 | - |
1.6.4 | CCE/v1.18+ | 2023.07.05 | MPI Operator 指定 gang-scheduling,改为由 operator 维护 pg | - |
1.6.3 | CCE/v1.18+ | 2023.06.27 | 新增 MPI Operator 与 Paddle Operator;支持作业停止;TrainingOperator可将作业状态通过exporter对外暴露 | - |
1.6.1 | CCE/v1.18+ | 2023.05.30 | 升级 Pytorchjob支持硬件故障(GPU、NIC)容错 | - |
0.3.0 | CCE/v1.18+ | 2022.05.12 | 升级为 TrainingOperator 将 PyTorch/Tensorflow/MXNet Operator 合并 | 不支持一键升级,需先卸载旧版插件重新安装 |
0.2.1 | CCE/v1.18+ | 2022.03.02 |