使用Prometheus监控集群
更新时间:2025-04-02
监控概述
CCE集群支持快速启用百度智能云 Prometheus 监控服务(CProm ),以实时监控集群和容器的健康状况,并查看可视化的 Grafana 监控数据大盘,您还可按需配置联系人接收监控报警、配置采集任务抓取自定义的监控指标等。
百度智能云 Prometheus 监控介绍
百度智能云 Prometheus 监控服务致力于提供轻量、稳定、高可用的服务。保留原生 Prometheus 的特性,支持采集自定义指标,支持千万级指标上报,提供基于 Grafana 的优秀可视化能力和预置默认面板,提供稳定的告警能力。 与自建 Prometheus 环境相比,您无需手工下载、配置 Prometheus 环境,无需考虑维护海量数据的存储成本。同时,Prometheus 监控兼容开源 Prometheus 的接口以及社区 Exporter 生态,提供免搭建、免运维的 Prometheus 集成环境,减少开发及运维成本。
说明
- 百度智能云 Prometheus 的详细介绍,请参见什么是Prometheus监控。
- 启用 Prometheus 后,Prometheus 监控将采集集群中的容器监控指标。默认采集的指标均为百度智能云 Prometheus 基础指标,在默认情况下不会产生费用。但是,若您调整了指标存储时长,或上报了自定义指标,将会产生额外计费。关于百度智能云 Prometheus 的计费说明,请参见计费说明。
接入 Prometheus 监控实例
前提条件
- 已开通容器引擎CCE、百度智能云 Prometheus 服务,您可以登录Prometheus服务控制台确认是否开通。
- 已成功创建CCE集群,详情请参见创建CCE集群。
CCE集群接入 CProm 监控实例
- 登录容器引擎控制台。
- 在左侧导航栏,选择集群列表。
- 在“集群列表”页面单击目标集群,进入集群管理页面。
- 在集群管理页面左侧导航栏中选择 运维与管理 > Prometheus 监控。
- 单击立即开启,弹出接入 CProm 监控弹窗,您可以选择接入与 CCE 集群相同地域中已有的监控实例,也可以选择新建监控实例,点击确认,完成配置。
- 接入 CProm 监控实例后,控制台会自动安装组件、检查监控大盘。安装完成后,您可以单击各个页签查看相应监控数据。
说明
- 接入 CProm 监控实例,系统会默认在 CCE 集群安装监控组件。该组件用于采集 CCE 集群的各项监控指标,安装该组件会占用 CCE 集群一定资源,建议集群预留0.2核200Mi以上的资源,防止因资源不足导致实例接入失败。
- 您也可以选择登录Prometheus服务控制台选择 CProm 监控实例关联 CCE 集群,详情参考CProm监控实例关联集群。
- 接入 CProm 监控实例后会默认开启采集规则,如果您想要采集自定义业务指标,支持通过创建自定义采集任务,来满足您采集自定义指标需求,详情请参见采集配置。
查看监控面板
在容器引擎控制台的 Prometheus 监控页面,切换页签选择需要查看系统预置的 Grafana 监控大盘,获取相应的监控数据。监控面板支持设置查询的时间段,并指定刷新方式(手动刷新、自动刷新)。
配置 Promethues 监控告警
您可以为监控指标创建告警,在满足告警条件时通过邮件、短信、钉钉等渠道实时报警,主动帮助您发现异常。您可以在托管 Prometheus 的告警中心配置集群相关告警。