告警配置
更新时间:2025-05-29
集群告警
报警配置
报警配置在监控界面的监控信息右上角的报警详情,即跳转到报警配置界面。进入报警配置界面,点击添加策略根据需要配置报警策略,同时选择报警方式。设置完成报警策略后,如有触发报警,则会收到对应的通知,并且可以在报警通知中查看历史报警。
注意,报警生效时间大约为5分钟。
图二 报警配置入口
Leader Node 报警策略实践
表四 Leader Node 的报警配置说明
配置项 | 配置说明 |
---|---|
CPU 使用率 | 按需。比如15分钟内的平均使用率大于90%,则报警 |
磁盘空间使用率 | 建议当磁盘空间使用率大于80%,则报警。此时可能需要清理数据,或扩容 |
内存使用率 | 按需。比如15分钟内的平均使用率大于80%,则报警 |
当前连接数 | Palo 默认单一用户对单一 Leader Node 的连接上限是 100。假设有 3个 Palo 用户,则单一 Leader Node 的连接数超过300,则会拒绝连接。此处可以根据用户数量,配置合理的报警策略 |
每秒查询数 | 按需。根据业务使用设置合理的报警策略 |
每秒请求数 | 按需。根据业务使用设置合理的报警策略 |
每秒查询错误数 | 根据业务可容忍的数量设置。较为激进的情况,可以设置5分钟内求和大于0,则报警 |
JVM Old 区使用率 | 建议设置当15分钟内,Old 区平均使用率大于75%,并连续2次后,报警 |
JVM Young 区使用率 | Young 区使用率没有实际报警意义。通常只需查看趋势即可 |