告警策略
告警策略即针对监控指标设置阈值,当资源的指标超过阈值时,将会立即通过通知渠道向用户发送告警消息,使用户可以快速响应解决问题。
告警策略即针对监控指标设置阈值,当资源的指标超过阈值时,将会立即通过通知渠道向用户发送告警消息,使用户可以快速响应解决问题。
目前系统内置以下默认策略:
- process.zombies:检测节点上僵尸进程大于10时告警。
- process.total:检测节点上进程数大于20000时告警。
- system.uptime:检测宿主机离线后告警。
- mem.available:检测宿主机的可用内存不足时告警。
- disk.inodes_free/inodes_total:检测磁盘inode空闲率过低时告警。
- disk.free/total:检测磁盘空闲率过低时告警。
- cpu.usage_active:检测宿主机CPU利用率过高时告警。
- host_raid.adapter:检测整列磁盘状态异常时告警。
- 默认不开启,需要手动执行
kubectl edit oc -n onecloud default
, 将enableRaidPlugin 改成 true,才会使用megacli获取状态; - 注意:有一定概率会导致部分型号机器 raid 驱动报错,导致系统卡住,请谨慎开启;
- 默认不开启,需要手动执行
- cloudaccount_balance.balance:检测云账号余额不足时告警。
入口:在云管平台单击左上角导航菜单,在弹出的左侧菜单栏中单击 “监控/监控/告警策略” 菜单项,进入告警策略页面。
新建告警策略
该功能用于创建告警策略。
- 在告警策略页面,单击列表上方 “新建” 按钮,进入新建告警策略页面。
- 设置以下参数:
- 所属范围:设置告警策略的所属范围,包括系统、域、项目。
- 系统:当选择系统时,只有系统管理员在管理后台可见。仅管理后台视图可见。
- 域:当选择域时,需要选择对应域,域管理后台则默认为当前域。
- 项目:当选择项目时,需要选择对应项目。项目视图下默认为当前项目。
- 名称:设置告警策略的名称。
- 监控指标:支持通过资源类型、监控指标、指标项等设置具体的监控指标,支持对平台纳管的虚拟机、宿主机、云账号、存储桶、RDS、Redis等资源进行监控。
- 资源过滤:右侧图表中将默认显示全部资源的所选指标的信息,可通过平台、区域、项目等等条件过滤用户所需的数据。
- 触发条件:设置在连续的时间周期内的指标的阈值。当在时间周期内资源的指标的平均值、最大值或最小值超过设定的阈值或未获取到指标的数据(No Data),则对资源进行告警。
- 消息静默期:设置告警消息发送的间隔,若一直处于告警状态,首次触发告警后,静默期后才会发送第二次告警信息。当告警恢复后,会收到告警恢复通知并解除告警。若数据再次触发告警,则会再次发送告警信息。
- 告警级别:自定义设置告警策略的级别,包括普通、重要、致命。
- 告警接收人:设置接收告警消息的接收人。
说明
- 管理后台下,可以选择所有接收人;
- 域管理后台下,可以选择所有加入到本域或属于本域的接收人;
- 项目视图下,只能选择当前登录用户。
- 通知渠道:设置接收人接收告警消息的通知渠道。当选择多个接收人时,通知渠道取接收人支持的通知渠道的交集。
- 告警机器人:选择接收告警消息的告警机器人。
- 所属范围:设置告警策略的所属范围,包括系统、域、项目。
- 单击列表上方 “新建” 按钮,创建告警策略。
修改告警策略
该功能用于修改告警策略。
注意
默认策略不允许修改监控指标等内容。- 在告警策略页面,单击告警策略右侧操作列 “修改” 按钮,进入修改告警策略页面。
- 修改相关参数,单击 “确定” 按钮,完成操作。
启用
该功能用于启用"禁用"状态的告警策略,禁用状态的告警策略不生效。
单个启用
- 在告警策略页面,单击"禁用"状态的告警策略右侧操作列 “更多” 按钮,选择下拉菜单 “启用” 菜单项,弹出操作确认对话框。
- 单击 “确定” 按钮,启用告警策略。
批量启用
- 在告警策略列表中选择一条或多条告警策略,单击列表上方 “批量操作” 按钮,选择下拉菜单 “启用” 菜单项,弹出操作确认对话框。
- 单击 “确定” 按钮,启用告警策略。
禁用
该功能用于禁用"启用"状态的告警策略,禁用状态的告警策略不生效。
单个禁用
- 在告警策略页面,单击"启用"状态的告警策略右侧操作列 “更多” 按钮,选择下拉菜单 “禁用” 菜单项,弹出操作确认对话框。
- 单击 “确定” 按钮,禁用告警策略。
批量禁用
- 在告警策略列表中选择一条或多条告警策略,单击列表上方 “批量操作” 按钮,选择下拉菜单 “禁用” 菜单项,弹出操作确认对话框。
- 单击 “确定” 按钮,禁用告警策略。
删除
该功能用于删除告警策略。
注意
默认策略不可删除。单个删除
- 在告警策略页面,单击告警策略右侧操作列 “更多” 按钮,选择下拉菜单 “删除” 菜单项,弹出操作确认对话框。
- 单击 “确定” 按钮,完成操作。
批量删除
- 在告警策略列表中选择一条或多条告警策略,单击列表上方 “批量操作” 按钮,选择下拉菜单 “删除” 菜单项,弹出操作确认对话框。
- 单击 “确定” 按钮,完成操作。
查看告警策略详情
该功能用于查看告警策略的详细信息。
- 在告警策略页面,单击告警策略名称项,进入告警策略详情页面。
- 详情页面顶部菜单项支持对告警策略进行管理操作。
- 查看基本信息:包括云上ID、ID、名称、状态、策略归属、启用状态、策略详情、告警级别、告警机器人、告警接收人、创建时间、更新时间、备注等。
查看告警记录
该功能用于查看触发告警的资源的详细信息。
- 在告警策略页面,单击告警策略名称项,进入告警策略详情页面。
- 单击“告警记录”页签,进入告警记录页面。
- 查看告警信息,单击资源数量可以查看具体发生告警的资源信息。
- 单击告警记录右侧操作列 “查看” 按钮,查看告警的具体信息等。
查看操作日志
该功能用于查看告警策略相关的操作日志。
- 在告警策略页面,单击告警策略名称项,进入告警策略详情页面。
- 单击“操作日志”页签,进入操作日志页面。
- 加载更多日志:列表默认显示20条操作日志信息,如需查看更多操作日志,请单击 “加载更多” 按钮,获取更多日志信息。
- 查看日志详情:单击操作日志右侧操作列 “查看” 按钮,查看日志的详情信息。支持复制详情内容。
- 查看指定时间段的日志:如需查看某个时间段的操作日志,在列表右上方的开始日期和结束日期中设置具体的日期,查询指定时间段的日志信息。
- 导出日志:目前仅支持导出本页显示的日志。单击右上角图标,在弹出的导出数据对话框中,设置导出数据列,单击 “确定” 按钮,导出日志。