告警策略

告警策略即针对监控指标设置阈值,当资源的指标超过阈值时,将会立即通过通知渠道向用户发送告警消息,使用户可以快速响应解决问题。

告警策略即针对监控指标设置阈值,当资源的指标超过阈值时,将会立即通过通知渠道向用户发送告警消息,使用户可以快速响应解决问题。

目前系统内置以下默认策略:

  • process.zombies:检测节点上僵尸进程大于10时告警。
  • process.total:检测节点上进程数大于20000时告警。
  • system.uptime:检测宿主机离线后告警。
  • mem.available:检测宿主机的可用内存不足时告警。
  • disk.inodes_free/inodes_total:检测磁盘inode空闲率过低时告警。
  • disk.free/total:检测磁盘空闲率过低时告警。
  • cpu.usage_active:检测宿主机CPU利用率过高时告警。
  • host_raid.adapter:检测整列磁盘状态异常时告警。
    • 默认不开启,需要手动执行kubectl edit oc -n onecloud default, 将enableRaidPlugin 改成 true,才会使用megacli获取状态;
    • 注意:有一定概率会导致部分型号机器 raid 驱动报错,导致系统卡住,请谨慎开启;
  • cloudaccount_balance.balance:检测云账号余额不足时告警。

入口:在云管平台单击左上角导航菜单,在弹出的左侧菜单栏中单击 “监控/监控/告警策略” 菜单项,进入告警策略页面。

新建告警策略

该功能用于创建告警策略。

  1. 在告警策略页面,单击列表上方 “新建” 按钮,进入新建告警策略页面。
  2. 设置以下参数:
    • 所属范围:设置告警策略的所属范围,包括系统、域、项目。
      • 系统:当选择系统时,只有系统管理员在管理后台可见。仅管理后台视图可见。
      • 域:当选择域时,需要选择对应域,域管理后台则默认为当前域。
      • 项目:当选择项目时,需要选择对应项目。项目视图下默认为当前项目。
    • 名称:设置告警策略的名称。
    • 监控指标:支持通过资源类型、监控指标、指标项等设置具体的监控指标,支持对平台纳管的虚拟机、宿主机、云账号、存储桶、RDS、Redis等资源进行监控。
    • 资源过滤:右侧图表中将默认显示全部资源的所选指标的信息,可通过平台、区域、项目等等条件过滤用户所需的数据。
    • 触发条件:设置在连续的时间周期内的指标的阈值。当在时间周期内资源的指标的平均值、最大值或最小值超过设定的阈值或未获取到指标的数据(No Data),则对资源进行告警。
    • 消息静默期:设置告警消息发送的间隔,若一直处于告警状态,首次触发告警后,静默期后才会发送第二次告警信息。当告警恢复后,会收到告警恢复通知并解除告警。若数据再次触发告警,则会再次发送告警信息。
    • 告警级别:自定义设置告警策略的级别,包括普通、重要、致命。
    • 告警接收人:设置接收告警消息的接收人。
    • 通知渠道:设置接收人接收告警消息的通知渠道。当选择多个接收人时,通知渠道取接收人支持的通知渠道的交集。
    • 告警机器人:选择接收告警消息的告警机器人。
  3. 单击列表上方 “新建” 按钮,创建告警策略。

修改告警策略

该功能用于修改告警策略。

  1. 在告警策略页面,单击告警策略右侧操作列 “修改” 按钮,进入修改告警策略页面。
  2. 修改相关参数,单击 “确定” 按钮,完成操作。

启用

该功能用于启用"禁用"状态的告警策略,禁用状态的告警策略不生效。

单个启用

  1. 在告警策略页面,单击"禁用"状态的告警策略右侧操作列 “更多” 按钮,选择下拉菜单 “启用” 菜单项,弹出操作确认对话框。
  2. 单击 “确定” 按钮,启用告警策略。

批量启用

  1. 在告警策略列表中选择一条或多条告警策略,单击列表上方 “批量操作” 按钮,选择下拉菜单 “启用” 菜单项,弹出操作确认对话框。
  2. 单击 “确定” 按钮,启用告警策略。

禁用

该功能用于禁用"启用"状态的告警策略,禁用状态的告警策略不生效。

单个禁用

  1. 在告警策略页面,单击"启用"状态的告警策略右侧操作列 “更多” 按钮,选择下拉菜单 “禁用” 菜单项,弹出操作确认对话框。
  2. 单击 “确定” 按钮,禁用告警策略。

批量禁用

  1. 在告警策略列表中选择一条或多条告警策略,单击列表上方 “批量操作” 按钮,选择下拉菜单 “禁用” 菜单项,弹出操作确认对话框。
  2. 单击 “确定” 按钮,禁用告警策略。

删除

该功能用于删除告警策略。

单个删除

  1. 在告警策略页面,单击告警策略右侧操作列 “更多” 按钮,选择下拉菜单 “删除” 菜单项,弹出操作确认对话框。
  2. 单击 “确定” 按钮,完成操作。

批量删除

  1. 在告警策略列表中选择一条或多条告警策略,单击列表上方 “批量操作” 按钮,选择下拉菜单 “删除” 菜单项,弹出操作确认对话框。
  2. 单击 “确定” 按钮,完成操作。

查看告警策略详情

该功能用于查看告警策略的详细信息。

  1. 在告警策略页面,单击告警策略名称项,进入告警策略详情页面。
  2. 详情页面顶部菜单项支持对告警策略进行管理操作。
  3. 查看基本信息:包括云上ID、ID、名称、状态、策略归属、启用状态、策略详情、告警级别、告警机器人、告警接收人、创建时间、更新时间、备注等。

查看告警记录

该功能用于查看触发告警的资源的详细信息。

  1. 在告警策略页面,单击告警策略名称项,进入告警策略详情页面。
  2. 单击“告警记录”页签,进入告警记录页面。
  3. 查看告警信息,单击资源数量可以查看具体发生告警的资源信息。
  4. 单击告警记录右侧操作列 “查看” 按钮,查看告警的具体信息等。

查看操作日志

该功能用于查看告警策略相关的操作日志。

  1. 在告警策略页面,单击告警策略名称项,进入告警策略详情页面。
  2. 单击“操作日志”页签,进入操作日志页面。
    • 加载更多日志:列表默认显示20条操作日志信息,如需查看更多操作日志,请单击 “加载更多” 按钮,获取更多日志信息。
    • 查看日志详情:单击操作日志右侧操作列 “查看” 按钮,查看日志的详情信息。支持复制详情内容。
    • 查看指定时间段的日志:如需查看某个时间段的操作日志,在列表右上方的开始日期和结束日期中设置具体的日期,查询指定时间段的日志信息。
    • 导出日志:目前仅支持导出本页显示的日志。单击右上角图标,在弹出的导出数据对话框中,设置导出数据列,单击 “确定” 按钮,导出日志。