作者
石恒(Shek),优维科技解决方案专家,资深售后服务专家。
概述
组件监控是智能监控的一环。目前常见的第三方开源组件都可通过EasyOps平台对组件的一些指标进行采集。
EasyOps平台的agent组件会定期获取组件的指标。对采集到的数据配置对应的告警策略和故障自愈策略,当发生告警后,会根据故障自愈策略选择自动化工具,实现故障自愈能力。从指标采集->产生告警->故障自愈,形成能力闭环。
组件监控
EasyOps平台组件监控主要包括一些常用的第三方开源组件,同时还支持用户自定义监控。在自定义监控中通过调用组件提供的监控管理接口,可对组件的指标进行采集,所有的提供了监控管理接口的组件都可以在平台上进行有效的监控。
目前平台组件监控覆盖范围如下(同时可在自定义监控中对提供了监控管理接口的其它组件进行监控):
监控效果如下所示:
这里以nginx为例,主要监控的指标包括:每秒丢弃连接数、活跃连接数、每秒请求数、请求状态(waiting、reading、writing)等。
1.1. 组件采集
通过设置相应的采集参数,保存该采集实例。EasyOps的agent组件会定期采集组件的常用指标。
1.1.1. 新增采集
a、在组件采集菜单选择需要采集的组件(这里以nginx为例)
b、在新增采集中,选择主机,输入参数:端口、状态url,以及是否使用内网ip。若组件已经以输入的参数运行,则点击立即测试,测试成功后即可保存。否则需要对组件配置进行修改。
1.1.2. 自动发现实例
自动发现实例会自动发现机器上看启的进程服务信息,可根据实际情况修改发现规则,勾选需要采集的实例,点击加入采集,测试成功后,即可保存。
1.1.3. 查看采集实例
组件采集保存后,在采集中心的组件采集下,可查看指定组件下的实例列表。点击指定的实例可查看该实例的总体信息,点击指标说明可查看该组件采集到的指标信息。
1.2. 组件监控
a、在组件监控中可查看所有的组件监控实例。并且可以把实例与应用进行关联,方便知道该组件与哪个应用关联。
b、点击组件监控的实例,可查看该实例的总体信息,并以dashboard展示。如图:
组件告警
配置好相应的告警策略,当出发该告警策略后,可在告警策略中查看该策略的告警,告警事件中可查看到所有的告警。
同时组件监控中也可查看监控实例的告警,如下图所示:
2.1. 告警策略配置
a、在告警策略中,设置中间件监控,选择需要设置告警的组件,可对组件进行告警控制。
b、配置告警策略,设置相应的告警指标、通知人及通知方式。配置完成后保存该告警策略。当触发告警时,能够进行短信、邮件实时告警等功能。
2.2. 告警事件
a、配置好告警策略后,点击组件监控中的实例,可查看该实例的告警列表以及告警分析。
故障自愈
故障自愈通过对事件来源进行分析,筛选符合触发条件的告警事件,然后执行设置的自愈动作,进行告警恢复的措施。可缩短故障处理时间,有效降低整体运营成本。如下图所示:
3.1. 新建自愈策略
点击新建自愈策略,填写自愈策略名称、选择事件来源、添加判断条件、选择自愈动作,然后点击保存该自愈策略。
3.2. 查看自愈策略详情
在故障自愈中点击自愈策略,可查看自愈策略的详情,以及该故障自愈执行的历史记录(包括触发时间、告警事件、耗时和执行结果),如下图所示: