建设背景
S电气是世界500强企业之一,作为全球能效管理领域的领导者,为100多个国家的能源及基础设施、工业、数据中心及网络、楼宇和住宅市场提供整体解决方案,在住宅应用领域也拥有强大的市场能力。
随着近年来S电气的快速发展,其IT环境异常复杂且体量大,IT管理复杂度与日俱增,对企业内部提出了运维能力的更高要求,因而急需通过自动化运维的建设,提高企业运维效率,进而加快企业IT变化适应能力、风险应对能力、业务运营能力、事件应对能力等。
客户痛点
缺乏实时性:现有CMDB主要依靠手工维护,难以实现配置信息自动采集和入库,提供API数量有限,难以跟企业系统集成并形成数据的闭环;
缺乏全面性:基础资源数据分散,运维部门缺乏统一的运维平台进行管理,组件所依赖资源的信息不完整,组件与主机的维护脱节,关联关系未得到有效梳理。
缺乏准确性:S电气系统内各组件之间的访问关系不明确,组件所部署的主机信息和环境信息查询困难。因此在业务端发生故障时,运维人员难以第一时间对故障的影响面进行分析,业务系统的稳定运行得不到保障。
缺乏实时性:80+应用系统,技术环境多样,运维人员不统一,接口复杂,导致数据有多个入口,数据的一致性得不到保障,Excel整理的数据无法提供通用出口,数据的消费困难。
建设目标
运维自动化项目建设是一个全面系统工程,也是不断优化逐步完善的过程。为了解决目前S电气遇到的难题,优维以旗下EasyOps端到端DevOps运维解决方案,构建以应用为中心的CMDB为基石,通过自动化运维技术降低运维成本和难度,提高运维与交付效率。具体实施如下:
应用CMDB:以业务服务为出发点,建立统一的配置管理CMDB模型,通过平台能力建设,为现阶段所面临的问题提供解决方案。
自动化运维:完成平台建设,实现配置数据的自动发现、对接和集中管理。依托于原子化作业和高度可定制服务编排平台,面向企业运维部门提供平台+场景能力,满足企业自动化运维需求。
应用监控:搭建以CMDB数据为核心,服务于业务稳定性的监控可视化平台,解决现有的监控告警风险,基于应用的的监控收敛和评估。
建设亮点
一、应用CMDB
应用术语统一
*图:以面向企业管理场景和消费现状,对CMDB的核心模型进行微调并达成共识。
应用生命周期识别
帮助客户识别重要配置属性,定义数据采集点与采集方式。
*以某金融客户建设过程为例,对应用的生命周期管理主要集中于维护运营环节。
应用/基础资源配置信息采集
*外围系统对接
*可视化CMDB模型视图
轻松掌握目前CMDB资源对象及其相互关系,了解资源对象建模情况,并支持以拓扑的形式查看整个应用系统的全局情况。
• 支持建立多个模型视图,以不同场景了解资源对象的关系
• 支持搜索视图中的模型,并跳转查看模型设置和实例列表
• 支持根据模型关系自动连线(可屏蔽),方便直观了解模型间关系
*CMDB模型实例数据统计
目前CMDB使用了55个模型,5500多条数据,不包括服务节点和用户等。
应用信息梳理和画像配置
*CMDB信息全文检索
支持全文检索,便于快速便捷查询资源信息,查询支持命中关联信息,并以分类形式展现。
*CMDB关联关系查询
关联关系查询,支持CI项间的360°查询分析,三步实现组件与组件之间的关联影响查询,可用于故障关联分析,并支持查询结果的导出。
*图:查询主机所属组件
*变更影响分析
变更影响分析是变更控制的重要环节之一,通过对源数据的关系链路的分析,得出受其影响的数据,并且进行汇总。为用户提供有效的信息和数据详情。同时,提供可基于不同的数据关注点及数据模型单元查找受影响数据,展示数据与数据之间影响的走向信息。
二、自动化运维
原子化作业平台
优维提供EasyOps现有的原子作业库,提供需求导入能力、后续原子作业快速获取通道等。
*共新建和导入11类,350多个工具脚本。
自动化运维场景—补丁管理
优维简化了补丁管理使用流程,管理效率幅度提升50倍。
应用维度-角色:应用负责人-手动补丁——选择应用-选择主机-》发送通知-》 屏蔽应用告警-》重启主机-》启动应用-》查看应用拨测状态-》删除应用屏蔽策略-》发送结果通知
*图片为手动补丁管理辅助动作
*主机维度-角色:主机运维负责人-自动补丁——检查excel文件主机列表-》-》发送通知-》屏蔽应用告警-》重启主机-》启动应用-》查看应用拨测状态-》删除应用屏蔽策略-》发送结果通知
VM模版管理
结合terrform的能力根据特定规则创建主机,更新补丁,然后使用VMware API将主机转化模板。
主机上线
实现批量主机初始化功能,通过模版创建主机,文件分发(安装jdk、tomcat等),添加帐号,输出结果,资源创建效率10倍。
组件上/下线变更
实现组件的上下线变更功能,通过EasyOps的持续交付能力,批量部署应用程序到应用服务器;包含版本管理、版本控制、版本可追溯、环境管理等。
三、应用监控
主机监控:实现对所有主机的监控
技术组件监控:目前已经监控到组件7个类型,按类型完成对nginx,Tomcat, IIS,mysql,memcached,sqlserver,oracle的监控。
端口监控:通过平台部署的应用,已经进行了端口的监控。
应用子系统监控:应用子系统的服务拨测
告警策略:对CPU、内存、端口、磁盘使用率的策略的短信配置。
Dashboard:按业务进行分类,对业务下的共计如下:正常主机数量、异常主机数量、应用健康指数倒序排名、告警趋势、最新告警、CPU利用率/主机流量/主机IO使用率的TOP5;中间件统计、数据库统计。
*应用子系统巡检Dashboard
*应用子系统巡检Dashboard
建设价值
在本次S电气智慧工厂建设项目中,优维助力其完成了从“运维过程导向至运维场景导向”的转变,成功上线了优维研发的EasyOps平台,取得了以下收益:
1、提高运维效率:通过实现日常运维任务的自动化,缩短操作时间、减少操作失误,使得运维人员可以从简单重复的任务中解放出来,进行规则制定、任务设计、系统优化等更有价值的工作;
2、提高系统安全性:主机监控、技术组件监控、端口监控、告警策略等使得S电气已有的安全和配置规范能够有效实施,切实保障安全生产;
3、实现特定使用场景的标准化、自动化:如应用流水线、自动化场景等,大幅度提升工作效率。
4、助力企业IT能力升级:运维转型实现运维价值,支持国际化版本,提升变化适应能力、业务运营能力、事件应对能力等。
后续规划
针对本次优维实施的项目,S电气对优维团队专业性、产品成熟性、项目进度和项目成果等多方面给予了高度的认可。未来,优维将持续助力其实现数字化转型之路。部分计划如下:
CMDB:CI生命周期和流程规范建设, 数据治理,数据一致性。
持续交付:发布标准化的推广,与CI集成构建应用发布流水线,提升应用发布效率。
智能监控:联动cmdb消费场景、业务应用智能监控、告警影响分析、故障自愈。
运维赋能:完善运维管理知识的积累和沉淀,达到运维管理经验的共享和传递,在运维工作中合理消费以及各类知识的有效积累和积极推广。