作者:Neeke Gao,云智慧企业效能高级总监
前言
传统运维管理的人工及被动响应方式,已经无法支撑数字化业务灵活、快速的发展,要靠智能运维(AIOps)能力来获得数据分析和决策支持。而从传统ITOM到智能运维的演进过程中,需要一系列关键技术的支撑。本文试图就智能运维落地过程所需关键技术点进行概要说明。
图片来源:Gartner
从智能运维的平台架构来看,可抽象为几个层面:数据采集层、数据汇聚层、数据存储层、建模应用层、分析学习层、应用反馈层。这是一个非常理想的层次划分,但在智能运维实践落地过程中,却存在着诸多坑壑,需要我们正视和解决。
数据采集与传输
运维数据的产生和采集来自于ITOM监控工具集,通常包括:基础服务可用性和性能监控、网络性能监测与诊断、中间件服务可用性和性能监控、应用性能管理、系统运行日志管理、IT资产管理、IT服务支持管理等。
这些基础监控工具采集的运行状态数据和运行性能数据,需要具备足够存量的数据和数据增量;以及足够的数据维度覆盖度(时间维度、空间维度、系统级维度、应用级维度等)才能进行建模利用。与此同时,运维数据的时效性强、多维数据源割裂采集的现状、以及如何在后续建模过程中进行多维数据的高效关联,因此智能运维平台对数据采集层提出以下技术要求:
- 跨平台、跨语言栈、高兼容性的多模式统一采集质量标准;
- 兼容多种非容器化与容器化运行环境;
- 一致的维度关联属性;
- 在资源占用、数据压缩比、时效性之间可权衡、可调节的传送机制;
- 可靠的熔断和止损机制;
- 易于部署和维护、统一的配置和任务管理。