前言
近两年国内频繁提及“数字化”,其中着重提到要发展数字经济,推进数字产业化和产业数字化,加强数字社会、数字政府建设,提升公共服务、社会治理等数字化智能化水平。随着数字化浪潮的来袭,数字化运维也成为IT系统建设中必不可少的重要环节。
数字化的系统建设是第一步且一次性的,而运维则是全年不停,7*24小时,每时每刻都不能缺少的。就像行业中流传的那句经典表述:“三分建设、七分运维”。当相对短暂的系统建设完成后,就进入到了漫长的运维与运营阶段——也就是“建转运”的发生时。
目前中国数字化在进展到“建转运”时,各行业发展的状态相对不均衡,但随着宏观政策层面的指导,以及企业自身的业务发展和技术的推动,可以预见,数字化运维的重要意义以及运维的价值将在不断的实践中愈发凸显。
然而,随着区块链、虚拟化、容器、IoT等新技术的应用,IT规模和复杂度呈指数增长,现如今的智能运维能否满足企业对运维的需求呢?如果想要回答这个问题,不妨先来看一下智能运维发展到了何种程度。
认知不断升级的“智能运维”
智能运维的概念最早由Gartner在2016年提出,从这时开始,智能运维进入了概念启蒙阶段。到2018年~2019年期间,市场普遍认为智能运维主要依赖算法,各大厂商也在积极探索并在小范围内应用。到了2020年,市场渐渐回归理性。随着人们对智能运维认知程度的加深,行业内达成了更加面向现实的共识:智能运维要以数据为基础、以场景为导向、以算法为支撑。
也就是说,智能运维一定来源于非常好的数据基础,并应该根据用户的应用场景和需求,将适合的算法和模式匹配到用户的场景中。工程化算法要拟合数据,根据数据和场景需求选择或研发合适的算法。只有具备上述三个条件,才能真正形成一个真正工程化落地的智能运维。因此,对于智能运维服务商来说,既要有非常好的算法能力,又要对用户的应用场景有非常好的理解力,还要有工程化落地的能力。这几种能力都具备,才能帮用户解决问题。
对于云智慧来说,“以数据为基础、以场景为导向、以算法为支撑”解决的是智能运维方法论的“战术”问题,而要为用户真正做好智能运维,还要解决“战略”问题。
过去,IT运维的关注点在于底层设备的高可用和稳定性,而如今,用户的关注点更集中到业务层面,衡量IT对业务影响程度的指标变成了MTTR(Mean Time to Recovery,平均故障修复时间),这就需要智能运维平台能够从业务的视角,实现覆盖所有业务链路的端到端全局监控、管理和分析,并与业务指标进行关联。IT系统要以保障业务连续性为目标,同时要为更高层面的业务决策赋能。这也是云智慧对运维最核心和本质的理解——一切源于业务而又归于业务。所以说,智能业务运维是IT运维与互联网深度融合的产物,以用户体验为核心,以业务价值为导向,是运维管理在云计算、大数据技术推动下的必然结果。
站在业务视角看智能运维痛点
当我们站在业务管理的视角重新审视智能业务运维的建设时,我们发现,随着IT和互联网的发展,上线的业务系统逐渐增多,核心业务越来越依赖IT系统的稳定运行,关键应用的不间断运行成为企业保持高效运行的基石,因此,智能业务运维要以“实现业务连续性”为最高目标,以可用性保障为重点,整合监控体系、配置管理、服务台、服务管理系统等模块的数据和业务流程,落实可用性管理、安全合规管理、连续性管理和应急管理。
其次,运维工作涉及到整个运维管理的全生命周期与全闭环,而且每个场景之间从业务流程与数据角度是高度统一融合的,这种情况就客观上要求智能业务运维能够为每一个潜在的人工或低效环节赋能。因此,智能运维需要涵盖运维工作在规划准备、监控、事件管理、日志分析与服务管理的方方面面,而且操作上要更加简单易用,从而帮助运维人员更精准和快速地排查与分析问题,更加高效地处理运维过程中面临的问题。
此外,智能运维的技术关键不是算法,因为用户的应用场景千差万别,需求也各不相同。基于明确的智能运维工程化落地场景,快速搭建人工智能工程化技术方案,才是算法工程化的最大挑战。因此,要将智能运维的算法平台化,通过算法平台来满足复杂的检测、预测与分析类智能研发需求,覆盖从业务场景分析、数据获取到模型部署、性能监控的全流程,打通算法开发、训练、发布各环节,让平台具备优秀的算法扩展能力,满足更多产品对算法服务的调用,支撑更多智能运维场景。
新一代智能业务运维平台问世
鉴于上述用户在运维过程中面临的痛点和难点,云智慧站在用户视角,遵循“以数据为基础、以算法为支撑、以场景为导向”的核心理念推出了新一代智能业务运维平台。该平台充分考虑到可落地的运维场景,覆盖整个运维管理的全生命周期,帮助用户构建从技术到业务的完整监控体系,在保障业务连续性的同时赋予业务快速迭代和创新能力,带来业务与IT管理效能的提升。
该平台由立体化监控与管理工具集、数字化运维数据中台和数据价值应用与管理产品集组成。其中,立体化监控与管理工具集从基础设施、应用性能到用户体验,涵盖从业务到基础设施的各个监控层面,帮助用户构建从技术到业务的完整监控体系。
数字化运维数据中台通过打通后台IT支撑系统与前台业务应用之间的信息断层和管理断层,向上提供数据与能力支撑,在快速响应前台的变化和创新需求的同时,向下保障系统稳定可靠运行。
• 采控平台 : 一站式提供各类采集任务的配置与自动化部署,提供针对各类日志、IT基础设备等数据的采集、清洗、监控、告警等功能,同时对采集任务和采集行为进行统一规范的调度和管控。
• 专业运维数据库: 提供高性能的一站式运维数据服务,实时高效地接入用户环境中的IT数据和业务数据,进行低成本存储、高效计算、关联分析建模,并通过接口的方式利用标准查询语言提供各类数据检索服务。
• 算法中心: 提供算法管理、算法配置等功能,支持算法接入,智能化的数据分析、模型实验训练与调优,支持算法泛型的发布与应用,具备高可用、高并发的性能,为上层业务以及产品提供强大的算法能力。
• 配置中心: 全面管理企业IT运维的元数据并确保数据的准确性和唯一性,以可配置、可维护的数据支撑力量促进运维监控、服务管理、运维自动化以及运营分析相关的数据消费场景落地实施。
• 指标管理体系 : 分层构建与管理来自客户离散监控系统的数据,针对不同对象提供指标、指标阈值规则与业务健康度的统一定义,并利用智能算法实现异常指标的问题排查与定位,为管理决策提供数据支撑。
此外,数据价值应用与管理产品集根据用户的不同业务场景和领域,提供一系列运维数据价值挖掘与分析能力。用户可在基于指标体系的监控中心对运维大数据进行统一归纳、梳理,根据业务系统架构进行层次化建模、分析,并进行集中展示;通过事件中心接入来自于各种监控系统的告警消息,支持事件的通知、响应、处置、跟踪以及多维分析,实现面向告警事件全生命周期的闭环管控。
新一代智能业务运维平台具备以下六大特点:
• 全栈解决方案: 采用面向运维监控、服务管理、可视化的all in one技术底座,提供智能业务运维全栈解决方案。
• 国产化适配: 适配国产的主流CPU、操作系统、数据库、中间件等,以支持国家信创产业的发展,构建安全、自主、可控的信息技术应用创新体系。
• 组件化: 提供一站式、可配置、组件化的开发能力,可快速搭建复杂的分析与管理系统。
• 灵活,可扩展: 提供面向不同行业、数百个应用场景的模版,可快速交付项目进行定制开发,支撑用户创新应用。
• 一站式: 提供从数据采控、存储、处理、建模、智能分析到数据应用的一站式运维数据服务,降低数据治理的总成本。
• 自监控: 具备完善的自监控和自运维能力,保证平台稳定可靠运行。
凭借多年来在智能运维领域的深耕与实践,云智慧的智能业务运维平台已帮助各行业众多用户构建和实施数字化运维。新一代智能业务运维平台也将更加聚焦用户业务,具备更高与更全面的实施标准,用更加精细化与敏捷化的解决方案攻破用户在运维过程中面临的未知新老问题。
开源福利
云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。
点击下方地址链接,欢迎大家给 FlyFish 点赞送 Star。参与组件开发,更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-...
Gitee 地址:https://gitee.com/CloudWise/f...
超级体验官活动: http://bbs.aiops.cloudwise.co...
万元现金活动: http://bbs.aiops.cloudwise.co...
微信扫描识别下方二维码,备注【飞鱼】加入AIOps社区飞鱼开发者交流群,与 FlyFish 项目 PMC 面对面交流~