人工智能技术在IT运维领域的应用不断深入,由ITOM逐渐向ITSM方向发展,而Gartner提出的AITSM恰恰是人工智能与IT服务管理的融合点,在改进服务管理实践和推动行业创新方面具有巨大潜力。
本文论述了IT服务管理领域的现状及其面临的问题,云智慧使用AITSM相关策略和方法体系塑造新一代ITSM的实践,以及AITSM的典型场景、关键技术和用户价值。
新一代IT服务管理必然是AI使能的
传统IT管理以技术为向导,是孤立的、分散的、被动的、救火式的,IT与业务彼此割裂,IT投入成本和效益往往无法保证。而IT的精细化管理要求企业实现IT与业务的有效融合,IT管理模式必然会转变为面向服务价值、高效协作、可预防、 自动化 (减少人工)、智能化的新型IT服务管理模式。
【IT架构复杂度越来越高,来源Gartner】
目前,ITSM在国内外都存在着发展停滞不前的状况。导致这种状况的除了顶层的模型、标准和理念之外,技术变革的因素也不能忽视,业务系统越来越复杂,IT架构向容器化、云化的方向发展,数据规模和复杂度与十年前相比是指数级变化的。
以往通过人工利用流程和工具解决问题的方法逐渐失效,改变的途径只有一个:以数据为基础,利用人工智能技术解决IT服务管理问题。 ITSM工具向AI方向演进成为必然。
AITSM的概念和意义
AITSM是Gartner提出的面向IT服务管理领域的新概念,是指在 ITSM 工具和实践中综合应用人工智能、 自动化 和大数据技术,以提高运维人员的整体效率和减少错误。
随着企业对IT需求的增加,利用人工智能和大数据实现自动化和主动管理,将人和大型机器产生的结构化、非结构化数据集输入到工具中,优化ITSM实践和数据处理,对于具有流程优化和数据处理实践需求的IT管理部门尤为重要。利用各种数据提供事件响应和问题处理流程的智能建议,实现可重复操作和执行任务的自动化能力是AITSM的两个基本特征。
AITSM体系及应用场景
以综合利用大数据、人工智能和自动化技术为典型特征的AITSM对IT服务管理的重塑将是全方位覆盖的。这种全面性体现在最新的ITIL4的各个实践中,也体现在新一代ITSM产品的系统构建中,最终都会变成软件的功能,落地于一个个实际用户场景,最终实现IT管理效率提升的目标。
【AITSM对ITSM的赋能将是全方位覆盖的】
- 智能的虚拟服务助理
【 AITSM中的智能服务助理】
智能的虚拟服务助理(VSA:Virtual Service Assistant,或Virtual Support Agent)是一种会话式的代理业务应用程序,它提供信息、常见问题的答案和执行事务,以便在IT服务台的IT服务管理场景中提供IT支持和协助。
面向IT服务管理的实践,基于即时通讯(IM)前端的智能服务助理,应该具备以下能力:为终端用户提供关于 QA 问答、工单辅助、监控辅助、巡检辅助、服务请求以及任务脚本的智能与自助服务,促进用户和IT服务人员的扁平化协作,提升沟通效率、降低人力成本。
- 智能决策大脑
在IT服务管理的很多实践中,一个决定的产生往往是多种因素综合考虑的折中结果,单纯依靠个人经验,其速度和准确性经常很难保证。智能决策大脑的核心是将人的知识(经验、技术等)转化为数字化知识,把依赖专家转变为以数据为核心,依托算法与机器学习的手段。
智能决策大脑作为新一代ITSM的"神经中枢",服务于IT服务管理组织中需要决策的各级人员,具备实时、闭环、自动进化、可自动识别问题、全局优化等特征,充分展现了数据汇聚和知识融合的价值,提高了用户在工作过程中各种决策的效率和质量。
- 知识工程
知识管理(Knowledge Management)是ITIL 中非常经典的一个实践(ITIL V3中称为流程),在新一代的ITIL4和ITSM工具中,知识管理的边界已经到达了知识工程范畴。
【知识管理、知识工程和人工智能】
AITSM的所有实践必须利用知识工程的技术手段来进行构建或优化,包括对知识的关注将推动数据的收集,用于自动化、服务设计、测试、预测分析、自动恢复、自助服务和其他服务管理实践等,基于AI的知识工程实现方法可提高效率、降低成本、消除错误/浪费以及提高整体价值。
- 面向预测和分析的监控与事件管理
监控与事件管理(Monitoring & Event Management)是一个比较特殊的实践,ITIL对此进行了严格和标准化的定义。但是在落地的产品中,会将之划分到ITOM领域作为独立产品,如云智慧的数字化运维事件管理产品(DOEM)。
监控和事件管理的目标是对事件的产生、通知与处置进行更加规范的管理,而难点是对于IT复杂度高的系统,事件繁多、数据量大、会有告警风暴的影响,如果管理手段松散,则会存在巨大风险。
利用AI赋能的智能事件管理将会很好的解决这些痛点,依托大数据技术和机器学习算法,对来自于各种监控系统的告警消息与数据指标进行统一接入与处理,然后进行告警事件的智能过滤、通知、响应、处置、定级、跟踪以及多维分析,从而实现事件的智能告警收敛、异常检测、根因分析、智能预测和全生命周期的统一管控。
【监控和事件管理中的智能故障预测】
AITSM落地的关键技术
AITSM的很多场景需要人工智能、机器学习和大数据技术的支撑,实现问题的推荐和自动化处置,历史变更和故障数据的智能分析,结合CMDB对相似变更进行故障预测等等,其中涉及的关键技术包括:
- 自然语言处理( NLP ): IT系统中存在大量文本数据,利用自然语言处理,通过预训练模型,结合IT知识库,构建IT词向量模型,对工单的实体进行抽取,使用文本纠错将工单进行更正;
- 知识图谱 ( Knowledge Graph ): 运维知识图谱不但要获取实体和实体间的关系构成,还要将事件和各种配置服务关系有效整合。通过知识融合将不同数据源整合到一个完整的图谱中,帮助运维人员实现知识积累和沉淀,以及快速故障排查和故障预测;
- 流式大数据处理技术: 大部分的运维数据都是流式数据,针对流式数据需要构建相应的专业运维数据库,提供统一的、简单易用的数据采集、ETL、机器学习流程、建模分析等功能,还需要具备数据的安全、可扩展、高可用以及环境监控运维等基础能力。