【原创翻译】敢问路在何方？路在脚下--AIOps路线图（1）

julianchen · ‎07-23-2019

引言：本文通过早、中、后期九个步骤来给出AIOps所必要的最佳实践。

我在与客户交流AIOps的时候，他们时常觉得AIOps不够成熟，以至于无法实施各种分析。也有人认为：AIOps的各项能力是线性发展的，他们必须事先评估和补足当前在“处理大量的事件和警报，以及统一化分散监控”方面的能力成熟度，才能考虑切入AIOps。
我非常理解他们的关注点。毕竟数十年来，分析师和供应商灌输了僵化的ITIL思想和严格的流程，使我们大家都不愿为那些长期存在的问题，找到替代的解决方案。诚然，AIOps并未直接受到ITIL的约束，并能够被分步骤地予以实施和改进，但是业界至今仍缺乏实际的行动指导。
AIOps的快速回顾
Gartner判断的IT新兴市场趋势为：传统的IT流程与工具已不再适合处理那些由现代数字业务所带来的挑战（请参见：https://www.bmc.com/blogs/categories/aiops/）。这不但与数据的传输速度、种类、以及体量有关，还与从线下的历史分析转为线上的实时分析有关。
Gartner对于这种趋势所给出的答案是：AIOps。它整合了IT服务管理（ITSM）、IT运营管理（ITOM）和数据层面上的IT自动化。它使得数据能够驻留在支持实时应用分析和深度历史查询的大数据平台之中。这些分析可以由那些支持对数据流进行无人值守式处理的机器学习来实现。
因此AIOps的基本思想是：传统的IT工具仍然发挥效用，例如服务管理仍然处理各种请求和事件；而性能管理仍然监视各种指标、事件和日志。但是它们的数据被关联、并通过机器学习的分析,从而实现更好、更快的决策和任务过程的自动化。
最终状态
那么AIOps的最终状态是：要保证数据能够顺畅地从多个数据源流入一个大的数据平台中。该平台能够对来自其他来源和类型的数据予以吸收、分析和后期处理；通过机器学习来管理和修改分析算法。它能够自动触发工作流，其输出结果会作为二次数据源被再次反馈到系统之中，使得系统实现自适应，并且通过响应各种数据卷、数据类型和数据源的变化，进而自动调整和按需通知相应的管理员。
基于上述概念，我将首先提出一个必要且可行的“路线图”，然后详细阐述在AIOps实施过程中可采用具体步骤，以构建出一套AIOps的最佳实践。
该AIOps路线图共分为9步，他们分别是：
1.识别当前用例
2.就系统记录达成一致
3.确定成功的标准、并着手跟踪它们
4.评估当前和未来状态的数据模型
5.分析现有工作流
6.开始自动化实施
7.开发新的分析工作流
8.使组织适应新的技能集
9.定制各种分析技术
早期阶段：识别当前用例
鉴于各种变数情况，您最好先从自己所熟悉的方面开始。对于大多数用户来说，他们当前的各种用例方案无法应对那些新技术的发展。因此，您可以列举出自己当前正在处理、或准备解决的用例列表。如下给出的切入点可方便您发现出当前的“目标”状态：

· 列出如何实现各种预期的结果

· 评估特定用例的优先级

· 突出当前能力、工具、技能或过程中与目标所存在的差距

同时，这也是制定一个成功AIOps战略的良好开端。通过强调这种“开启”方式，我们会发现许多新的用例。各种新的预期结果也会涌现出来，而它们的优先级将随着您的业务和技术的变化而得以相应地调整。可见新的AIOps方法会给我们带来各种新的可能性与挑战。
所以说，重要的是要在一开始就能找到从当前您所处的位置前往目标的桥梁。只有找到了您面临的问题和需要改变的地方，才能选择正确的道路去实现，反之则注定失败。
早期阶段：评估数据的自由度
AIOps的首要基本元素是：来自不同工具的数据流能够自由地汇聚到大数据存储区中。因此，您必须评估自己IT系统中获取到的各类数据的易用性和频率。我们理想的最优模型为：实时地发送数据流。
然而，目前很少有IT监控或服务台（service desk）工具能够支持向外流出数据。当然，它们迭代出的最新版本应该能以REST API方式提供编程上的交互与支持。但是，如果使用的是基于诸如Oracle或SQL之类的传统关系数据库，由于它们在最初设计时并非为了支持数据的连续流出，那么即使具有可编程接口，也会对生产系统的性能产生巨大的影响，因此，我们可以断言它们并不能支持数据流。
可见，在制定AIOps策略的早期，重要的步骤之一就是要明确自己系统对于数据流的支持能力，并为如下问题给出相应的答案：

· 我如何能从当前的IT工具中获取数据？

· 我能得到什么样的数据？

· 我能够通过编程的方式来实现吗？

· 我获取这些数据的频率是怎样的？

通过发现这些约束条件，您可以考虑去更改当前的数据整合策略（例如，将批处理上传模式转化为流式），甚至考虑将现有的IT工具替换为那些支持实时数据流的软件。
早期阶段：就系统记录达成一致
AIOps的第二个基本要素是：组织的协同和沟通。我建议IT运营和IT服务管理人员协作审查各种数据的需求，同时就各自的角色和责任达成共识。在此，我们主要着眼于基于共享数据上的协同决策。
这里所说的数据并不是那些已经流入AIOps大数据存储区，以待分析的数据。而是IT人员可以从自己环境中获悉的、用于采取行动和做出决断、并最终能够跟踪效果的那些数据。因此，整个团队需要针对数据达成如下共识：

· 为了突破系统当前限制所需要的最小数据集

· 数据所在的位置

· 团队所能共享的联合视图与访问权限

根据传统的ITIL模型，在许多成熟的组织中，满足上述条件的系统是他们的服务台。各种服务请求、事件和变更性的数据都被存放于此。但是当DevOps团队开始使用Jira（译者注：一种项目与事务跟踪的工具），来记录缺陷和功能性的改进时，该模型会受到了一定的挑战。因为在使用APM（译者注：一种监控和管理应用软件性能和可用性的工具）时，IT运营与安全团队是无法通过各种本地或远程事件，来捕获或识别多种威胁的。
因此准备实施AIOps就意味着：您需要在应用程序、服务或业务的价值链中确定所有有效的结果性指标，并制定出一个方案来汇集这些数据。您可以在大数据平台上构建各种“仪表板”，来筛选出具有特定用途的大数据集，即：对不同数据源产生不同的视图。当然，您可以从“在当前环境中选择数据子集，并将其反馈（如Jira工单和APM事件等）到已建成的记录系统中”开始。
早期阶段：制定成功标准并开始跟踪它们
任何成功的业务与IT管理都起源于了解各种关键性能指标（KPI）和度量标准。因此，具有可操作性的方面包括如下：

· 了解对哪些方面进行测量

· 实现一致且完备的措施

· 定期报告或提供性能衡量的可视化

· 能够对责任方问责

一般大多数IT工具都自带有几种衡量工具和模板，它们往往能够为您提供各种参数。而我们都知道：数量是无法真正反映背后因果关系的。如果我们只是简单地将它们放到报表上的话，则往往并不能给企业带来业务上的提升。

one-time · ‎07-28-2019

感谢楼主分享，在此把此篇相关链接贴出来，方便大家阅读
【原创翻译】敢问路在何方？路在脚下--AIOps路线图（2）