人工智能
基础设施和网络问题必须以迅雷不及掩耳的速度得到解决;最理想的情况是在最终用户或客户甚至不知道有问题之前。越来越多的经济和社会领域的数字化加速,使事件管理变得更加紧迫和相关。
然而,即使现代应用程序更能响应客户的需求,它们也需要快速部署更新,这会给基础设施的可靠性带来压力,引发性能问题,甚至导致数字服务中断。
拥有正确的工具来处理事件响应是管理基础设施可靠性的关键。对于站点可靠性工程师(SREs)和其他人来说,许多云本地方法过于复杂,无法完全理解。他们当然需要更大的知名度,但也需要有能力判断优先事项,并迅速确定和解决问题。
这就是AIOPs正在成为一种常见方法的地方,特别是当必须管理的软件和基础设施产业增长如此迅速和广泛的时候。AIOps为团队提供了所需的额外安全性,在他们将自己转变为更大、更难克服的问题之前,自动检测他们环境中的异常情况。
值得注意的是,AIOPs作为一种站点可靠性工程工具更为有效,因为应用程序和基础设施正在迅速发展。当有大量的、不断扩展的性能数据可供使用时,它会以最佳状态运行。这些数据可以包括观察数据和参与数据,以及来自第三方工具的数据。为了帮助团队识别和诊断问题,算法和机器学习工具随后应用于整个数据,以增加关于正在发生的事情的智能,并帮助更有效地自动化如何管理事件。
在现实世界中,AIOP至少有五种应用方式:
1.检测事件
这是AIOps扩展工具箱的主要用例,这样团队就可以更快地发现问题。人工智能和机器学习自动地开始显现并理解异常,然后将这种学习应用于系统和基础设施的观察。这里学到的知识可以推动一种主动的方法,发现早期预警信号,从而帮助团队在客户发现任何问题之前就意识到问题。
2.降低和切断噪音
警觉疲劳是事故反应中的一个主要问题。一连串的警报使团队对所有警报都变得麻木,即使它们是关键的。理想情况下,需要抑制低优先级警报和相互关联的组警报。AIOps可以关联、抑制和优先处理警报,结束警报疲劳的痛苦,使团队能够加倍处理对可靠性最具威胁的问题。
3.把它放到上下文中去
事件是混乱的,快速移动的野兽。信息过载会让团队迷失方向。他们需要一个指南来提供背景,从而为他们指明正确的方向。AIOps可以自动映射正在发生的事情,并且可以提供对事件的全面理解。语境不仅对理解事件,而且对解决事件都是非常宝贵的。
4.变得越来越聪明
AIOps是一个不断发展的工具,它总是在不断改进。过去的经验、当前的使用情况和用户反馈创造了优秀的数据,AIOps可以在这些数据上进行培训,帮助识别和防止类似于历史问题的问题。随着信息的不断丰富,模型变得更加智能,并提供定制的关联、见解和建议。
5.整合数据,整合团队
任何来源的事件数据都会与当前的事件管理工具和工作流集成。你得到的数据越多,你的机器学习模型就越训练有素,产生的结果就越有针对性和实用性。AIOps解决方案接收数据,用上下文丰富数据,并向相关团队或响应者发送通知,所有这些都是团队已经在使用的事件管理工具。这样,团队就不会浪费在工具之间切换的关键时间。
对于那些还没有开始应用AIOP的组织来说,这听起来可能是一项非常艰难的工作,老实说,还有一条学习曲线需要提升。然而,启动AIOps有一些行之有效的步骤。
首先,考虑什么是最适合的用例。这样就可以从中学习、测试和成长。
第二,对正在做的事情保持透明。人们抗拒改变,需要花点精力去揭开AIOps的神秘面纱。
最后,准备好让人工智能和机器学习影响IT操作。依赖AIOps的组织越来越多,这项技术将很快成为主流。
编辑:lyn
全部0条评论
快来发表一下你的评论吧 !