云编排和实时分析以避免停机

描述

  根据博客“停机成本是多少”,尽管同期每个组织的停机小时数有所减少,但从 2010 年到 2012 年,网络停机费用平均增加了 65%。对这一趋势的一种可能解释是,大部分业务都是在线完成的,这使得停机时间对组织底线的整体影响更大。

  随着转向云和基于软件即服务(基于 SaaS)的交付模型,面向客户的应用程序和整个 IT 基础设施都暴露于在线服务,停机时间的影响很容易让整个组织关闭。IT 部门正面临来自企业的巨大压力,要求其变得更加敏捷,而实现敏捷性的最简单途径之一就是迁移到基于云的环境。然而,这带来的问题是,迁移到更动态的云环境会增加失败的风险。大多数现有的 IT 管理系统都是为静态环境构建的,最多只能提供需要人工干预才能解决问题的警报监控。这种类型的系统已经变得不切实际,随着系统生成的数据量和事件数量增长到大多数人工操作员无法跟上的程度;结果是增加了人为错误。

  Gartner 最近的一项研究预测,到 2015 年,“影响关键任务服务的 80% 的中断将由人员和流程问题引起,其中超过 50% 的中断将由更改、配置、版本集成和移交问题引起[2]。” 那么可以做些什么呢?解决方案是从静态监控转向完全反应式的系统,该系统可以在问题发生时识别和修复问题——无需人工干预。

  解决方案

  找出解决方案并不难。如果 80% 的停机时间是部署和恢复过程中的人为错误造成的,那么解决方案就是通过自动化消除这些错误。由于 IT 流程可能相当复杂且不易自动化,图 2 概述了涉及人工干预的 IT 流程示例。例如,这些可能包括将新开发的软件包投入生产、安装新功能或应用程序的监控、性能调整和故障排除等等。

  图 2:需要人工干预的 IT 流程。

  

传感器

  自动化应用程序部署和管理

  通过用软件驱动的流程代替手动程序来实现应用程序部署和相应实践的自动化。基于云的基础设施是这些技术的主要推动者,因为它们提供了一种通过软件而不是人工操作员来控制整个数据中心的方法。图 3 展示了自动化端到端应用程序部署的主要组件,包括:

  图 3:在反馈循环中自动化 IT 流程所需的组件

  

传感器

  云基础设施——通过应用程序编程接口 (API) 提供对所有 IT 资源的软件驱动访问。

  智能编排——相当于人类操作员的软件。

  历史数据——存储以前的状态和事件,用于确定应用程序是否按预期运行,并根据实际活动调整系统阈值。历史数据也可用作发生故障时根本原因分析的来源。

  实时分析——更新监控计数器,包括复杂的复合 CPU 延迟指标,并在事件超出特定阈值时触发警报。

  这种架构的核心是编排。编排器为给定应用程序创建一个定义,该应用程序通过软件可读指令集运行以绘制应用程序蓝图。编排器还负责确保应用程序符合服务水平协议 (SLA),这可能是其最具挑战性的功能,因为这需要一定程度的人工智能 (AI)。

  为了实现必要的 AI,必须建立一个反馈循环,该循环既能够识别应用程序是否按预期运行,如果不是,则采取纠正措施。反馈循环首先从应用程序收集实时反馈,然后实时处理它们以检测故障或容量问题。然而,确定给定警报是真实警报还是假警报通常涉及与历史数据的相关性。例如,如果预期负载增加,高 CPU 利用率并不总是表明存在问题。同时,低 CPU 使用率可能表明流量不足,这不一定表示应用程序的稳定性。实时和批量报告的分析通过将当前和历史数据报告回编排器来关闭循环,编排器反过来可以采取纠正措施。

  自动化应用程序部署在行动

  GigaSpaces 的Cloudify使用云应用程序的拓扑和编排规范 (TOSCA) 作为应用程序蓝图的标准框架是一个编排引擎,它定义了应用程序组件(节点)、它们的依赖关系,以及它们的指标和相关策略(例如,如何安装组件、处理故障或扩展事件)以配置流程自动化的基础网络。运行应用程序定义并加载 TOSCA 蓝图后,Cloudify 编排引擎将执行蓝图以生成必要的虚拟机 (VM) 和相应的网络资源(例如存储)。编排器然后安装应用程序的各种组件,根据它们在依赖链中的位置来组织它们。最后,应用程序监控作为插件集成,每个组件通过监控代理将指标发送回编排器。

  之后,策略引擎使用复杂的事件服务来确定应用程序是否满足其 SLA,并在可能包括生成新 VM 或重新分配系统负载的违规情况下触发操作。图 4 说明了基于 TOSCA 的模型中的多层应用程序部署。

  图 4: Cloudify 编排引擎采用基于 TOSCA 的蓝图框架来定义应用程序并使其流程自动化。

  

传感器

  基于云的自动化——实时

  由于企业的日常运营不断被网络基础设施所吸收,传统的 IT 流程将无法促进事件和数据的大量增加。此外,在流程管理中添加人为因素可能会首次在不断发展的 IT 环境中引入挫折而不是收益。在正常运行时间对任务至关重要的情况下,基于云的自动化可以有效地减少停机时间,同时让 IT 经理在最需要他们之前腾出时间。

  审核编辑:郭婷

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分