详谈建设精细化运营的重要性

移动通信

296人已加入

描述

随着应用与技术的发展,数据中心的建设规模出现两极分化的特征:一方面,业务集中与资源共享等趋势推动数据中心向规模化方向发展,另一方面,小型数据中心在解决资源瓶颈的问题以及提供差异化服务方面的作用日趋明显。

IT系统的集中规模化建设与垂直化分布特征,对基础设施的管理提出了全新的要求,这些要求集中体现在融合统一、持续高可用、经济性运营、可服务等方面,并已成为数据中心可持续发展的关键KPI,而以此为基础的数据中心基础设施管理(DCIM)成为了精细化运营建设的关键内容。

1 为何需要建设精细化运营

早期的数据中心管理侧重“监测”,管理对象单一,网络简单,烟囱化管理特征明显,无法支撑业务的可持续发展。物联网、M2M、云技术的发展,使得大量设备连接成为可能,基础设施日趋整合,数据规模、复杂性增加,呈现出如下特征:

1、领域产业链聚合,海量硬件与软件连接,资源的统一管理是基本诉求;

2、保障连续供电、连续供冷,构建内耗最小、功效最大的资源服务中心以应对资源集中、成本控制带来的挑战,成为IDC建设、过程运营需要面对的共同课题;

3、供电、冷却能力、机柜空间等资源的最大化利用,成为降低TCO、延长数据中心建设周期的有效方法;

4、同时,DCIM管理与工具快速的渗透到数据中心基础设施管理的E2E流程中,为自动化、智能化的高效运维与精细化管理提供了基本的技术条件;

建设完整的数据中心涉及基础设施,技术与系统架构,应用与数据,业务与流程,组织与运营等全方位内容。借由基础设施的运营管理,减少数据中心运营和管理成本,提高数据中心的易用性、持续可用性和灵活扩展性,保护投资、提升回报率,帮助用户实现IT创新甚至业务创新,是IDC精细化运营的基本诉求。

2 满足要求的精细化运营框架

数据中心建设是不同领域产业链的整合,基础设施呈现出异构、领域差异化特征,需构建一个普适的管理模式,实现统一、融合的管理,以确保业务发生变化时,对系统进行自动调优,实现高效、准确的管理。

2.1 统一、融合的管理

技术、业务、流程的发展和演进,推动数据中心管理目标和功能不断发展。

数据中心的基础设施管理已经从基本的动环管理演进为DCIM,且范围逐渐延伸到BMS、IT资源领域。

管理体系已经由孤立的资源监控、系统及网络,向着统一、融合,面向服务、流程自动化方向发展。

管理功能从数据收集、发现、实时监控,向历史数据分析、决策分析、自动响应方向发展。采集实际的数据以及对数据的分析、统计、报告,给出执行策略是差异化竞争力的关键。

统一、融合的管理,要求有统一的数据模型,实现多源数据相同框架的管理;要求基于开放的平台与体系架构,为系统管理工具选型提供更高的灵活性。

2.2 实现与业务关联的架构

IDC机房管理系统的目标是保障基础设施的持续高可用性,为业务系统安全、可靠地运行提供保障。

调查发现,在众多的机房中,尽管已经部署了一定的监控工具,但是这些监控工具都是针对某一个系统或资源设计的,系统相互独立,无法很好的集成(如制冷系统、供配电系统、服务器网络设备之间的管理往往由不同的厂家提供,相互独立)。

由于缺乏集成的管道和框架,其监控的管理信息不能共享,导致误报警和报警重复等现象。同时,由于这些工具都只是面向基础设施的监控,即使发现问题,也不能将问题与真正的业务联系起来,也就不能判断此问题对业务的影响,同时无法判断解决问题时的优先级顺序,使影响关键业务的问题被延迟,甚或被忽略,从而无法达成SLA的关键诉求。

因此,一套能实时监控系统、部件运行状态,准确地判断对业务影响的系统是实现数据中心智能化管理的基础。要实现基础设施的关联管理,提升运营服务水平,要求:

1、系统能够将基础设施的管理与业务流程连接;

2、系统能够将所有不同的管理工具进行统一和集成,实现信息共享;

3、系统能够根据共享的信息,建立起业务的关联视图。

精细化的运营要求管理工具可将自动化和智能化融入到业务流程中,实现主动式监测和管理,专注于满足业务增长提出的可用性、容量规划和资源利用效率需求。

2.3 基于ITIL的最佳实践

基础设施管理解决方案不仅关注基础设施本身,而且还包括组织内部的组织流程、指令规范、 业务。 如何将组织流程、规范及业务融合到管理系统中,实现数据整合,提升运营服务品质是ITIL的基本理念,是数据中心对外提供服务的基础。

ITIL提供了一个业务与技术相结合的框架,是IT服务管理的成功实践总结、指导,已经成为事实上的行业标准,借鉴ITIL,运营可以以一种受控、有序的方式向最终用户提供服务。

ITSM是建立在ITIL基础上的数据中心管理与运营服务系统,包括如下几个阶段:基础监控、融合集成、主动预防、自动优化等,是一个渐进过程,处于不断的优化系统与技术的动态演进中。

IaaS

图 1  基于ITIL实践的IDC管理阶段模型

基础监控,是IDC管理的起点,通常以数据采集、故障监控和修复重大故障所需时间作为评估标准,往往是事件触发式的、被动式的。

在融合集成阶段,对基础设施管理评估标准为:所管理资源的可用性、在故障管理系统中关闭故障所需时间。要改善这些评估指标,离不开对业务流程化、最佳实践方案的反馈与循环改进。

在主动预测阶段,保障业务系统的可用性和SLA,是支撑主动、高效管理的动因。对资源的性能进行评估、分析,并利用相关领域的技能与知识,对系统资源性能、问题、容量做主动式管理,对资源的优化配置提出建议,是该阶段实践的主要内容。

自动优化阶段,系统会自动调整资源配置,以优化性能。业务策略、业务优先级及SLA会支配基础构架优化的行为,如基于业务均衡的IT资源(VM)与基础设施层的高效节能联动、基于容量管理的负载均衡与资源优化配置等。

自主阶段,使用先进的成本与收益模型、性能与业务响应及时性等来实现业务自动化保障、业务快速部署、资源的最大化利用,实现IDC建设的弹性扩展。

3 持续构建精细化运营系统

数据中心基础设施精细化运营的真正潜力在数据,数据中有效信息分布在不同的解决方案与DCIM工具中,信息的整合贯穿运营的每个环节,是实现精细化运营、构建竞争力、改变市场格局的有效手段。实现数据中心的精细化运营,可遵从ITIL的服务理念,围绕数据中心持续高可用、资源最大化利用以及服务运营持续构建。

3.1 高效,持续高可用

通过系统的监控和管理,确保基础设施的持续高可用性;通过数据的采集与分析,提升资源的利用率;通过自动化的运维模型,提升管理效率,降低成本,实现业务服务的敏捷化。

精细、广泛的管理

基础设施的精细化、广泛的管理,建立在统一、完备的管理模型基础之上,DMTF发布的通用信息模型CIM框架提供了操作系统、应用程序、网络和设备管理的基本模型,但要实现基于业务、应用的管理,则需要对模型做合适的扩展,以满足运营的基本要求。

在构建高效、持续高可用的运营系统的过程中,满足ITSM管理要求统一的数据模型的基本要求包括:

1、自动的数据采集,设备管理、传感网络可持续采集和集中处理数据。

2、具有虚拟现实的建模能力,包括IT与基础设备在内的资源,可准确的反应现场的配置。

3、所见即所得,可视化的变更、配置,深入到CRAC、行、机架等级,实时可见的能力,可避免主观臆断的移动、添加、以及改变数据中心的配置。

4、可持续跟踪IT资产的财务数据(购买日期、成本)以及物理数据(机架中的位置)的变化,实现生命周期内的资产管理。

5、数据中心的能力规划与预测,集中式的电源、散热、空间、网络占用计算可预知机架能力变化,提高资产利用率。

借助统一的数据模型、组件化及网络构建能力,DCIM能够管理分散的、不断增加的成组应用,支持、收集开局、扩容、迁移、退网等场景下的配置、变更信息,并进行相关处理,提供相关信息,支持决策。用户可在一个集中可视化视图中,以一种更直观、有效的方式来反映当前部件状态并执行控制任务。

前瞻性的问题管理

IDC管理系统通过对基础设备、连续供电系统、连续供冷系统的监视、预测,管理粒度细化到设备的运行指标级,深入洞察,实现问题的前瞻性管理。

实现对管理信息的简洁化访问,降低响应的时间,减少非计划的停机;消除故障,在问题没有发生之前预知;与ITSM的集成,事件管理、问题管理流程化,自动化,是前瞻性管理的必要手段:

1、通过对连续供电、连续供冷系统的监控,感知系统、设备的输出能力以及性能下降,并对可能的业务影响进行分析,给出预警。

2、利用容量管理,实现机柜级的供电、制冷、空调、网络的分析,规避资源冲突,在确保资源最大化利用的基础上,提供连续的服务。

3、提供连续、实时的监控工具,通过信息的简洁化、快速访问,降低系统或者网络的停机时间,缩短MTTR。

4、结合事件、问题管理流程,规避流程外的疏忽和遗漏,保障服务的持续可用性与SLA。

智慧数据中心针对设备故障、运行性能的下降,提供容量、事件、问题管理等功能,可以预定义门限和条件,接收并处理告警、事件信息。

针对问题管理,管理系统利用知识库、实践经验库,配置相应的功能集,当业务系统、应用子系统或部件的可用性降低或者故障时,可自动感知、并实现主动的管理,进行自诊断、自恢复操作。使得IT人员可聚焦主要的职责,开展主要的业务。

关联管理提升运营服务水平

智慧管理通过配置服务策略,对资源进行监视,发现影响可用性和预设服务水平的事件、状态变化和性能降低。

当被监视的系统、设备中发生事件时,该事件被记录并关联到相应的业务资源。在业务系统影响视图中,资源自身及依赖该资源的业务系统同时在界面呈现,帮助用户快速确定出该资源的问题是否影响到关键业务系统。

同时,管理系统将事件与关联资源的可用性和响应时间指标结合,并可将用户或用户组感兴趣的资源组织在一起,形成业务系统视图,实现关联管理。

实现数据中心系统、服务间的关联管理,需要建设以下几个方面的关键能力:

1、构建配置、变更管理能力,实现资源的自动发现、自动感知变更、数据同步,使用如设备面板、功耗分布图、温度云图、监视Dashboard等工具,全面掌控环境变化。

2、建立连续供电、连续供冷、管理网络等系统的拓扑关系图,提供完整的部件间的上下联关系树,并在资源能力下降时,进行关联影响的分析。

3、共享的信息架构,通过业务关联视图,实现联动控制、集群调控、资源迁移、扩容等操作,保障服务的连续性。

4、上述管理工具与服务流程(工单)结合,实现发现、测量、分析、调优的闭环管理。

3.2 资源利用最大化

随着数据中心的平均功率密度的持续增长,机位、供电能力、制冷能力的最大化利用,成为降低运营成本的关键。而基于供电、制冷、机位、端口的容量规划和管理,是支持数据中心可持续发展,实现资源利用最大化的关键技术。

负载均衡、能效最大化

跟踪数据中心全局(整个数据中心)或者局部(一个机架)的电源消耗模式,并通过PUE与能耗分布识别改进策略,持续优化电源使用效率,是数据中心能效最大化运营的基本手段。通常包括如下几个方面:

1) 完备的数据中心能效测量、分析、优化模型;

2) 基于成功实践的负载管理服务,如应用与负载均布;

3) 能效优化服务能力,如多机柜管理、联动,模拟配置和部署能力。

能耗测量是数据中心能耗管理的基础,包括测量点的选择、测量参数等。能耗的管理策略决定了测量的模型,提供灵活的可定制的测量模型,可为不同场景下的数据中心能效优化提供理论支持。

在具体的实践中,一般采用PUE、pPUE(局部PUE)、DCiE、能耗分布等模型来评估能效,但要准确的测量,需要系统能准确的描述数据中心的供电、供冷网络模型。

供电网络的能耗测量借助智能电量仪、智能配电设备(如rPDU)、UPS等来实现。对于pPUE来说,还需要综合考虑负载分布情况,实现一个电源系统分供多个负载的精确计算。

供冷网络的测量主要是借助冷量仪实现,对于一拖多的供冷网络,需要将支路冷量数据信息通过加权的方式将能耗分解到指定的区域负载。

因此,供电、供冷网络模型的准确性,所具有的测量条件,以及所采用的测量技术是能效准确评估的前提条件。

负载管理服务包括规划、监视、配置部署几个部分,并辅助以机位、制冷等因素,形成以供电、制冷、机位为基础的容量管理,可为机架乃至数据中心的业务的持续增长提供有效的支持。

负载规划需要考虑整个数据中心(最小单位为一个机房)的负载部署,在保证业务连续可用性基础上,通过单机柜、机柜间的负载平衡配置,实现如变压器、UPS输出的三相平衡等特性,改善整个机房的供电环境,提升供电品质。同时,负载的均衡分布,可促成冷量的均衡分布,规避冷、热孤岛现象,改善机房的散热环境,最终显著的提升PUE。

通过规划设计能够在数据中心建设初期确保设计的目标,但在实际的运营过程中,这些配置也不是静态的,会随着业务的伸缩不断的动态变化,如物理设备的移动、变更、扩容服务,以及虚拟机的迁移等。一个具有跟随配置变更的能效调控工具是实现能效优化运营的基本需求,应该具有多机柜关联管理、联动、模拟配置和部署能力。实施可参考:

1) 实时监视功耗,了解服务器/机架的平均和峰值功率。利用能耗管理工具,通过减少空闲容量的配置,提升电力资源的利用率;

2) 实时测量IT服务器的负载,并按照空调最佳COP调节制冷输出,通过实时的负载温度监测和制冷容量的自适应控制,实现按需供冷;

3) 根据功耗分布,给出负载规划、配置优化建议,实现负载再平衡。

容量管理,资源最大化利用

容量管理,是解决不断变化的业务需求,确保在适当的时间,以适当的数量、适当的价格提供基础设施服务的能力,关键驱动力来源于:

1) 超高密度设备导致的基础设施能力的可获得性;

2) 总拥有成本(TCO)控制;

3) 业务的快速伸缩导致的IT设备的快速变更。

在数据中心基础设施的容量分析中,主要借助供电、制冷、空间、端口、承重等数据,根据规划与设计的约束条件,计算制冷、供电的匹配能力、空间和网络端口可获得性、地板和机架承重限制,在IT需求与物理基础设施供应之间取得平衡。而最为关键的是机架级的供电与制冷的供给及需求的准确分析与评估,需要从如下几个方面进行量化:

1) 潜在需求:业务配置对供电、制冷的最大潜在需求,一般指考虑系统的峰值功率后的总需求;

2) 实际需求:当前配置的实际需求,指系统实际运行过程中的供电与制冷需求;

3) 设计供给:设计阶段给定的机架供电、制冷潜在供给能力,指在设计阶段,基础设施所能供给机柜的能力。

IaaS

图 2  容量管理指标对比模型

在实际环境中,实际需求小于潜在需求,而设计的供给能力往往大于机柜所配置业务的最大潜在需求,因此通过容量的规划与精细化测量、评估、匹配,可有效的提高供电与制冷资源的利用率。

通过历史运行数据分析,对实际需求进行准确估测,以减少实际需求与潜在需求间的余量,实现电源、制冷与负载间的匹配;同时,减少潜在需求与设计供给间的裕量,从已装机的供电、制冷系统中获得最佳的机柜供给,最大化的使用装机容量。在此过程中,可以采用的方法包括:

1) 最佳机位匹配算法,全面考虑供电、散热、U空间、端口的匹配能力;

2) what if的模拟测试方法,分析和测试如果发生变更则可能对能力配置规划产生的影响;

3) 机柜功率封顶技术,减少对设计需求的裕量。

在基于ITIL的实践中,容量管理往往与配置变更、问题事件、可用性管理等结合。容量管理以实际的配置以及配置的变更为基础,通过测量、分析与评估,给出问题改进建议以及可用性分析报告,来促进配置的调优。

准确的配置模型是进行容量管理的基础,智能管理系统一般使用基于行业标准(如CIM模型)的预定义对象模型,构建CI属性和关系,并且模型具有层次结构和继承关系,便于后续的维护管理,设备信息录入以及设备间关联关系的构建能力是基本要求。

变更控制是动态容量管理的保障,为保障容量分析的及时、准确,需要对配置的变更进行同步,保障现场配置与管理系统配置数据库信息一致。借助移动APP,例行对配置信息进行巡检、核查,是保障信息一致性的有效手段。

问题、事件管理为容量分析给出的优化建议、预警提供支持,保障容量优化规范、有序、可控。

此外,可视化能力使得从事容量管理的实践驾轻就熟,管理系统提供可视化的建模能力,以视图为基础,跟踪资产的基本信息、物理数据(机架中的位置)、占位、工作状态等,全面的掌控资源、容量状态。借助可视化容量预警、报告,可避免主观臆断的移动、添加、以及改变配置,使得基础设施的可持续性受益,确保生命周期内设备、资源的最大化利用。

3.3 服务的部署、运营与持续构建

数据中心基础设备的精细化运营的最终目的在于,通过构建不同运营模式的成本模型,提供不同等级的SLA保障服务,以资源绑定用户,实现不同运营模式的匹配(租赁、托管) 。

灵活部署,柔性扩展

传统数据中心,通常采用项目单一部署的模式,IT设备与制冷、供电等相关基础设施静态绑定,此类强耦合架构,一旦实施,很难根据实际需求作出适应性改变,无法满足快速响应用户的要求。为适应用户需求的快速变化,模块化数据中心、业务的分期部署与开通成为数据中心运营的首选模式。

匹配该建设模式的运营系统,需要满足:服务组件化、可灵活部署、可并行维护等诉求。

管理容量的可伸缩,系统支持分布式架构、提供模块化部署能力,通过灵活组态模式实现模块构建,适应不同区域和不同数量监控对象的快速建设需求。支持数据中心设计时的统一规划、分期部署,并以超大容量的接入能力满足不断扩展的需要。

管理服务组件化,松耦合,支持服务热部署,可在线接入相应的服务,而不影响系统其他部分的正常运行,保障服务的连续可用性。

SOA的架构设计,保障服务的可获得性,并通过“基于服务的业务交付”模式划分服务粒度,快速组合、封装、编排,快速发布,持续构建满足用户需求的差异化服务,实现组件、服务的精细化管理。

规划、投资决策

服务管理的另一个目标就是管理量化,借助数据来分析系统的状况、变化趋势、将来可能遇到的问题等。

基础设施运营决策者,需要通过获取确切、可信的数据,来分析各系统的容量、性能,从而为其决策提供依据。因此,要求智慧管理系统能整合资源的利用率与业务增长的需求,提供报表、业务审计报告,供业务投资与决策参考,保障运营投资按计划进行。

这些预测性、基于发展的动态分析都应该基于准确的管理模型、动态的数据信息,有效支撑投资决策,保障业务的有效、适时发布,在确保服务可提供、可获得的基础上,规避不必要的资源浪费。参考实现:
1) 通过生命周期管理掌控资源的使用状态、可使用时限;

2) 借助容量管理,实现对容量的准确的分析、预测;

3) 运营成本模型;

4) 业务增长预测;

5) 资源利用率与业务量模型。

实现基础设施的IaaS

基于ITIL的数据中心管理实践,从建设模式、运营模式、服务交互模式等方面推动着数据中心发展,使得IDC管理由传统的动环监控向融合、统一的集中管理发展,通过资源、信息整合提供各类随需而变的服务。
IDC的运营管理系统建设,不但要关注基础设施部分,也需要考虑与基础设施关联的系统,如制冷系统、变配电系统、生命安全系统等;不但要关注设备本身,也需要关注设备与设备、设备与系统、系统与系统间的关联;不但要关注基础设备的实时监控,也需要关注对历史数据、运行的动态数据的分析和整合,实现主动、自优化的智能运营系统。

管理实践模式的转变催生了DCIM,DCIM的目标就是通过IDC基础设施的精细化管理,将基础实施与IT基础架构连接起来,优化使用与IT系统性能、IT操作相关的电源,制冷、空间等资源,通过与ITSM解决方案集成,使得IT服务以及业务服务管理以最有效的方法实现服务交付:

1) 借助基础设施的融合,DCIM支持跟踪与管理资产,监控所有的IT与基础设施资源,跟踪和管理容量使用,支持规划、设计,测量、跟踪、分析环境数据并转化为关键策略。

2) 根据业务需求,建立数据中心基础设施的资源池,将机房、模块化、机架、机位等资源池化,根据不同资源量和性能需求,提供高可用、经济、安全的解决方案以及相应的资源出租和设计、优化、配置服务。

3) 建立基础设施的持续可用性保障计划,服务SLA 保障指标量化,差异化的服务成本,服务标准可衡量,支撑租赁、托管等多样性服务。

4) 按照基于服务的架构基本要求,实现资源、SLA,可服务能力的组件化配置,并将服务进行推送到服务台,用户可根据其业务的需求,完成自助式的交互服务。

多源数据的整合,资源池化为建设适应性基础架构(AI:Adaptive Infrastructure)准备了技术条件,通过统一的管理、动态的资源分配、自助式服务交付、可衡量的服务标准,实现从保障基础设施的稳定运行,到提供面向业务服务的基础架构的转变,构建可服务的基础架构。

4 结束语

云计算的发展,从建设模式、管理模式、业务模式和业务承载方面影响着IDC,并使得业务向以客户为中心、以服务为导向转型,通过整合内容、资源的价值链运营,在高性能基础架构上提供各类随需而变的整合服务。通过精细化的智慧管理,解决当前数据中心普遍存在的资源利用率低、成本快速增加、资源管理日益复杂、以及服务多样性等问题,是打造与业务动态发展相适应的高可用、经济性运营、可服务、可持续发展的数据中心的最佳选择。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分