全球存储设备相关故障已占到70%以上存储自动运维亟不可待

lumingluming 2020-12-24 1048

存储技术

626人已加入

描述

美国太平洋时间12月14日凌晨3点47分左右，YouTube、Google云端硬盘，Gmail，Google Meet，Google文档，Google搜索，Google Play，Google Home，Google Maps停服，这是谷歌近半年内第三次出现大规模宕机事件。

经过近50分钟的紧急处理，相关服务在当地时间凌晨4点32分恢复正常，并向受到该问题影响的所有用户表示歉意。

至于这次宕机的原因，来自谷歌官方的表述是“internal storage quota issue”。在谷歌后续的一份初步调查报告中，提到导致宕机的原因为“我们的自动配额管理系统出现了问题，降低了谷歌中央身份管理系统的容量，导致其在全球范围内返回错误。因此，我们无法验证用户请求是否经过认证，并向用户提供错误。”

那么，这个“自动配额管理”是什么意思呢？

存储专家解释道，数据在存储盘中的存放，并不是“既来之，则安之”，而是需要规划一个存储池，被划在这个池中的数据只能在对应的空间中存放。池子有多大，就是通过上面的“配额”来管理的。

这次导致谷歌宕机的“自动配额管理系统出现了问题”，就好比我们去坐火车，先要有一张票，才能上车。但是现在售票员在工作时间划水跑了，大家没有买到票，结果人在站外着急瞪眼，车在站里空空如也。

想要彻底避免类似问题，就需要我们的运维工作不仅仅监控磁盘是否写满并报警，还要做出资源池级别的容量监控，以便更进一步做出提前预测，避免自动额度管理系统“罢工”。华为AI运维提供面向池级、盘级、系统级的容量阈值监控、容量预测告警，同时，华为也提供自动资源发放管理的能力。

近期，科技巨头公司、证券公司频频故障瘫痪，影响小则波及一个区域，大则波及全球。IT基础设施层面的高可靠构筑诚然是前提，是“金刚钻”，但问题往往出现在运维阶段，“手艺”怎么样，才是决定“瓷器活”能否做成的决定性因素。

有着深厚先进技术积累的科技、金融领域企业尚且在运维上频频触礁，其他领域的风险和困境可想而知。

调查数据显示，随着全球数据规模的爆炸性增长，企业数据中心的故障中，存储设备相关故障已经占到70%以上。以某国际互联网社交企业为例，每天需要修复数据高达24TB，每天修复带来的跨机架流量高达180TB。技术和新应用的层出不穷，也带来运维复杂化的副作用。

传统的运维高度依赖人的经验和精力，运维人员的一天就是从虚机、存储，再到数据、网络，更像一名企业的救火队员。在全球产业迈进数字化、智能化的背景下，如何使能统一的AI运维，扭转传统“人拉肩抗”的局面，从而实现支持企业业务平稳运行，业务战略突破的目标，已经逐渐成为全球行业头部企业的共同诉求：

01首先，运维系统从一个追求稳态的系统，走向追求稳态+敏态的系统。这就意味着，运维系统不仅要追求7*24小时的稳健运行，还要追求对业务的敏捷使能。

02其次，运维已经不仅仅只是一个支撑系统，更多的是要与业务融合，成为一个生产系统，给业务带来新的价值；

03最后，运维的流程将慢慢地从“以人为中心”向“面向自动化的业务流程重构”，最终走向“自动驾驶”的IT运维系统。

在数据基础设施运维层面，运维的自动化水平是数字化转型的核心体现之一。特别是面向核心系统或新兴业务，运维将更多地参与到生产系统中去，运维与业务的结合会越来越紧密。

只有让更多的运维人员从繁杂的例行工作解放出来，才能投入到更加有创新性的工作中去。华为存储基于智能运维平台DME逐步构建面向智能运维的AI能力，围绕客户关心的设备异常、容量预警等关键场景为客户业务的正常运行保驾护航。

具体来看看华为智能存储运维有哪些“法宝”？

设备侧+云端容量预测

假设客户能够提前预知阵列或存储池，甚至更细粒度对象的容量变化趋势，那么，由于容量配额不足所导致的服务宕机情况则会大大减少。华为提供“云上+本地”联动的运维能力，基于时序预测等关键技术，能够向客户提供未来最长365天的容量趋势预测，并能够提前预警80%配额，提醒用户提前扩容。

提前14天风险盘预测

如今，通过华为存储的异常检测模型服务，可以提前14天预测到硬盘故障。华为硬盘异常检测模型服务基于S.M.A.R.T.（Self-Monitoring Analysis and Reporting Technology）技术，每日采集数据中心硬盘数据（硬盘ID、SN、硬盘非安全断电次数、通电时长），从历史数据中识别硬盘不同属性的突变模式对当前状态进行预测，结合用户反馈数据，定期执行模型自优化，持续提升预测精度。为DC硬盘提供主动运维。

截止目前，华为硬盘异常检测模型已经服务于200+企业DC，帮助客户提前14天识别硬盘故障或风险，预测的误报率低于0.1%。

存储性能异常预测管理

基于时间序列预测等关键技术的性能预测特性，以及基于阈值触发的性能潮汐预警，能够让客户预知设备关键性能指标变化趋势。时延、IOPS、块带宽尽在掌握，以提早发现设备性能瓶颈点，辅助客户尽早规避可能发生的异常。

传统的专家经验规则或静态阈值预警，无法覆盖大多数性能异常场景，且可能存在误报漏报的情况。华为提供基于机器学习的关键性能KPI异常检测及根因定界特性，无监督自学习的异常检测模型能够实时检测设备时延是否异常，现网数据测试验证，异常检测准确率近90%；存储设备内置基于多集成树算法融合模型，外加皮尔逊相关性关联分析算法，实现异常根因的定界分析。

华为智能存储引擎DME基于“云-中心-设备”三层AI架构，携手客户在智能运维的自动驾驶之路上不断创新，持续扩大自动化的边界。从被动运维走向主动运维，持续降低运维门槛及成本，实时确保客户业务体验最优。
编辑：hfy

打开APP阅读更多精彩内容

全球存储设备相关故障已占到70%以上 存储自动运维亟不可待

描述

全球存储设备相关故障已占到70%以上存储自动运维亟不可待