招商银行和欧拉开源社区联创A-Ops智能运维项目并完成测试

描述

近期,招商银行和欧拉开源社区联创了A-Ops智能运维项目,并在招行coremail邮件系统中完成测试。测试结果显示,A-Ops极大地提升了网络连接丢包、错包、重传以及时延增大等系统网络问题的界定效率。

背景随着业务系统规模的增长,对于配置和架构的管理,难度也指数级上升。对于配置管理,个体对配置的修改无法主动发现,不合规项扫描不全,为系统运行带来隐患;对于架构管理,自身及三方软件间的关系主要依赖管理员的经验,变更影响难以评估,排障困难。我们希望有一套机制,能够自动溯源配置,识别配置管理的不合规项以及非预期修改;同时自动感知架构,识别完整的架构图,包括组件、实例、访问关系等,在系统异常时及时发现并定界,快速消除风险。

团队介绍参与本次联创的团队来自招商银行信息技术部数据中心,招商银行为A-Ops智能运维项目提供了真实的业务场景进行原型验证,团队和openEuler A-Ops SIG组成员共同完成了包括前期的需求调研、功能确认,以及之后的问题解决、联调测试等过程。

联创成果检查配置差异

在coremail邮件系统集群环境中修改某些主机的配置文件,A-Ops能够获取实际配置和预期配置的差异,并获取差异内容;帮助运维人员快速判断问题边界是否由配置引起,如果是则下发正确配置到指定主机上,快速解决配置异常导致的系统问题。

某主机配置与预期配置差异图

实时绘制系统拓扑:

在coremail邮件系统测试系统登录、发信、收信等流程,通过A-Ops能够实时捕获系统连接情况并绘制邮件系统业务流拓扑图(已和相关人确认符合预期);运维人员能够快速识别系统中的实例以及依赖关系等。

登录系统的实时拓扑图

快速问题界定:

我们在邮件系统注入了时延增大、丢包等故障,由实时拓扑图可以看出可能的问题链路已经被标红;运维人员因而能够快速界定问题节点,并根据异常信息进一步进行问题定位解决。

注入故障后的实时拓扑图

现在的异常检测是基于阈值(专家经验)的,后续会增加基于AI算法的的异常检测功能,并支持算法扩展。后续招商银行将和A-Ops项目组一起,在现有基础上完善异常检测能力、增加根因定位功能,实现自动问题根因定位;并在招行其他系统推广运行,实现系统问题快速定位定界。

A-Ops简介A-Ops智能运维平台专为企业简化云系统治理复杂度,加速企业数字化改造过程。主要特征包括:

智能观测,能够基于AI精准观测基础设施;

平台化,能够实现系统全栈的智能观测与分析;

覆盖广泛,能够覆盖openEuler系任意类型的基础设施。

A-OPS智能运维平台包括:智能探针、架构感知、异常感知、异常森林、配置溯源等特性,并提供SaaS服务。通过对基础设施的精准观测,实现对软件系统架构的实时全息感知,实现云环境下OS因素引起的业务性能问题1分钟定界、3分钟定位。

原文标题:招商银行基于A-Ops智能运维构建快速定位定界能力

文章出处:【微信公众号:openEuler】欢迎添加关注!文章转载请注明出处。

  审核编辑:彭菁
 
打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分