Quartet使用虹科PagerDuty协助维护关键服务和系统

电子说

1.3w人已加入

描述

应用背景

Quartet最初使用Sumo Logic和Slack来提供实时的IT见解。工程师们将他们的事件警报通知直接发送到Slack中的一个特定频道,使他们能够在手机和桌面上接收警报。由于没有轮流值班的时间表,所以当出现问题时,大家都会在同一时间蜂拥而上解决问题。最终,经过讨论后,一个人就会采取行动--这种群发过程意味着服务中断会持续下去,导致平均确认时间(MTTA)和平均解决时间(MTTR)增加。Sumo Logic和Slack通知并没有在团队内部提供一种紧迫感。

随着公司的发展,缺乏事故管理解决方案对提供客户和患者所期望的始终在线的平台造成了影响。

Quartet

Quartet开发并提供了一个基于云的平台,该平台能够促进医疗提供商和行为健康提供商在患者护理方面的沟通与协作。Quartet依靠先进的分析,和经过验证的治疗程序,致力于推动医疗保健服务适在提供者,患者和保险公司之间的连贯性。Quartet重点关注的是那些24/7的医疗保健提供者,并在最大程度上确保数据安全性和隐私性,所以密切关注内部的系统行为,并确保业务高效,安全地运行是一件很重要的事。

公司目标

改善他们的运营指标,降低平均确认时间(MTTA)和平均解决时间(MTTR)。

 

 

Logic

虹科PagerDuty方案

随着Quartet工程团队的发展,部署一个解决方案来协助维护他们的关键服务和系统成为一个迫切的问题。PagerDuty被精心挑选出来,帮助公司克服快速解决事故的挑战,同时也支持他们降低MTTA、MTTR和整体事故发生数量的目标。Quartet看了一些其他的解决方案,但发现PagerDuty更成熟,总体上在行业内有更好的声誉。

Quartet的整个基础设施都建立在AWS中,他们利用CloudWatch进行系统级的资源报警和监控。这些报警是通过网络主机PagerDuty触发的,外部则是他们的第三方云端日志管理和分析服务Sumo Logic。他们的所有主机上都运行着代理,这些代理将日志推送到Sumo Logic,并每分钟创建预定查询,这将触发PagerDuty的事件警报。

Shabib指出,有一个解决方案可以在问题解决之前发出警报和提醒,这有助于在团队内部建立一种责任感。这最终有助于强制生成高质量的日志,同时允许个人在问题发生时更迅速地调试这些问题。该团队还有一个升级政策,当主要联系人无法确认事件时,该政策就会启动,让次要的待命联系人采取行动。

评价:

"我认为PagerDuty有助于将所有权交到工程师手中。让他们离事件更近,所以当事件发生时,真正构建该软件的正确人员会得到通知,并能解决和改进问题。"Shabib表示。这比 "蜂群技术 "要好得多,因为后者有可能将事件放到没有适当背景或知识的人手中解决,更不用说当问题本来只需一个人处理时,整个团队都参与其中的低效率过程。

编辑:jq

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分