直播精彩回顾(一)| 《什么是数据可观察性》课程笔记整理

描述

 

3月1日,【虹科云课堂】数据管理与可视化解决方案第一期课程圆满结束,感谢大家的观看与支持。虹小科为大家整理了课后笔记,请查收
 

导语

虹科云课堂
 

    企业应用程序的运行就像一辆行驶中的汽车,当所有的组件都按照预期的方式工作时,它就会出现速度与性能的完美结合。如果它其中的一个组件出现故障,应用程序的运行就会受到影响,就像汽车突然爆胎或者熄火一样,业务的运行就会不正常。比如说网站无法访问、服务器因为负载过高停机了、数据分析报告中数据集的输出是错误的,可能被人篡改了等等。现如今大多数企业使用是不透明的数据解决方案,然而缺乏透明度会导致隐藏数据问题,并可能影响数据质量和应用程序性能。

    那么我们要怎么样才能保证应用程序正常运行呢?当然是在这些问题发生之前解决问题,也就是需要预测、预防问题的发生,那么我们应该怎么做呢,答案就是使用使用多维的数据可观察性解决方案。

    以下是虹科云科技事业部技术工程师夏雨的直播报告:《什么是数据可观察性》。

 

本文围绕3部分展开

虹科云课堂

1、什么是数据可观察性?

2、企业为什么需要数据可观察性?

3、虹科数据可观察性方案

01

什么是数据可观察性

虹科云课堂

数据

    讲概念之前说一下现代数据基础设施存在的几个问题,同时也是我们的产品能够解决的问题,我们知道,所有企业都面临着大量与数据相关的问题。一个常见的问题是,好的数据可能变成坏的。那是为什么呢?

 

首先,单个数据生态系统中的数据源越来越多。例如,在过去,使用基本的ETL或CDC工具将数据从数据库摄取到数据仓库,有时会对数据进行转换、清理和质量测试。它被存储并传输到一个简单的应用程序,该应用程序在数据上运行一个例程,以生成一个报告或在仪表板中使用。但是现在,除了数据库之外,数据还来自许多其他来源,包括api、文件、社交媒体、日志等,这使得摄取过程更加复杂。更重要的是,更多的数据是动态的。现代应用程序可能使用事件数据(例如,客户刚刚进行査询或开始购买),而不是使用数据库中未更改的数据(例如,客户的帐户信息)。这种变化会影响数据转换、存储、交付和使用。并且在过去,没有一种工具能够看到数据管道的每个步骤,但是这些数据来源中的任何一个都可能以意想不到的方式发生变化,从数据创建摄取到最终使用的所有接触点中,数据在其生命周期的不同步骤中被破坏、删除或误用的方式有很多。

 

    数据质量无法保证,那么数据团队就会花大量时间来处理数据的问题,而且不良数据可能会对公司产生重大的业务影响。质量差的数据通常被认为是运营混乱、分析不准确和商业战略构思不周的根源。数据质量问题可能导致的经济损失示例包括产品运送到错误的客户地址时增加的费用、由于错误或不完整的客户记录而失去销售机会,以及因财务或监管合规报告不当而被罚款。

 

其次,因为数据需要经过复杂的转换之后才能被处理,你正在从数百(或数千)个数据源中获取数据,这些数据源可能有也可能没有 API,所有数据源都具有不同的数据模型,而且一个源系统中产生的数据可能为多个数据管道提供数据,而这些管道可能为其他管道或依赖其输出的应用程序提供数据。当数据从一个流程流向另一个流程时,它会不断地被转换、构建和聚合,以保证数据可用。还有系统使用的每种工具可能具有不同的格式来读取和解释数据。不同的工具也可能具有不同的字段值名称或期望日志数据按特定顺序排列等等。更糟糕的是,如果这些格式发生根本性的变化,那么就会导致下游失败,如果代码继续运行,可能产生不正确的结果,或者发生崩溃。这种崩溃通常会对下游系统产生级联效应,或者说多米诺骨牌效应,它们会一个接着一个出现问题。

 

第三个问题是随着企业转型为数据驱动的数字企业,低质量和不可靠数据的成本将飙升。数据将被要求支持更多的商业模式、内部流程,并将推动关键的商业决策。因此,对数据的访问至关重要,确保数据的可靠性成为绝对关键的任务。传统观点认为,数据质量监控工具是解决方案。所以,市场上充斥着这些解决方案。然而,随着向分布式、以云为中心的数据基础设施的转变,数据质量监控工具迅速过时。它们是为前一代应用程序环境而设计的,无法扩展,管理起来太费力,在诊断和修复数据质量问题的根本原因方面太慢,也不可能去预测未发生的问题。在缺乏主动确保数据可靠性的工具的情况下,随着数据的供应,不良数据和不可靠数据的事件增加。数据质量监控工具及其被动、手动和几十年不变的数据质量方法无法应对当今数据高度分布、快速移动甚至变化更快的环境。他们让数据工程师和其他数据运营团队成员忙于日常排除故障,遭受应接不暇的告警,无法满足他们的 SLA。数据质量和数据性能都受到影响,而数据成本则会失控。那么这个问题的解决方案是数据可观察性,它采用全新的主动方法来解决数据质量问题,远远超出简单的数据监控和警报,降低确保数据可靠性的复杂性和成本。换句话说,它是对数据复杂性问题的系统解决方案。它跨应用程序、数据和基础架构层监控和关联数据工作负载事件,以解决生产分析和 AI 工作负载中的问题。

 

最后一个就是数据管道日益复杂,数据的供应和需求激增,数据处理的多个阶段以及不同数据资产之间可能存在不可见的依赖关系,使数据管道变得非常复杂,用于移动数据的技术变得更加复杂,导致团队无法了解数据的处理方式。除此此外,每增加一层复杂性,数据停机时间就会成倍增加,数据停机时间是指你的数据不完整、错误、丢失或以其他方式不准确的时间段。随着数据的移动,错误会不断累积,而团队最终往往会得到不可靠的数据。数据停机导致的后果是不可估计的,会导致公司生产力下降,客户体验感不佳,并且存在严重的合规性、财务和运营影响,可能会让数据领导者措手不及,从而影响团队的投资回报率和公司的底线。

    处理数据停机事件不仅浪费宝贵的时间,而且使团队远离创收项目。数据工程 团队没有在构建可以为客户增加实质性价值的新产品和服务上取得进展,而是花时间调试和修复数据问题。对造成这些问题的原因缺乏了解只会让事情变得更糟。

 

    刚刚提到数据管道,这边介绍一下,数据管道是从原始数据到目的地(通常是数据湖或仓库)的过程。在整个过程中,将转换逻辑应用于数据,以便为分析做好准备,而在目的地,将对数据进行分析,以获得可操作的见解。最常见的数据管道形式采用批处理或实时处理。

 

数据

    这里有一张数据管道的图片可以看看,架构师和数据工程师现在使用大量的工具来构建数据管道:提取、加载和转换(ELT-Extract, Load, Transform)工具、应用程序编程接口(api)和事件流系统,如Apache Kafka。它们从应用程序、IT日志和物联网传感器或数据库中获取数据,通常为结构化、半结构化和非结构化和原始的数据。他们将首先收集这些数据,然后进行转换、数据清洗,然后通过脚本把它存储在数据仓库、数据湖、NoSQL,甚至流媒体平台中。这些数据也可能最后会被生成分析报告或者机器学习的模型或者把它进行可视化展示到页面上等等,这一系列的操作流程下来,就比较复杂了。而且你不能保证这一系列的流程其中的操作都是正确的,因为可能数据之间存在着一些我们不可见的依赖关系,假如流程其中一个地方搞错了,或者其中一个数据不可靠,数据质量出现问题,那么这个数据管道中的数据流就会受到影响,业务的运行可能就会不正常。

 

现在,数据管道与 Spark 和 Kubernetes 等复杂工具结合运行,允许数据团队在其数据堆栈的每一层选择最佳平台,但所有这些引擎的组合使得难以了解不同部分的管道。此外,如果数据管道的一部分发生在黑匣子中,你知道输入什么,知道输出什么,但你不知道中间会发生什么。

 

    数据运营(DataOps) 工程师依靠标准工具来深入了解数据系统,但他们往往无法获得数据的业务上下文。由于了缺失的上下文,所以他们无法得到关于数据质量问题和潜在原因的足够信息。而且有研究表明,数据团队将 40% 以上的时间花在数据质量问题上,而不是致力于为企业创造价值的活动。收集和分析数据的目的是创造商业价值,但没有管道可见性,错误就会累积,商业价值就会被破坏。

数据

 

    那么应该如何提高数据准确性并防止管道中断呢,解决以上问题的方法就是数据可观察性,它是一种用于数据操作的方法和解决方案。指对数据、事件进行观察、监控、跟踪和分类以防止数据停机的方法。

 

    企业应用程序的可观察性越高,就越容易确定影响它的任何问题的根本原因。随着问题的确定和修复,应用程序变得更加可靠和高效,数据系统也会越稳定。

 

    数据可观察性的工作原理是在数据流经复杂的数据管道时监控数据、数据流程和数据源,在数据流入系统之前,数据团队会定义在数据、管道和基础设施层面观察指标。当数据流经管道时,数据可观察性使用机器学习、高级分析和人工智能来监测和关联所有层的成千上万的事件。它将数据和数据系统的当前状态与期望状态进行比较。当没有达到理想状态时,数据可观察性技术会提供反馈,因此和数据团队可以重新获得系统控制权,以确保及时提供可信的数据,满足业务需求。

 

    那么有没有数据可观察性到底有什么区别呢,打一个简单的比方,比如古代寄信的过程,你把信寄出去,可能他收到了信,然而你并不知道这个信它是怎么送到的,这个过程你是不可见的,就相当于没有数据可观察性以前,数据的传输过程像在黑匣子里一样不能被看到,但是现在你在网上买东西寄东西都是快递的,你可以在手机上看到这个快递的路线,经过了哪里,有没有顺利到达目的地。那么现在的数据可观察性和这个也是一样的,可以理解为数据可观察性提供数据管道中端到端的可见性,你可以跟踪事件,让你看见数据从应用程序、服务器、数据库经过一些复杂的流程到数据湖、存储的过程,工具结合技术可以让我们能够近乎实时地识别、排除故障和解决数据问题。

 

    那么一个好的数据可观察性工具应该是怎么样的呢?它应该满足这三个层面的需求,这三层分别代表了数据可观察性能给不同职位的人提供的需求。首先是基础设施层,对于平台工程师、DevOps工程师和现场可靠性工程师来说,数据可观察性工具可以让他们看到基础设施的可用性,比如CPU、内存、存储利用率,然后可以进行性能分析,对系统进行负载均衡处理,提高生产效率。其次是数据层,数据架构师和数据工程师监控需要监控数据库和网络应用程序;比如Apache Spark和Apache Kafka,因为它们为现代数据和分析管道提供动力,可观察性工具就是可以帮助他们快速发现和解决问题。然后是应用程序层也可以说是业务层,BI分析师、数据科学家和业务经理需要理解性能问题的根源,传统的应用程序性能监控(APM)工具可以识别应用程序问题,但它们不能回答与数据相关的问题,但是数据可观察性工具就可以解决与数据有关的问题。这三层的数据它都可以进行监控。

 

数据

    接下来看一下数据可观察性的构成,为了保证数据可观察性工具是有效的,它需要具有以下功能特性:

 

    首先是监控, 它需要提供管道或系统操作视图的仪表板,就是提供一个UI界面控制台让你能掌握数据动态。

 

    然后第二个是警报,当你的应用程序运行不稳定、服务器负载过高或者出现其他故障或异常时,它会通过一些方式去给你告警。能够让你及时处理,当然,它也能根据你这个警报的级别去通知,级别比较低的问题它会自动帮你处理。

 

    第三个是跟踪,你可以设置和跟踪特定的事件,它就会被标记,然后你就能看它的运行流程。跟踪显示了应用程序的不同部分如何执行它们的工作。跟踪还显示可能发生潜在问题的位置。

 

    第四个是比较,就是说它会比较这个应用程序或者这个业务它运行的周期,随着时间的推移进行监控比较,显示出它的一个变化趋势,如果今天的时间比昨天多4倍,那可能你的系统哪里出现问题,那么它就发送异常警报,并且帮你预测问题可能会出现在哪里。

 

    第五个是分析,它会自适应企业的数据管道,和数据健康状况进行自动检查,它有自己的一些规则去判断数据质量,你也可以设定自定义的规则去判断数据是否正确。

然后是日志记录,一个优秀的日志事件可以让我们排除问题变得事半功倍,数据可观察性平台会以标准化的格式记录事件,以后万一系统出现什么故障,你可以查看日志文件以便更快解决问题。

 

    最后是SLA跟踪,它可以根据你预定义的标准去衡量数据质量和管道元数据,就会比较方便我们判断这个服务是否达到SLA级别标准。

 

 

数据

这个图片很形象的展示应用性能监测(APM)与数据可观察性的区别。APM就像他的名字一样只限于监控应用程序层,而数据可观察性将监控功能一直延伸到数据和基础设施层。

 

    数据可观察性可以通过预测、识别、确定问题处理的优先级并帮助解决数据质量问题来减少数据停机时间。并且它可以改进对数据管道的控制,创建更好的 SLA,并为数据团队提供了预测建议,这些建议可用于做出更好的数据驱动业务决策。数据可观察性解决方案在两个方面提供了优于 APM 工具的明显优势

首先它有更好的数据层可观察性,可以让数据运营(DataOps) 团队可以更好地控制数据管道。

其次是它有改进的基础设施层可观察性,可以让信息技术运营(ITOps )团队可以更好地控制基础设施资源。

 

企业为什么需要数据可观察性

虹科云课堂

02

数据

    对于基础设施层,数据可观察性工具可以帮助DevOps工程师进行性能管理、基础设施精简和容量规划。借助高端数据可观察性平台,ITOps (信息技术运营)团队可以在 APM 无法提供的粒度级别上监控关键基础设施层指标,例如内存可用性、CPU 存储消耗和集群节点状态,因此数据可观察性工具可以比任何其他类型的解决方案更快地排除故障并解决数据拥塞和中断问题。同时也可以通过查看生成的数据,优化基础设施,帮助你降低基础设施成本。例如,通过识别瓶颈来减少过度配置或提高效率和吞吐量。

 

    对于数据层,数据可观察性可帮助数据团队管理管道性能和数据质量,并随着时间的推移提高体系结构效率和有效性。DataOps (数据运营)团队可以通过自动检查数据传输的准确性、完整性和一致性来确保高质量的数据标准。这些质量检查将构建更健康的数据管道。数据工程师可以自动收集数千个管道事件,将它们关联起来,识别异常或峰值,并使用这些信息来预测、预防、排除故障和修复问题。

 

    对于应用程序层,业务负责人可以与 BI 分析师合作,创建准确的容量估计以及满足业务目标需求的更明智的 SLA(服务级别协议),提高最终用户满意度:通过减少发现问题的时间、改进的应用程序正常运行时间和性能,将减少客户流失、提高回报率,同时也可以做成本效益分析和战略决策。

 

03

虹科数据可观察性解决方案

虹科云课堂

数据

    接下来介绍一下我们虹科的数据可观察性解决方案,它是一个由三部分产品组成的集成套件,为当今复杂的数据操作提供全面的可见性、控制和优化功能。作为中立的多平台数据可观察性解决方案,我们的方案可以使数据运营团队能够从单个控制台有效地管理其整个数据基础架构,最大限度地提高数据工程团队的生产力,以及数据模型和分析应用程序的性能和正常运行时间。其机器学习功能可帮助企业预测和预防其数据管道的潜在问题,最大限度地减少停机时间并使其能够满足其 SLA/SLO。

 

数据

解决方案包括三个产品:Pulse、Torch、Flow。Pulse 用于监控实时计算性能和基础设施使用情况,而 Torch和Flow 通过帮助可视化数据管道来提供数据可靠性和质量。我们的产品了提供数据可观察性的企业解决方案。

 

    pulse是一个数据可观察性工具,用来监控数据处理性能,预防问题发生,扩展规模,优化资源;为混合数据环境和由多种技术组成的管道提供全面的可见性。它观察混合数据环境,优化数据系统的可靠性、性能和成本。它的关键词是基础设施、服务、日志、指标和警报。

 

    Torch在数据层进行数据管理,保证数据可靠性,发现数据及优化数据。通过数据管道观察数据流,优化数据的可靠性、质量和使用,它的关键词是机器学习模型、算法、数据质量、可靠性、SQL 等等。

 

    Flow在业务层提供数据管道可视化,可以用来做进程管理、成本效益分析、决策设计等。它的关键词是管道、ETL 管道、计算、成本、SLA 等内容。

 

数据

    最后我们看一下产品的应用案例,Phonepe是沃尔玛旗下一家大型的移动支付公司,相当于印度的支付宝,它的用户是全印度3.5亿多消费者。Phonepe使用各种开源数据技术去让数以亿计的用户去实现实时支付和现金转移,使用的技术比如HBase、HDFS、Kfaka、Spark等等,但是当计算量达到一定级别或并发数达到一定级别后,这种架构的 CPU与磁盘子系统会容易出现瓶颈,它的基础设施的性能无法跟上快速扩展的业务需求,用户体验就是用这个软件会很卡,甚至无法使用,那么我们的产品是怎么样解决这些问题的呢?

 

    我们的产品为 phonepe的 Hbase、Hive和 Spark数据管道帯来了实时可视性,使 phonepe的工程师能够从单个应用程序监控其整个数据基础架构。 phonepe的数据可靠性团队能够使用 Pulse来监控其现代数据基础设施的性能,以便能够轻松区分基础设施问题造成的变化。通过提高性能密集型数据工作负载计算性能的可视性, phonepe显著提高了可靠性。最终这个公司己经能够将其数据基础设施顺利増长20倍,从70个节点増加到2000多个节点,同时在其 Hadoop数据池中保持99.9%的可用性。Phonepe将企业数据仓库处理时间从11.5小时缩短到6.5小时,还消除了计划外停机,并实现了99%以上的报告自动化。帮助这个公司降低数据仓库的成本,节省软件许可证费用等等。可以说我们的产品效果显著,立竿见影。

 

云科技事业部

虹科电子
 

虹科在工业、制造业领域深耕了长达20年,随着云技术的全面发展和数字化工厂的逐步落地,虹科参与了越来越多的云主题的业务,从最初的所有数据先统一采集上云,到后续的边缘计算再上云,到现在的全面业务优化、洞察研究、成本优化等,虹科的云科技事业部已经为行业的用户实操并积累了丰富的解决方案和应用场景。它们包括:资源监控、安全保障、多云的互联互通、应用和数据牵引等。虹科云科技团队在不断顺应国家策略,从技术创新、标准制定、丰富生态、安全保障、节能减排等五个方面,不断创造出更好的产品,帮助工业制造业的用户实现数字化转型、实现基于数据的降本增效。

 

虹科云科技工程师团队不断参与美国和欧洲产业内先进的专家培训,学习和实践创新的技术手段、操作性强的应用案例,并不断引入到国内的项目中完成落地和推广,这让我们团队充满了自豪感与使命感,赋予了我们当今时代极大的技术价值、工作成就感。

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分