IT、企业应用程序和大数据

描述

  许多组织已经意识到从其产品、服务和运营中收集的数据的价值。他们设立了新的行政职位,例如首席信息官 (CIO),其主要关注点是正确使用和保护这一新的大数据资源。CIO 随后邀请信息技术 (IT) 团队实施新的数据政策和流程,其中包括:

  治理:通过控制数据的存储、访问和处理来确保数据的完整性。

  访问:向工程、运营、保修、质量、营销和销售团队提供数据。

  处理:如果数据足够大,则需要专门的处理平台来消除传输数据的延迟并减少处理数据的时间。

  为了满足这些新要求,IT 组织正在采用新技术和平台来存储和管理这些庞大且不断增长的数据集。因此,您需要与 IT 团队更紧密地合作,以便获得访问权限并设置一个工作流,使您能够处理数据。在这个新环境中,使用与您的 IT 团队用于存储、管理和处理大数据的系统以及您熟悉的系统一起使用的软件分析和建模工具,使您能够有效地使用这些数据在日常活动中。

  大数据平台及应用

  IT 组织正在采用许多平台来存储和管理大数据。这些平台不仅提供了存储大数据的基础设施,还支持用于以不同方式处理大数据的各种应用程序。这些应用程序可以大致分为两类:大型历史数据集的批处理,以及从设备连续收集的数据的实时或近实时处理。第二种情况通常称为流式传输,在大多数物联网 (IoT) 应用程序中都可以找到。

  Hadoop

  Hadoop 是围绕分布式存储和分布式计算原则设计的。它由在服务器集群上共存的两个主要子系统组成,使其能够支持大型数据集。

  HDFS:Hadoop 分布式文件系统 (HDFS) 提供了一个用于存储数据的大型容错系统。

  YARN:Yet Another Resource Negotiator (YARN) 管理运行 Hadoop 集群和处理存储在 HDFS 中的数据的高度可扩展的应用程序。

  批处理应用程序和创建模型

  批处理应用程序通常用于分析和处理在很长一段时间内或跨许多不同设备或系统收集的历史数据。拥有使用这些批处理应用程序的能力,您可以在数据中寻找趋势并开发在过去使用大量数据时无法实现的预测模型。

  在 Hadoop 上运行的两个比较流行的批处理应用程序包括:

  Spark:一种更通用的框架,可优化内存中的操作,使其非常适合机器学习应用程序。

  MapReduce:一个高度结构化的框架,由 map 和 reduce 函数组成,适用于大数据分析和数据转换应用。

  流应用程序和模型集成

  使用从历史数据集开发的模型以及 Kafka 或 Paho 等流应用程序可以为您的产品和服务添加更多智能和自适应功能。这些差异化功能的示例包括: 预测性维护,这大大减少了不必要的维护以及计划外停机时间;调整船舶、机车和商用车辆等重型设备的服务,以在其运行环境中更好地运行,从而实现更好的燃油经济性和增强的运行;和楼宇自动化系统,以尽可能低的成本运行楼宇系统,同时仍保持舒适的环境。

  Mondi Gronau的工程师创建了一个统计过程控制 (SPC) 应用程序,其中包含使用 MATLAB 开发的预测模型。该系统不仅允许他们的机器操作员监控其许多复杂生产线的操作,而且还提供警报以指示机器何时趋向于故障状态。这些警报允许操作员在超出任何制造公差之前进行调整,从而减少原材料的损失。

  在许多情况下,这类服务通常是与企业应用程序开发人员和系统架构师一起开发的。但挑战在于如何以有效的方式将您的模型集成到这些系统中。将模型移植到另一种语言既费时又容易出错,每次对模型进行更新时都需要大量工作。用典型的 IT 语言开发预测模型很困难。拥有开发这些模型所需的领域专业知识的工程师和科学家不熟悉这些语言,而且这些语言并不总是包含充分处理和从工程和科学数据创建模型所需的功能。

  企业应用程序开发人员应该寻找一种数据分析和建模工具,它不仅为他们的工程师和科学家所熟悉,而且还提供了他们需要的特定领域的工具。这些工具还必须扩展以使用基于 Hadoop 的系统开发模型和大型数据集,这些系统提供高度稳健的应用程序服务器和代码生成等功能,从而为将模型部署到企业应用程序中提供直接路径。

  其他数据访问应用程序

  还有许多其他允许访问正在采用的大数据的应用程序。其中一些包括允许使用数据库类型语义访问存储在 HDFS 中的数据的接口。Hive 和 Impala 就是两个这样的应用程序,它们允许使用结构化查询语言 (SQL) 访问和处理数据。这是一种成熟且广泛使用的语言,用于处理关系数据库中的数据。

  NoSQL 数据库的架构旨在支持不同的大数据用例,也正在被采用。很多时候,这些数据库支持 SQL 语言的子集来访问和处理数据,但也可能具有传统数据库不提供的附加接口功能。

  科学家、工程师和 IT

  如上所述,各种系统用于存储、管理和处理大数据。通过与您的 IT 团队密切合作并利用 MATLAB 等工具,您可以创建熟悉的工作流程,使您能够轻松高效地工作,同时从大量数据中获得洞察力。

  审核编辑:郭婷

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分