大数据处理系统模式及其应用分析

描述

1  引言 

大数据处理系统始终是分析大数据的基础,因为大数据本身具有信息量繁多冗杂、扩展速度极快、信息多样性且价值密度高等特点,所以要求大数据处理系统具有极强的专业性和高效性,能够合理并有效的处理大规模的数据并形成可用的数据体系[1-3]。目前较为典型的大数据处理系统有三种。分别为大数据实时流式处理系统、离线批量处理系统、交互式处理系统以及大数据可视化处理系统,本文将依次介绍这三种大数据处理系统的概念及其特点并分析其应用场景。

处理系统

2  实时流式处理系统及应用场景

(1)流式大数据概念及其特点。流式大数据又被称为实时大数据,流式处理系统是以分析实时数据为基础,是基于实时数据流的数据处理,一般处理时间是在数百毫秒到数秒之间。

(2)大数据实时处理系统的技术架构。根据大数据实时流式处理的特点可以总结出,这种数据处理系统其实就是数据的收集、传输、处理和展现的过程。其中数据的处理中涉及数据的聚合,而且整个过程需要能够在秒级或毫秒级得到相应的响应。目前针对这一系列特点形成了 Flume + kafka + Storm / Spark + Hbase / Redis 的技术框架。

(3)大数据实时流式处理系统的应用场景。流式大数据实时处理系统主要广泛应用于金融、公安、电信、交通等领域,在金融行业,流式大数据实时处理系统在金融风控反欺诈方面发挥着重要作用,能够搜集融合众多专家知识以及机器研究结果的数百条规则,作为对每笔交易的风险评估依据,判断该笔交易是否能够安全进行。

3  离线处理系统及应用场景

(1)大数据离线处理系统概念及其特点。根据数据分析的时效性,我们可以把大数据分析处理系统分为实时处理和离线处理两种类型。

(2)大数据离线处理处理系统的常用工具。相对于在线处理系统所呈现的技术架构,大数据离线处理系统已经相对成熟,大数据离线处理的流程通常是利用 Hdfs 存储数据,确保数据有效存储之后,再利用 MapReduce 进行离线数据的批量运算,批量计算所得出的数据如果需要进入数据仓库进行存储,可以直接接入 Hive,用过 Hive 进行展示。① Hdfs 是一种分布式的文件系统,可以对数据进行多次备份。② MapReduce 是一种批量计算技术框架,同样是分布式布局,分为两个阶段:Map 阶段和 Reduce 阶段。③ Hive 中的数据存储于文件系统中,并且大部分数据是使用 Hdfs 来存储的。Hive 为方便访问数据仓库中的数据提供了一种方法,HQL 方法,该方法能够满足大数据离线处理中需要对批量处理的数据结果进行查询的要求。

(3)大数据离线处理系统目前较常见的应用场景是,大数据团队通过统一计算引擎入口,降低用户接入门槛。充分利用集群本身数据,有效促进集群本身的建设,加强对队列、任务及主机失败率的监控,使用户能够自主分析任务性能并进行自主调整。

4  交互可视化处理系统及应用场景

(1)大数据交互可视化处理的概念及其特点。大数据交互可视化处理是将大数据形象化,可视化也就是将数据呈现出可视效果。大数据交互可视化处理具有两个特点:首先表现方式多样化,包括图形、地图、故事情节图、结构化插图等。其次是适用范围广泛,具有领域创新性,随着大数据的发展,传统的数据表现形式已经不能满足需要,就要求对数据进行可视化处理。

(2)大数据交互可视化处理的主要手段。① D3 经常出现在表格插件中,是目前最受欢迎的可视化库之一。D3 可以将数据绑定到 DOM 并将其驱动转移应用到 Document 之中。同时 D3 是绘制交互桑葚图的一种非常简单的工具,桑葚图也就是桑葚能量分流图,它作为一种类型独特的流程图,一般多用于能源、金融等大数据的可视化分析。另外,D3 也可以作为对 Sunburst Partition 的可视化工具,主要用来描述用户群体的路径点击状况。② ECharts 即商业级数据图表,可以在 PC 端和移动设备上流畅运行的纯 Javascript 图表库,为我们提供生动形象,可交互,可个性定制的大数据可视化图表,能够高效增强用户体验效果。③ R 语言是目前功能比较强大的大数据可视化解决路径,R 语言基本可以独立自主地完成数据处理、可视化分析、建模以及模型分析等工作,同时可以作为配合完成与其他工具的数据交互。

除此之外,R 语言能够完成顶尖的制图工作,不仅可以完成lattcie 包、ggplot2 包的复杂数据可视化,还可以完成rCharts 包、recharts 包、plotly 包的数据交互可视化。

(3)大数据交互可视化处理的应用场景。大数据作为一个新的研究领域在近几年受到越来越多的关注,大数据可视化也正成为一大热点。以下将介绍三种大数据交互可视化较典型的应用场景。

第一是应用于社会关系的可视化,随着移动互联网的不断发展,互联网社会网络数据已成为十分重要的数据资源,社会网络分析就是利用这些数据资源分析各种网络现象。另外,用户社交性设计在最近几年的移动端网游中也受到越来越多的关注和重视,用户社交型设计就需要以数据交互可视化为基础,从而建立并美化游戏模式,增强用户游戏体验。

第二个应用场景是地理信息的可视化。例如百度迁移图,就是基于大数据可视化的地理信息可视化的典型例子,可以通过分析处理动态数据,将数据进行动态连线处理,从而形成流向图,一目了然。除此之外也可以利用 Remap 实现天气预报的功能,也可以实现会议在地图上的可视化,如中国 2015 年 R 语言会议在各个城市举行情况的可视化展示。近几年较为流行的另外一种地理信息可视化方式是城市热力图,图示以不同深浅的颜色来表示各个地区的实际数据。

第三是美国大选的大数据可视化,在美国大选期间,美国媒体产出大量选举相关的数据报道,通过对这些大数据的可视化,选民可以清晰了解选举动态。通过以上几种大数据可视化的典型例子,我们可以看出,大数据可视化是一个具有多种可能,且并不难以实现的大数据处理系统,而且具有极大的发展空间。

5  结语

大数据处理系统会随着大数据研究的深入以及数据处理技术的发展而更加多元更加完善,也将会在更多行业或领域中被实际应用。大数据已经深入到我们生活的方方面面,如何能够更有效更充分挖掘大数据中的价值仍需要不断地研究和探索。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分