大数据相关介绍:Hadoop的生态系统构成

电子说

1.3w人已加入

描述

    一、Hadoop的优点

  (1)可靠性高。Hadoop具有多个工作数据副本,确保可针对失败的节点(个人理解:一个节点可理解为一台计算机或服务器)进行重新分布处理。

  (2)扩展性高。Hadoop可扩展至数干节点。

  (3)效率高。Hadoop以并行方式工作,处理数据速度快。

  (4)成本低。与一体机、商用数据仓库等对比,Hadoop是开源的,项目的软件成本因此降低。

  二、Hadoop的生态系统构成

  (1)HDFS是一种分布式文件系统,运行于大型商用机集群,HDFS为Hadoop提供高可靠性的底层存储支撑。

  (2)MapReduce是一种分布式数据处理模式和执行环境,为Hadoop提供高性能计算能力。

  (3)HBase位于结构化存储层(根据网络资料理解:HBase位于类似windows系统中多层级文件夹的结构中),是一个分布式的列存储数据库。

  (4)Zookecper是一个分布式的、高可用性的协调服务,提供分布式锁(根据百度百科:分布式锁是控制分布式系统间同步访问共享资源的方式)等基本服务,用于构建分布式应用,为Hadoop提供了稳定服务和failover机制(根据网络资料理解:failover机制是失效转移机制,当主要组件由于失效或预定关机时间原因而无法工作时,该机制将系统组件的功能转移至二级系统组件)。

  (5)Hive是一个建立于Hadoop基础之上的数据仓库,它提供在Hadoop文件中用于数据整理、特殊查询、分析存储的数据集工具。

  (6)Pig是一种数据流语言和运行环境,用于检索大的数据集,可简化Hadoop常见工作任务。

  (7)Sqoop为HBasc提供了方便的RDBMS(根据百度百科:关系数据库管理系统)数据导入功能,可较为方便地将传统数据库数据迁移至HBase中。

  大数据图片来源:学堂在线《大数据导论》

  三、Spark介绍

  Spark是另一种大数据系统,由一系列解决不同种类问题的系统和编程库构成。下文以APACHE Spark为例,介绍Spark。

  APACHE Spark由Spark SQL、Spark Streaming、MLlib、GraphX组成。

  Spark SQL可以通过编写SQL程序的方式处理数据。因为Spark所有计算依赖于内存,中途计算结果不会被存储,所以Spark的一个优势是数据处理速度快,但同时,Spark对内存的要求较高。

  Spark Streaming可实现数据流计算(根据百度百科理解:因为数据的价值随着时间的流逝而降低,传统的数据库管理系统无法快速且无法持续的处理大量且不断更新的大数据,所以产生了可实现数据一出现就处理的数据流计算)。

  MLlib是机器学习库,可以辅助研发人员编写机器学习算法。

  GraphX是图计算框架(根据网路资料理解:图计算框架是在大数据中高效计算、存储、管理图数据的框架)。

  四、Spark的优点

  (1)Spark基于内存的迭代计算,计算速度快。

  (2)Spark引入RDD(弹性分布式数据集:可将RDD视为一个对象,所有的数据处理均封装于此对象中),容错性高。

  (3)Spark可提供更多的数据集操作类型,数据处理能力更强。数据集操作类型可分为Transformations和Actions两类(根据网络资料:Transformations可提供包括Map函数等操作,Actions可提供包括Reduce函数等操作)。

  (4)Spark可支持更多编程语言,包括:Scala(根据网络资料:类似java的编程语言)、Java、Python、R。

  编辑:黄飞

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分