盘点分布式存储系统的主流框架

存储技术

606人已加入

描述

整个大数据处理的体系,按我的理解可以分为两个部分,一个是分布式存储系统、另一个是分布式计算框架。分布式存储系统主流是HadoopDFS,其他还有Ceph和Swift。分布式计算框架主流是MapReduce,Storm和Spark。

首先说分布式存储系统HadoopDFS。它是一种本地文件系统之上的更高的抽象,把跨节点的组成的文件系统看成一个逻辑上的整体。它存储的思路是,把文件分成一个个block,每个block都有一定量的副本存储在不同的节点上,默认数量是3个,这保证了分布式存储的数据的稳定性。

HDFS的架构有NameNode、SecondaryNameNode、DataNode。NameNode节点主要负责客户端传来的读写请求,保存文件的metadata。SecondaryNameNode负责帮助NameNode合并editlog。DataNode负责储存Block,向NameNode汇报block信息、发送heartbeat。

HDFS写入文件的时候:客户端通过RPC向NN调用create()方法,NN检查文件是否存在,不存在并且有权限的话就会创建一个新文件,向客户端返回一个FSDataOutputStream,用于写数据。

HDFS读文件的时候,客户端通过RPC向NN调用open()方法,NN获得每个数据块的位置信息,返回客户端FSDataInputstream,客户端调用其read()方法读取数据块。

分布式计算框架中最流行的是MapReduce。它把并行计算、容错等细节问题封装到库里,程序员只需要编写map和reduce函数就可以了。这种模型的灵感来自函数式编程中的map和reduce原语。Map函数接受KV值,输出KV值,reduce函数接收KEY和相同key构成的value的集合的迭代器,再输出KV值。

整个执行过程是:用户提交job给调度系统,每个job包含一系列task,调度系统将这些任务调度到集群中多台可用的机器上。

开始执行后,数据被分割成M个数据片段集合,再调用map函数,之后被分区函数将结果分成R个不同分区,之后执行Reduce函数。具体就是:

输入文件分成M个数据片段,每个片段大小是HDFS的blocksize,程序副本也被创建到集群中。

这些程序的副本有一个master,master负责分配任务给其他空闲的worker。

分配了map任务的worker程序读取数据片段,解析成KV对,然后传递给自定义的map函数,再解析出中间KV对,缓存在内存中。

分区函数把内存中的KV对分成R个区域,周期性写入文件系统,缓存的KV对在本地磁盘位置传给master,master再把位置传给reduceworker。

reduceworker收到位置信息,通过RPC从mapworker所在主机磁盘读取缓存数据。读取后,通过对key排序使得具有相同key的数据聚合在一起,

排序过后,每个key对应的value集合传给自定义reduce函数,处理之后,结果追加到所属分区的输出文件中。

map和reduce任务都完成后,master唤醒用户程序,返回结果。

Spark这个计算框架的两个优势是内存计算和DAG。它的五大特性:

         RDD都是由partition组成的

         每个split都会有相同的计算函数

         有一系列的依赖关系

         对键值对类型的RDD可以为他分区,但我暂时没用过

         移动计算,而不移动数据。他会把计算发到相应数据集所在节点。

整个spark的核心就是RDD,一个RDD中的数据可以做partition分区,对于RDD的操作也只有transformation和action两种。

一个Spark作业就是对RDD的一系列操作(transformation和一个action)。作业又可以分为多个stage,stage的划分又出现了宽依赖和窄依赖的概念。窄依赖就是父RDD的每个分区最多被一个子RDD的分区所用,宽依赖就是子RDD的每个分区依赖于父RDD的多个分区或所有分区。当一个作业的lineage过长,可以用到缓存管理,persis或者cache一下,加快整个处理速度。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分