×

MPP计算框架和批处理计算框架比较

消耗积分:3 | 格式:rar | 大小:0.20 MB | 2018-02-24

分享资料个

  MPP最开始的设计目的是为了消除共享资源的使用,即每个executor有独立的cpu、内存和磁盘等资源,每个executor一般不能访问其他executor的资源。但是有一种情况例外,那就是当数据必须要通过网络进行交换的时候(译者注:即shuffle)。这种设计理念效果很好,使MPP具有了比较凑合的扩展性。

  MPP的第二个重概念是“并发”,即每个executor执行同样的数据处理逻辑,处理的数据则是这个executor所在的节点的本地存储的数据分片,在这些执行步骤中,有一些被称为同步点(synchronization points)的东东,这些同步点多数情况下是在执行节点间的数据交换,比如spark和mr中得shuffle操作。下图是一个典型的MPP查询时间线,垂直的虚线表示同步点,例如,如果遇到join或者aggregation(译者注:即sql中的group by)操作,就需要一个同步操作来完成shuffle,而task本身(译者注:executor是进程级概念,task是executor内部的线程)则执行的是数据聚合、join、排序以及其他可以在本节点独立完成的任务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !