×

一种面向MapReduce的中间数据传输流水线优化机制

消耗积分:0 | 格式:pdf | 大小:2.31 MB | 2021-04-13

分享资料个

  Mapreduce是一种适用于大数据处理的重要并行计算框架,通过在大量集群节点上并行执行多个任务,极大地提高了数据的处理性能。然而,由于中间数据需要等到 Mapper任务完成之后才能被发送给 Reducer任务,由此导致的大量传输延迟成为 Mapreduce框架性能的重要瓶颈。为此,文中提出了一种面向 Mapreduce的中间数据传输流水线优化机制,将有效计算与中间数据传输解耦,以流水线的方式重叠执行各个阶段,有效隐藏数据传输开销。文中还给岀了中间数据传输流水线执行机制和实现策略,包括流水线划分、数据细分、数据归并和数据传输粒度等。在公开数据集上对所提中间数据传输流水线优化机制进行了评价,当 Shuffle数据量较大时,该优化机制比默认框架的整体性能提高了60.2%。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !