×

分布式数据流上的高性能分发策略

消耗积分:3 | 格式:rar | 大小:1.88 MB | 2017-12-30

分享资料个

随着大数据应用的普及,高效可扩展的数据流操作在实时分析处理中扮演着越来越重要的角色.分布式并行处理架构是应对大流量、低延时数据流处理任务的一种有效解决方案.然而在 Key-based 分组并行处理中,由于数据的倾斜分布及数据流本身的实时、动态和数据规模不可预知等特性,使得数据流分布并行处理系统存在持续且动态负载不均衡现象,这会造成系统时效性降低、硬件资源浪费等问题.现有的研究工作处理均衡负载有两种方案:(1) 基于 key 粒度的迁移,使得并行处理节点负载达到均衡;(2) 基于元组粒度级别的拆分,采用随机分发使系统均衡.前者将系统调整至给定的均衡容忍范围内,类似于一维装箱的 NP 问题;后者对 key 的拆分势必带来新的为维护 Key-based 操作的正确性而增加的额外代价,如内存及网络通信成本.综合两种方法,提出对 key 按需拆分、尽量合并的方法,通过轻量级均衡调整算法以及保证 Key-based 操作特性的拆分方法,使系统既能达到后者的均衡,又能减少细粒度均衡所带来的额外代价。
分布式数据流上的高性能分发策略

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !