如何解决Spark数据倾斜的八种实用方法详细说明

消耗积分:2 | 格式:doc | 大小:0.04 MB | 2020-04-01

十次方

分享资料个

　　什么是数据倾斜？

　　对 Spark/Hadoop 这样的分布式大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。

　　对于分布式系统而言，理想情况下，随着系统规模（节点数量）的增加，应用整体耗时线性下降。如果一台机器处理一批大量数据需要 120 分钟，当机器数量增加到 3 台时，理想的耗时为 120 / 3 = 40 分钟。但是，想做到分布式情况下每台机器执行时间是单机时的1 / N，就必须保证每台机器的任务量相等。不幸的是，很多时候，任务的分配是不均匀的，甚至不均匀到大部分任务被分配到个别机器上，其它大部分机器所分配的任务量只占总量的小部分。比如一台机器负责处理 80% 的任务，另外两台机器各处理 10% 的任务。

　　『不患多而患不均』，这是分布式计算环境下最大的问题。意味着计算能力不是线性扩展的，而是存在短板效应：一个 Stage 所耗费的时间，是由最慢的那个 Task 决定。

　　由于同一个 Stage 内的所有 task 执行相同的计算，在排除不同计算节点计算能力差异的前提下，不同 task 之间耗时的差异主要由该 task 所处理的数据量决定。所以，要想发挥分布式系统并行计算的优势，就必须解决数据倾斜问题。

　　数据倾斜的危害

　　当出现数据倾斜时，小量任务耗时远高于其它任务，从而使得整体耗时过大，未能充分发挥分布式系统的并行计算优势。

　　另外，当发生数据倾斜时，部分任务处理的数据量过大，可能造成内存不足使得任务失败，并进而引进整个应用失败。

　　数据倾斜的现象

　　当发现如下现象时，十有八九是发生数据倾斜了：

　　绝大多数 task 执行得都非常快，但个别 task 执行极慢，整体任务卡在某个阶段不能结束。

　　原本能够正常执行的 Spark 作业，某天突然报出 OOM（内存溢出）异常，观察异常栈，是我们写的业务代码造成的。这种情况比较少见。

　　TIPS：

　　在 Spark streaming 程序中，数据倾斜更容易出现，特别是在程序中包含一些类似 sql 的 join、group 这种操作的时候。因为 Spark Streaming 程序在运行的时候，我们一般不会分配特别多的内存，因此一旦在这个过程中出现一些数据倾斜，就十分容易造成 OOM。

　　数据倾斜的原因

　　在进行 shuffle 的时候，必须将各个节点上相同的 key 拉取到某个节点上的一个 task 来进行处理，比如按照 key 进行聚合或 join 等操作。此时如果某个 key 对应的数据量特别大的话，就会发生数据倾斜。比如大部分 key 对应10条数据，但是个别 key 却对应了100万条数据，那么大部分 task 可能就只会分配到10条数据，然后1秒钟就运行完了;但是个别 task 可能分配到了100万数据，要运行一两个小时。

　　因此出现数据倾斜的时候，Spark 作业看起来会运行得非常缓慢，甚至可能因为某个 task 处理的数据量过大导致内存溢出。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

瑞芯微RK3572开发板-产品资料更新-2026.06
2026-06-24 5次下载

下载
灵动 ATE 自动测试系统用户使用说明
2026-07-13 2次下载

下载
高性能非隔离交直流转换芯片 PC9403A数据手册
2026-07-02 2次下载

下载
矩形科技 CANopen 远程IO模块产品手册
2026-06-26 2次下载

下载
OC5721欧创芯开关降压型LED恒流驱动器
2026-07-03 2次下载

下载
GL65P06A8产品光磊 60V 65A P沟道功率 MOSFET
2026-07-03 1次下载

下载

如何解决Spark数据倾斜的八种实用方法详细说明

Linux的内核定制方法详细说明

Linux的内核定制方法详细说明

github上的pytorch学习资料详细说明

Xilinx的时序设计与约束资料详细说明

时序分析的优化策略详细说明

时序分析的优化策略详细说明

PLC的39个应用案例详细说明

Python的知识点总结详细说明

如何使用Python绘制PDF文件教程详细说明

机器人单片机控制三大模块的方法的详细说明

ABB报警代码及处理方法详细说明

西门子PLC培训资料之数据块中的数据存储详细说明

西门子PLC的数字指令教程详细说明

LabVIEW的术语快速索引详细说明

西门子PLC位指令的教程详细说明

Java Script的编码规范详细说明

RTD系列板卡升级操作方法详细说明

提高LabVIEW开发速度的方法有哪些25个技巧详细说明

测试比较四种Arduino Nano全新型号的数据详细说明

使用Cmake配置opencv的教程详细说明

5种数据库的SQL语句大全详细说明

使用SQL语句创建数据库的实例详细说明

NET经常使用的DbHelperSQL详细说明

Access数据库不能写的问题应该如何解决详细办法说明

SQL的常用命令使用方法详细说明

Keil编译的常见错误详细说明

机器视觉系统的三种应用案例详细说明

在Windows系统下使用STC ISP下载51单片机程序的方法详细说明

51单片机无法烧录程序应该如何解决详细方法说明

Matlab图形绘制经典案例详细说明

德州仪器详细说明隔离式放大器选型的核心要素

瑞芯微rv1106开发资料 rv1106数据手册 rv1106详细说明书免费下载

调试变频器详细说明

编码器常见的故障详细说明

spark运行的基本流程

网线接线标准详细说明

Spark基于DPU Snappy压缩算法的异构加速方案

3KW工业变频器电路设计方案详细说明

KT142C-sop16语音芯片ic的串口指令详细说明_默认9600指令可设

CK6876无线话筒方案-芯片的功耗详细说明

使用SPARK和Ada进行代码清理

利用Apache Spark和RAPIDS Apache加速Spark实践

剖析Spark的两种核心Shuffle

数据规模下使用Spark时遇到的挑战

简述Hive 数据倾斜问题定位排查及解决

八种常见的数据分析方法介绍

Spark SQL的概念及查询方式

如何解决数据倾斜的问题？

MPSoC Video Codec Unit提供详细说明

PIC系列单片机程序设计基础知识详细说明

关于端子恰当的压接检测方法的详细说明

C语言和C++的特点与用法详细说明

FPGA的入门基础知识详细说明

倾斜传感器的三种类型说明

单片机遥控解码的源代码详细说明

使用AT89S51单片机制作红外遥控器的资料和源代码详细说明

STM32内部RAM在线调试配置方法及详细说明 （基于Keil开发工具）

Keil（MDK-ARM）系列教程（二）_ 工具栏详细说明

常用稳压二极管的参数表格详细说明

电气电缆的最全常用手册详细说明

下载排行榜

瑞芯微RK3572开发板-产品资料更新-2026.06

灵动 ATE 自动测试系统用户使用说明

高性能非隔离交直流转换芯片 PC9403A数据手册

矩形科技 CANopen 远程IO模块产品手册

OC5721欧创芯开关降压型LED恒流驱动器

GL65P06A8产品光磊 60V 65A P沟道功率 MOSFET

瑞芯微rv1106开发资料　rv1106数据手册　rv1106详细说明书免费下载

STM32内部RAM在线调试配置方法及详细说明（基于Keil开发工具）