基于SparkSQL与Tachyon的PINGO架构

消耗积分:1 | 格式:rar | 大小:0.5 MB | 2017-10-11

分享资料个

　PINGO是一个由百度大数据部与百度美国研发中心合作而成的分布式交换查询平台。在PINGO之前，百度的大数据查询作业主要由基于Hive的百度QueryEngine去完成。QueryEngine很好的支持着百度的离线计算任务，可是它对交互式的在线计算任务支持并不好。为了更好的支持交互式任务，我们在大约一年前设计了基于SparkSQL与Tachyon的PINGO的雏形。在过去一年中，通过跟不同业务的结合，PINGO逐渐的演变成一套成熟高效的交互式查询系统。本文将详细介绍PINGO的架构迭代过程以及性能评估。
　　PINGO设计目标
　　QueryEngine是基于Hive的百度内部的大数据查询平台，这套系统在过去几年中较好的支撑了百度的相关业务。图1展示了QueryEngine的架构图，其服务入口叫做Magi。用户向Magi提交查询请求， Magi为这次请求分配一个执行机，执行机会调用Hive读取Meta信息并向Hadoop队列提交任务。在这一过程中，用户需要自行提供计算需要的队列资源。随着近几年对大数据平台的要求越来越高，我们在使用QueryEngine过程中也发现了一些问题：首先QueryEngine需要由用户提供计算资源，这使得数据仓库的用户需要去了解Hadoop以及相关的管理流程，这增加了用户使用数据的门槛。第二，对于很多小型计算任务而言， MR的任务的起动时间也较长，往往用户的计算任务只需要1分钟，但是排队/提交任务就需要超过一分钟甚至更长的时间。这样的结果是，QueryEngine虽然很好的支持线下执行时间长的任务，但是对线上的一些交换式查询任务（要求延时在一到两分钟内）确是无能为力。
　　基于SparkSQL与Tachyon的PINGO架构

　　图1： Query Engine 的执行流程
　　为了解决这些问题，在大约一年前，我们尝试在离线计算的技术栈上搭建起一套具有在线服务属性的SQL计算服务 PINGO。如图2所示： PINGO使用了SparkSQL为主要的执行引擎，主要是因为Spark具有下面的特点：
　　内存计算：Spark以RDD形式把许多数据存放在内存中，尽量减少落盘，从而提升了计算性能。可常驻服务：Spark可以帮助实现常驻式的计算服务，而传统的Hadoop做不到这一点。常驻式的计算服务有助于降低数据查询服务的响应延迟。机器学习支持：对于数据仓库的使用，不应仅仅局限于SQL类的统计任务。 Spark的机器学习库可以帮助我们将来扩展数据仓库，提供的交互式的数据挖掘功能。计算功能多元：虽然PINGO是一个查询服务，不过仍然有其他类型的计算需求，如数据预处理等。使用Spark可以使我们用一个计算引擎完成所有的任务，简化系统的设计。
　　基于SparkSQL与Tachyon的PINGO架构

　　图2： PINGO初版系统架构设计

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

暂无相关数据

基于SparkSQL与Tachyon的PINGO架构

克服全车以太网汽车架构中的 QoS 挑战

适应边缘AI全新时代的GPU架构

网络架构的时钟系统——设计与验证

RTE架构实现

探究USB协议架构及驱动架构

基于汽车以太网的车辆基础设施及电气架构

基于多云网络架构的应用编排混合部署研究

基于无线宽带的林业监控网络架构设计方案

NUMA架构下的内存数据库命令日志故障恢复

基于多通道自注意力机制的电子病历架构

智能网联汽车信息物理系统参考架构报告

基于FPGA的USB3.0协议高速通信架构

微服务软件架构应用研究综述

虚拟化模型驱动的分布式数据湖架构设计

NiOSⅡ处理器的Avalon总线架构资料下载

深度：嵌入式系统的软件架构设计！资料下载

LoRa技术网络架构及与NB-IoT的对比资料下载

了解FPGA和CPLD架构的基础知识资料下载

微服务架构下图规划算法的改进方法

流形学习与非负矩阵分解架构综述

智能汽车网络架构及CANFD升级资料下载

区块链的基础架构、应用发展及关键技术综述

基于编码-解码卷积架构的联合策略网络

大数据平台架构与建设思路

以进化算法为搜索策略实现神经架构搜索的方法

区块链的核心架构及技术相关研究

一种基于多视图架构的深度卷积神经网络模型

一种分布式网络扫描架构和任务调度算法

采用电流模式DC-DC升压转换器调节器HM6297

粗粒度可重构阵列架构相关实践

物联网应用的SoC安全架构设计方案

阿联酋纳斯达克上市公司Robo.ai 携手美国Tachyon9 科技公司进军亚太中东 AI 算力基建

汽车电气架构中的电源架构

架构与设计 常见微服务分层架构的区别和落地实践

指令集架构与微架构的区别

交换芯片架构是什么意思 交换芯片架构怎么工作

Lambda数据架构和Kappa数据架构——构建现代数据架构

javaweb三层架构和mvc架构

Lambda数据架构和Kappa数据架构——构建现代数据架构

rh850是什么架构？

bom架构是什么意思 探讨BOM架构三个重要的问题

RetNet架构和Transformer架构对比分析

浅谈FPGA芯片架构

X86架构与Arm架构的区别

从分层架构到微服务架构介绍（五）

从分层架构到微服务架构介绍（一）

架构与微架构设计

什么是MES系统架构？

如何画技术架构图

Arm架构科普解读 Arm架构的底层逻辑和Arm架构的顶层设计

如何画架构图

什么是系统架构 为什么要做架构设计

什么是 SD-WAN 架构？

什么是架构和架构本质

SparkSQL编程基本概念和基本用法

微服务架构有哪些_微服务架构设计模式

插件化架构定义及插件化架构的实践思路分析

Join在Spark中是如何组织运行的

SOA架构和微服务架构的主要区别

为什么要使用Arm架构

聊聊关于架构的话题

下载排行榜

架构与设计常见微服务分层架构的区别和落地实践

交换芯片架构是什么意思交换芯片架构怎么工作

bom架构是什么意思探讨BOM架构三个重要的问题

什么是系统架构为什么要做架构设计