如何使用Apache Spark 2.0

消耗积分:1 | 格式:rar | 大小:0.5 MB | 2017-09-28

分享资料个

　　Spark 2.0中使用DataFrames和SQL的第一步

　　Spark 2.0开发的一个动机是让它可以触及更广泛的受众，特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此，Spark 2.0现在比以往更易使用。在这部分，我将介绍如何使用Apache Spark 2.0。并将重点关注DataFrames作为新Dataset API的无类型版本。

　　到Spark 1.3，弹性分布式数据集（Resilient Distributed Dataset，RDD）一直是Spark中的主要抽象。RDD API是在Scala集合框架之后建模的，因此间接提供了Hadoop Map / Reduce熟悉的编程原语以及函数式编程（Map、Filter、Reduce）的常用编程原语。虽然RDD API比Map / Reduce范例更具表达性，但表达复杂查询仍然很繁琐，特别是对于来自典型数据分析背景的用户，他们可能熟悉SQL，或来自R/Python编程语言的数据框架。

　　Spark 1.3引入了DataFrames作为RDD顶部的一个新抽象。DataFrame是具有命名列的行集合，在R和Python相应包之后建模。

　　Spark 1.6看到了Dataset类作为DataFrame的类型化版本而引入。在Spark 2.0中，DataFrames实际上是Datasets的特殊版本，我们有type DataFrame = Dataset ［Row］，因此DataFrame和Dataset API是统一的。

　　表面上，DataFrame就像SQL表。Spark 2.0将这种关系提升到一个新水平：我们可以使用SQL来修改和查询DataSets和DataFrames。通过限制表达数量，有助于更好地优化。数据集也与Catalyst优化器良好集成，大大提高了Spark代码的执行速度。因此，新的开发应该利用DataFrames。

　　在本文中，我将重点介绍Spark 2.0中DataFrames的基本用法。我将尝试强调Dataset API和SQL间的相似性，以及如何使用SQL和Dataset API互换地查询数据。借由整个代码生成和Catalyst优化器，两个版本将编译相同高效的代码。

　　代码示例以Scala编程语言给出。我认为这样的代码最清晰，因为Spark本身就是用Scala编写的。

　　➤SparkSession

　　SparkSession类替换了Apache Spark 2.0中的SparkContext和SQLContext，并为Spark集群提供了唯一的入口点。

　　如何使用Apache Spark 2.0

　　为了向后兼容，SparkSession对象包含SparkContext和SQLContext对象，见下文。当我们使用交互式Spark shell时，为我们创建一个名为spark的SparkSession对象。

　　➤创建DataFrames

　　DataFrame是具有命名列的表。最简单的DataFrame是使用SparkSession的range方法来创建：

　　使用show给我们一个DataFrame的表格表示，可以使用describe来获得数值属性概述。describe返回一个DataFrame：

　　如何使用Apache Spark 2.0

spark2.0

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

暂无相关数据

如何使用Apache Spark 2.0

Apache Impala Guide资料分享

Linux下Apache性能分析总结

Apache服务器的配置设置总结

设计动态网站的最佳方案-Apache+PHP+MySQL

mysql的安装-与php、Apache相结合

在linux下安装Apache+Php+Mysql

Apache2.2.x+PHP5.3.x+MySQL5.1.x-搭建WMAP运行环境

CentOS-5.3搭建Apache2.2.4+Mysql5.1.4+PHP5.3服务器

CentOS下配置Apache+PHP+MySQL

Php+mysql+apache编译安装详述

VISTA-64位-PHP+MYSQL+APACHE配置方法

散装包完美搭建wamp(windows+Apache+MySQL+php+phpmyadmin）

Linux下Apache服务器的安装和配置

Linux的apache

apache反向代理和负载均衡总结

apache+tomcat负载均衡整合文档

Apache2+tomcat5.5集群及Apache负载均衡配置实例

Apache与Weblogic的整合

轻松实现Apache Tomcat集群负载均衡

WebLogic10.3+Apache2.2集群配置图文指南（含windows版和unix版）

USB 2.0技术协议英文资料汇总下载

塔基系统H82-2.0MW风力发电机组原理图

USB 2.0高速4端口集线器控制器MA8601

USB Type-C到HDMI2.0转换器芯片CS5265AN

USB Type-C转HDMI2.0音频转换芯片CS5265原理图

USB Type-C到HDMI2.0转换器CS5265AN数据手册

DP1.4至HDMI 2.0b转换器CSS263AN数据手册

Spark机器学习教材

基于树状结构Parzen估计方法的超参数优化方法

Apache Jakarta项目的Tomcat软件资源下载

5G无线接入网 SPark单验测试资料下载

NVIDIA DGX Spark快速入门指南

使用NVIDIA GPU加速Apache Spark中Parquet数据扫描

NVIDIA加速的Apache Spark助力企业节省大量成本

spark运行的基本流程

Spark基于DPU的Native引擎算子卸载方案

Spark基于DPU Snappy压缩算法的异构加速方案

RDMA技术在Apache Spark中的应用

基于DPU和HADOS-RACE加速Spark 3.x

Apache服务器和Nginx服务器

什么是Apache日志？Apache日志分析工具介绍

Apache Pulsar的特性

NVIDIA 携手腾讯开发和优化 Spark UCX 实现性能跃升

为Spark ML算法提供GPU加速度

源译识 | Apache License V2.0译文公示

SPARK语言可否取代 C语言？

Apache Spark 靠什么帮助获得市场头把交椅？

Apache安全加固 隐藏Apache banner信息

Apache Doris正式成为 Apache 顶级项目

利用Apache Spark和RAPIDS Apache加速Spark实践

一文详细了解APACHE SPARK开源框架

Apache Spark 3.2有哪些新特性

Below：一个用于现代Linux系统的Apache 2.0许可的资源监视器

剖析Spark的两种核心Shuffle

数据规模下使用Spark时遇到的挑战

Spark SQL的概念及查询方式

RT-Thread Smart已正式上线，源代码可下载，采用Apache License 2.0

探讨Apache kafka在部署可伸缩物联网解决方案中所扮演的角色

NVIDIA为全球领先的数据分析平台Apache Spark提速

Spark SQL性能实现17.7倍的提升，是如何做到的

怎样在不使用Spark应用程序的情况下使Spark Core运行

下载排行榜

Apache安全加固隐藏Apache banner信息