400 028 6601

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

SparkSQL中怎么创建DataFrames-创新互联

本篇内容主要讲解“Spark SQL中怎么创建DataFrames”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Spark SQL中怎么创建DataFrames”吧!

成都创新互联成立于2013年,我们提供高端网站建设公司成都网站制作成都网站设计、网站定制、网络营销推广小程序制作、微信公众号开发、成都网站推广服务,提供专业营销思路、内容策划、视觉设计、程序开发来完成项目落地,为酒店设计企业提供源源不断的流量和订单咨询。

一、Spark SQL简介

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!同时Spark SQL也支持从Hive中读取数据。

二、Spark SQL的特点

三、核心概念:DataFrames和Datasets

DataFrame是组织成命名列的数据集。它在概念上等同于关系数据库中的表,但在底层具有更丰富的优化。DataFrames可以从各种来源构建,例如:

DataFrame API支持的语言有Scala,Java,Python和R。

Spark SQL中怎么创建DataFrames

从上图可以看出,DataFrame多了数据的结构信息,即schema。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外,更重要的特点是提升执行效率、减少数据读取以及执行计划的优化。

Dataset是数据的分布式集合。Dataset是在Spark 1.6中添加的一个新接口,是DataFrame之上更高一级的抽象。它提供了RDD的优点(强类型化,使用强大的lambda函数的能力)以及Spark SQL优化后的执行引擎的优点。一个Dataset 可以从JVM对象构造,然后使用函数转换(map, flatMap,filter等)去操作。 Dataset API 支持Scala和Java。 Python不支持Dataset API。

四、创建DataFrames

Spark SQL中怎么创建DataFrames

case class Emp(empno:Int,ename:String,job:String,mgr:Int,hiredate:String,sal:Int,comm:Int,deptno:Int)
val lines = sc.textFile("hdfs://bigdata111:9000/input/emp.csv").map(_.split(","))
val emp = lines.map(x => Emp(x(0).toInt,x(1),x(2),x(3).toInt,x(4),x(5).toInt,x(6).toInt,x(7).toInt))
val allEmpDF = emp.toDF

Spark SQL中怎么创建DataFrames

allEmpDF.createOrReplaceTempView("emp")
spark.sql("select * from emp").show

到此,相信大家对“Spark SQL中怎么创建DataFrames”有了更深的了解,不妨来实际操作一番吧!这里是创新互联网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!


当前名称:SparkSQL中怎么创建DataFrames-创新互联
分享URL:http://mbwzsj.com/article/dgjjes.html

其他资讯

让你的专属顾问为你服务