apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

使用k-means聚类时如何设置火花配置以减少混乱?

我知道有很多'如何调整你的Spark工作'等博客文章和帖子,但不幸的是我的目标是在pyspark(k-means)中使用内置的集群模块,所以建议......

回答 1 投票 0

如何将所有列为字符串的DataFrame转换为具有特定架构的DataFrame

想象一下以下输入:val data = Seq((“1 :: Alice”),(“2 :: Bob”))val dfInput = data.toDF(“input”)val dfTwoColTypeString = dfInput.map(row => row .getString(0).split(“::”))。map {case Array(id,...

回答 4 投票 0

从spark数据框中选择或删除重复列

给定一个火花数据帧,有一个重复的列名称(例如A),我无法修改上游或源,我如何选择,删除或重命名其中一列,以便我可以检索...

回答 1 投票 0

指定字符串长度超过256的pyspark数据帧模式

我正在阅读一个获得描述的时间长于256个字符的来源。我想把它们写到Redshift。根据:https://github.com/databricks/spark-redshift#configuring-the-maximum-size-of-string -...

回答 1 投票 1

SyntaxError:使用ArrayType创建DataFrame时语法无效

我想从pyspark.sql创建PySpark DataFrame导入SparkSession来自pyspark.sql.types import * from pyspark.sql import Row spark = SparkSession \ .builder \ .appName(“Test”)\ ....

回答 1 投票 -2

选择人口超过410000的城市数量

我是sql的新手。我有一个表数据,如区城市州人口d1 c1 s1 2000 d2 c1 s1 10000 d3 c1 s1 400000 d1 ...

回答 1 投票 0

通过连接数据帧(父级和子级)创建JSON

我想从2个数据帧中创建一个json(一个是Parent,另一个是child)。子记录应该是一个数组,形成一个嵌套的JSON Df1(部门):+ ---------- + ------------ + | dept_Id ......

回答 1 投票 1

在dataframe的selectExpr中使用包含表达式的字符串变量

我在尝试在数据帧的selectExpr中使用包含my表达式的变量时遇到问题。所以我的变量为:expression ='“substr(value,1,1)as qffffffffbf3ef0cf”,“substr(value,...

回答 1 投票 1

如何使用pysparkSQL将字符串传输到dict

在pysparkSQL中,我有一个名为bmd2的DataFrame,如下所示:DataFrame [genres:string,id:int,tagline:string,title:string,vote_average:double,vote_count:int]数据bmd2 ['genres']去... 。

回答 2 投票 0

Spark-r manupulating数据

我有一个样本数据如下:UserId,ProductId,Category,Action 1,111,Electronics,Browse 2,112,Fashion,Click 3,113,Kids,AddtoCart 4,114,Food,Purchase 5,115,Books,Logout 6,114,Food,Click 7,113,Kids,。 ..

回答 1 投票 1

如何在加入后更新Spark Scala中的dataframe列?

将两个数据帧连接成近60列。他们中的大多数人都认为保持不变,但有些人需要根据其他列中的值进行更新。有没有办法更新这些列没有...

回答 2 投票 0

从地图序列创建Spark数据帧

我有一系列地图。每个映射都包含列名作为键,列值作为值。所以一张地图描述了一行。我不知道地图中会有多少条目。所以我无法创造......

回答 1 投票 0

不支持的子查询表达式''Fashion'':SubQuery表达式仅指外部查询表达式

我正在使用以下查询:从customer_data中选择UserId,Category(在('Fashion','Electronics')中的类别)和('Click','AddToCart','Purchase')中的操作)和customer_data.UserId不在(...

回答 1 投票 1

当我使用带有spark / scala的window.partitionBy()函数时,如何保持partition'number不变?

我有一个RDD,当我使用窗口时,结果的RDD'分区变为200,我使用窗口时是否可以不更改分区?这是我的代码:val rdd = sc.parallelize(List(1,3,2,4,5,6,7,8),4)val ...

回答 2 投票 2

Pyspark,决策树(Spark 2.0.0)

我是新来的火花(使用pyspark)。我尝试从这里运行决策树教程(链接)。我执行代码:从pyspark.ml导入管道来自pyspark.ml.classification导入...

回答 1 投票 4

如何使用spark-scala从表中计算空值?

我有表名“data”,它有5列,每列包含一些空值。我想计算每列的空值我怎样才能为该结果编写代码!它易于采取...

回答 1 投票 0

如何将数字列表转换为一个火花中有一列的数据框? [重复]

例如,我想将像1,2,3,4,5这样的列表创建为一个火花数据帧,其中包含一列和五行,我该怎么办呢?好吧我实际上想做一个这样的任务:我有一个火花数据帧...

回答 2 投票 -3

将MS-SQL查询转换为spark SQL时出现问题

我希望将这个基本的SQL查询转换为Spark select Grade,count(*)* 100.0 / sum(count(*))over()来自StudentGrades组,我已经尝试过使用像这样的spark中的窗口函数...

回答 1 投票 0

Spark 2:当调用SparkSession enableHiveSupport()时它是如何工作的

我的问题很简单,但通过阅读文档我无法找到明确的答案。我在CDH 5.10集群上运行Spark2。还有Hive和Metastore。我创造了......

回答 4 投票 3

使用Spark SQL的多级复杂嵌套Json

我有一个特定的要求,通过使用Spark SQL在嵌套的json中转换一些相关的表数据。我用Scala实现了它,但没有在Spark SQL中解决它。 {“......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.