apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

在Spark Scala中接受所有json字段值作为String的正确方法是什么?

我是Spark的新手并且尝试了一些。目前,我有一个模式,我使用它将json数据加载到Spark中。 json的结构如下:{“value1”:345.2“value2”:32}我是......

回答 2 投票 0

Spark Dataframe - 获取所有对的列表(Scala)

我有以下情况:我有一个带有'array'的数据帧作为模式。现在我想获取每个数组,所有对的列表并将其再次保存在数据帧中。例如:这是......

回答 1 投票 1

Pyspark:数据框的词典列表

我有一个数据框,其中我有一列,每行包含一个字典列表:[Row(payload = u“[{'key1':'value1'},{'key2':'value2'},{'key3 ':'value3'},{...}]“),行(有效负载= u”[{'key1':'...

回答 2 投票 0

PySpark - 有没有办法水平连接两个数据帧,以便第一个df中的每一行都包含第二个df中的所有行

所以我有一个带有唯一user_ids的用户df和带有一组问题的第二个df。然后我想合并dfs,以便每个user_id附加到完整的问题集:User Df:+ ------------...

回答 1 投票 1

如何在数据框中的列内处理json数据集

我在spark中有一个数据帧,有一列有json类型的数据。 column3:z:{k:{q1:null,q2:1,q3:23,q4:null,q5:{v1:null,v2:wers,v3:null} ...

回答 1 投票 0

在Spark中使用UDF时出现任务序列化错误

当我创建如上所示的UDF函数时,我收到任务序列化错误。仅当我使用spark-submit在集群部署模式下运行代码时才会出现此错误。但是,它适用于火花-...

回答 1 投票 1

Spark DataFrame在使用mergeSchema时重复列名

我有一个巨大的Spark DataFrame,我使用以下语句创建val df = sqlContext.read.option(“mergeSchema”,“true”)。parquet(“parquet / partitions / path”)现在当我尝试做列时.. 。

回答 1 投票 1

Zeppelin - 两次相同的show(),两个不同的结果

我是Zeppelin的新手,也许我的问题很天真。首先,我得到这样的基本数据:import org.apache.spark.sql.functions.sql val dfOriginal = sql(“SELECT CAST(event_type_id AS STRING),...

回答 1 投票 0

按列数列过滤Scala数据帧

我的scala数据框有一个包含数据类型数组的列(element:String)。我想显示那个列中包含单词“hello”的数据帧行。我有这个:display(df.filter($“...

回答 1 投票 0

如何检查spark sql map类型中是否存在key

所以我有一个包含一列地图类型的表(键和值都是字符串)。我想写这样的spark sql来检查地图中是否存在给定的密钥。从my_table中选择count(*),其中......

回答 2 投票 1

如何获取列中最常见的非空值?

我有以下DataFrame df:+ ------------------- + -------- + ------------- ------- + | ID |名称|键入|网址| + ------------------- + -------- + -------------------- + | 1 | ...

回答 1 投票 1

如何设置spark以与logi分析一起使用?

我正在尝试配置Spark以与Logi Analytics一起使用。这样我就可以使用Spark SQL查询数据并在logi分析中将其可视化。关于将Apache spark与logi Analytics连接的任何建议......

回答 1 投票 2

如何在Scala中将时间戳大小调整为毫秒?

我有一个包含列列表的数据框;其中一列是具有不同长度的key_time。我需要在第二部分中将所有key_time长度保持为毫秒,如:Original key_time ...

回答 1 投票 0

如何在scala中使用spark cassandra连接器API

我之前的帖子:修复准备好的stmt警告。我无法解决它,只有一些建议,我尝试使用spark cassandra连接器来解决我的问题。但我对它完全感到困惑......

回答 1 投票 0

在sparksql中将日期从字符串转换为日期

我有一个sparksql日期框架,日期格式如下:“26MAR2015”。在下面的问题中,他们使用带有java simpledataformat的to_date函数:将日期从String转换为Date格式...

回答 1 投票 0

Spark覆盖到镶木地板文件的特定分区

我有一个由数十亿(20)条记录组成的巨大表格,我的源文件作为输入是目标镶木地板文件。我每天都会收到一个delta传入文件来更新Target中的现有记录...

回答 1 投票 0

将多个小文件合并到Spark中的几个较大文件中

我通过Spark使用配置单元。我在我的spark代码中有一个Insert into partitioned table query。输入数据为200 + gb。当Spark写入分区表时,它会吐出非常小的文件(...

回答 3 投票 6

如何在spark scala中为每个记录创建一个xml文件

我有一个文件,其记录如下1_107570667_ANA_2C68EF2F-AB17-40EF-9095-387DE1D5D745_App.xml |

回答 1 投票 0

org.apache.spark.sql.AnalysisException:无法解析'`S.SID`'

我正在使用Java语言。我的代码中有以下查询:public static String GET_E_BCHGS =“SELECT BCL。*”+“FROM(SELECT *”+“FROM(SELECT(SELECT BILLABLE_CHG_ID”+“...)

回答 1 投票 0

如何在数据框中的每一列上运行udf?

我有一个UDF:val TrimText =(s:AnyRef)=> {//逻辑返回字符串}和数据帧:var df = spark.read.option(“sep”,“,”)。option(“header” ,“true”)。csv(root_path +“/”+ file)我......

回答 3 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.