Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
在Spark Scala中接受所有json字段值作为String的正确方法是什么?
我是Spark的新手并且尝试了一些。目前,我有一个模式,我使用它将json数据加载到Spark中。 json的结构如下:{“value1”:345.2“value2”:32}我是......
Spark Dataframe - 获取所有对的列表(Scala)
我有以下情况:我有一个带有'array'的数据帧作为模式。现在我想获取每个数组,所有对的列表并将其再次保存在数据帧中。例如:这是......
我有一个数据框,其中我有一列,每行包含一个字典列表:[Row(payload = u“[{'key1':'value1'},{'key2':'value2'},{'key3 ':'value3'},{...}]“),行(有效负载= u”[{'key1':'...
PySpark - 有没有办法水平连接两个数据帧,以便第一个df中的每一行都包含第二个df中的所有行
所以我有一个带有唯一user_ids的用户df和带有一组问题的第二个df。然后我想合并dfs,以便每个user_id附加到完整的问题集:User Df:+ ------------...
我在spark中有一个数据帧,有一列有json类型的数据。 column3:z:{k:{q1:null,q2:1,q3:23,q4:null,q5:{v1:null,v2:wers,v3:null} ...
当我创建如上所示的UDF函数时,我收到任务序列化错误。仅当我使用spark-submit在集群部署模式下运行代码时才会出现此错误。但是,它适用于火花-...
Spark DataFrame在使用mergeSchema时重复列名
我有一个巨大的Spark DataFrame,我使用以下语句创建val df = sqlContext.read.option(“mergeSchema”,“true”)。parquet(“parquet / partitions / path”)现在当我尝试做列时.. 。
Zeppelin - 两次相同的show(),两个不同的结果
我是Zeppelin的新手,也许我的问题很天真。首先,我得到这样的基本数据:import org.apache.spark.sql.functions.sql val dfOriginal = sql(“SELECT CAST(event_type_id AS STRING),...
我的scala数据框有一个包含数据类型数组的列(element:String)。我想显示那个列中包含单词“hello”的数据帧行。我有这个:display(df.filter($“...
所以我有一个包含一列地图类型的表(键和值都是字符串)。我想写这样的spark sql来检查地图中是否存在给定的密钥。从my_table中选择count(*),其中......
我有以下DataFrame df:+ ------------------- + -------- + ------------- ------- + | ID |名称|键入|网址| + ------------------- + -------- + -------------------- + | 1 | ...
我正在尝试配置Spark以与Logi Analytics一起使用。这样我就可以使用Spark SQL查询数据并在logi分析中将其可视化。关于将Apache spark与logi Analytics连接的任何建议......
我有一个包含列列表的数据框;其中一列是具有不同长度的key_time。我需要在第二部分中将所有key_time长度保持为毫秒,如:Original key_time ...
如何在scala中使用spark cassandra连接器API
我之前的帖子:修复准备好的stmt警告。我无法解决它,只有一些建议,我尝试使用spark cassandra连接器来解决我的问题。但我对它完全感到困惑......
我有一个sparksql日期框架,日期格式如下:“26MAR2015”。在下面的问题中,他们使用带有java simpledataformat的to_date函数:将日期从String转换为Date格式...
我有一个由数十亿(20)条记录组成的巨大表格,我的源文件作为输入是目标镶木地板文件。我每天都会收到一个delta传入文件来更新Target中的现有记录...
我通过Spark使用配置单元。我在我的spark代码中有一个Insert into partitioned table query。输入数据为200 + gb。当Spark写入分区表时,它会吐出非常小的文件(...
我有一个文件,其记录如下1_107570667_ANA_2C68EF2F-AB17-40EF-9095-387DE1D5D745_App.xml |
org.apache.spark.sql.AnalysisException:无法解析'`S.SID`'
我正在使用Java语言。我的代码中有以下查询:public static String GET_E_BCHGS =“SELECT BCL。*”+“FROM(SELECT *”+“FROM(SELECT(SELECT BILLABLE_CHG_ID”+“...)
我有一个UDF:val TrimText =(s:AnyRef)=> {//逻辑返回字符串}和数据帧:var df = spark.read.option(“sep”,“,”)。option(“header” ,“true”)。csv(root_path +“/”+ file)我......