apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

在Spark Scala中接受所有json字段值作为String的正确方法是什么？

我是Spark的新手并且尝试了一些。目前，我有一个模式，我使用它将json数据加载到Spark中。 json的结构如下：{“value1”：345.2“value2”：32}我是......

scala apache-spark apache-spark-sql

回答 2 投票 0

Spark Dataframe - 获取所有对的列表（Scala）

我有以下情况：我有一个带有'array'的数据帧作为模式。现在我想获取每个数组，所有对的列表并将其再次保存在数据帧中。例如：这是......

scala apache-spark apache-spark-sql

回答 1 投票 1

Pyspark：数据框的词典列表

我有一个数据框，其中我有一列，每行包含一个字典列表：[Row（payload = u“[{'key1'：'value1'}，{'key2'：'value2'}，{'key3 '：'value3'}，{...}]“），行（有效负载= u”[{'key1'：'...

python json pyspark apache-spark-sql rdd

回答 2 投票 0

PySpark - 有没有办法水平连接两个数据帧，以便第一个df中的每一行都包含第二个df中的所有行

所以我有一个带有唯一user_ids的用户df和带有一组问题的第二个df。然后我想合并dfs，以便每个user_id附加到完整的问题集：User Df：+ ------------...

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 1

如何在数据框中的列内处理json数据集

我在spark中有一个数据帧，有一列有json类型的数据。 column3：z：{k：{q1：null，q2：1，q3：23，q4：null，q5：{v1：null，v2：wers，v3：null} ...

python pyspark apache-spark-sql

回答 1 投票 0

在Spark中使用UDF时出现任务序列化错误

当我创建如上所示的UDF函数时，我收到任务序列化错误。仅当我使用spark-submit在集群部署模式下运行代码时才会出现此错误。但是，它适用于火花-...

scala apache-spark apache-spark-sql user-defined-functions

回答 1 投票 1

Spark DataFrame在使用mergeSchema时重复列名

我有一个巨大的Spark DataFrame，我使用以下语句创建val df = sqlContext.read.option（“mergeSchema”，“true”）。parquet（“parquet / partitions / path”）现在当我尝试做列时.. 。

scala apache-spark apache-spark-sql

回答 1 投票 1

Zeppelin - 两次相同的show（），两个不同的结果

我是Zeppelin的新手，也许我的问题很天真。首先，我得到这样的基本数据：import org.apache.spark.sql.functions.sql val dfOriginal = sql（“SELECT CAST（event_type_id AS STRING），...

scala apache-spark apache-spark-sql apache-zeppelin

回答 1 投票 0

按列数列过滤Scala数据帧

我的scala数据框有一个包含数据类型数组的列（element：String）。我想显示那个列中包含单词“hello”的数据帧行。我有这个：display（df.filter（$“...

scala apache-spark-sql

回答 1 投票 0

如何检查spark sql map类型中是否存在key

所以我有一个包含一列地图类型的表（键和值都是字符串）。我想写这样的spark sql来检查地图中是否存在给定的密钥。从my_table中选择count（*），其中......

apache-spark apache-spark-sql

回答 2 投票 1

如何获取列中最常见的非空值？

我有以下DataFrame df：+ ------------------- + -------- + ------------- ------- + | ID |名称|键入|网址| + ------------------- + -------- + -------------------- + | 1 | ...

scala apache-spark apache-spark-sql

回答 1 投票 1

如何设置spark以与logi分析一起使用？

我正在尝试配置Spark以与Logi Analytics一起使用。这样我就可以使用Spark SQL查询数据并在logi分析中将其可视化。关于将Apache spark与logi Analytics连接的任何建议......

apache-spark-sql

回答 1 投票 2

如何在Scala中将时间戳大小调整为毫秒？

我有一个包含列列表的数据框;其中一列是具有不同长度的key_time。我需要在第二部分中将所有key_time长度保持为毫秒，如：Original key_time ...

scala apache-spark apache-spark-sql spark-streaming

回答 1 投票 0

如何在scala中使用spark cassandra连接器API

我之前的帖子：修复准备好的stmt警告。我无法解决它，只有一些建议，我尝试使用spark cassandra连接器来解决我的问题。但我对它完全感到困惑......

apache-spark cassandra apache-spark-sql spark-cassandra-connector

回答 1 投票 0

在sparksql中将日期从字符串转换为日期

我有一个sparksql日期框架，日期格式如下：“26MAR2015”。在下面的问题中，他们使用带有java simpledataformat的to_date函数：将日期从String转换为Date格式...

python pyspark apache-spark-sql

回答 1 投票 0

Spark覆盖到镶木地板文件的特定分区

我有一个由数十亿（20）条记录组成的巨大表格，我的源文件作为输入是目标镶木地板文件。我每天都会收到一个delta传入文件来更新Target中的现有记录...

scala apache-spark apache-spark-sql aws-glue

回答 1 投票 0

将多个小文件合并到Spark中的几个较大文件中

我通过Spark使用配置单元。我在我的spark代码中有一个Insert into partitioned table query。输入数据为200 + gb。当Spark写入分区表时，它会吐出非常小的文件（...

scala hadoop apache-spark hive apache-spark-sql

回答 3 投票 6

如何在spark scala中为每个记录创建一个xml文件

我有一个文件，其记录如下1_107570667_ANA_2C68EF2F-AB17-40EF-9095-387DE1D5D745_App.xml |

scala apache-spark apache-spark-sql

回答 1 投票 0

org.apache.spark.sql.AnalysisException：无法解析'`S.SID`'

我正在使用Java语言。我的代码中有以下查询：public static String GET_E_BCHGS =“SELECT BCL。*”+“FROM（SELECT *”+“FROM（SELECT（SELECT BILLABLE_CHG_ID”+“...）

java apache-spark apache-spark-sql apache-spark-2.0

回答 1 投票 0

如何在数据框中的每一列上运行udf？

我有一个UDF：val TrimText =（s：AnyRef）=> {//逻辑返回字符串}和数据帧：var df = spark.read.option（“sep”，“，”）。option（“header” ，“true”）。csv（root_path +“/”+ file）我......

scala apache-spark apache-spark-sql

回答 3 投票 -1

apache-spark-sql 相关问题

最新问题