apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化，同时提供类型安全的编程接口。

使用foldLeft和withColumn替代groupby / pivot / agg / collect_list的Spark SQL替代品，以提高性能

我有一个由三列组成的Spark DataFrame：id | col1 | col2 ----------------- x | p1 | a1 ----------------- x | p2 | b1 ----------------- y | p2 | b2 ----------------- ...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 1

[使用foldLeft和withColumn使用groupby / pivot / agg / collect_list时如何提高Spark SQL的效率？

我有一个由三列组成的Spark DataFrame：id | col1 | col2 ----------------- x | p1 | a1 ----------------- x | p2 | b1 ----------------- y | p2 | b2 ----------------- ...

apache-spark-sql apache-spark-dataset

回答 1 投票 1

数据集过滤器工作异常

场景：我已经通过指定加载模式来读取两个XML文件。在模式中，标记之一是必需的。一种XML缺少该必需标记。现在，当我执行以下操作时，我期望...

java xml apache-spark apache-spark-dataset apache-spark-xml

回答 1 投票 1

火花无法爆炸列

对于给定的JSON响应：{“ id”：“ 1575972348068_1649088229”，“结果”：[{“ rows_count”：53，“ runtime_seconds”：0.004000000189989805，“ columns” ...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

dataset.collectAsList（）导致集群中的java.lang.ClassCastException

当我执行List 行=（List ）数据集.collectAsList（）;在本地使用IntelliJ，我得到结果，但是在群集中运行时，出现以下错误。我在代码中使用UDF ... ] >>

apache-spark user-defined-functions apache-spark-dataset

回答 1 投票 0

dataset.collectAsList（）导致spark 2.1.1中出现java.lang.ClassCastException

当我执行List 行=（List ）数据集.collectAsList（）;在Spark 2.0.1中，我得到的结果很好，但在2.1.1中，我遇到了以下错误java.lang ....

apache-spark user-defined-functions apache-spark-dataset

回答 1 投票 0

在Spark Java中对两个数据集进行并集的必要条件是什么

什么是必要条件，例如没有列或相同列或不同列

java apache-spark union apache-spark-dataset

回答 1 投票 -2

根据列的值在spark数据集中添加行号

我有一个样本数据集如下，+ ---- + ---- + | col1 | col2 | + ---- + ---- + | a |一个| | a | b | | b | c | | c | d | + ---- + ---- +基于映射值Map sample = {“ key1” = 2，“ key2” = 4} I ...

java apache-spark row-number apache-spark-dataset

回答 1 投票 -1

如何根据由user_id划分的其他列值来计算行的差异

我有类似以下的JSON原始数据{“ event”：“ login”，“ time”：“ 2019-11-20 00:14:46”，“ user_id”：978699} {“ event”：“ logout”， “ time”：“ 2019-11-20 00:14:46”，“ user_id”：992210} {“ event”：“ login”，“ time”：...

scala dataframe apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 0

如何根据由user_id划分的其他列值来计算行的差异

scala dataframe apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 0

如何分割数据帧-Scala Spark

我有以下数据框。我想使用spark的数据集api将其拆分为列。如何执行此操作？数据框中的数据是典型的组合apache日志中的一行。导入...

regex scala apache-spark parsing apache-spark-dataset

回答 3 投票 0

使用正则表达式解析Apache登录数据帧并进行拆分？

您将如何使用正则表达式将Apache日志拆分为装入数据框的列？我正在尝试尽可能多地使用spark数据集api。 Apache日志示例：127.0.0.1-坦率[10 / Oct / 2000：13：...

regex scala apache-spark parsing apache-spark-dataset

回答 1 投票 0

仅使用spark数据集api解析apache日志

我正在尝试使用spark数据集API将Apache日志解析为可以查询的表。我可以先创建一个RDD，然后转换为数据帧以注册一个临时表，但这是...

scala apache-spark parsing apache-spark-dataset

回答 1 投票 0

读取镶木地板文件时刷新数据帧的元数据

我正在尝试将实木复合地板文件作为数据帧读取，并将定期更新（路径为/ folder_name。只要有新数据，旧的实木复合地板文件路径（/ folder_name）就会重命名为临时...

apache-spark apache-spark-sql parquet apache-spark-dataset

回答 2 投票 1

如何将具有十进制的spark数据帧转换为具有相同精度的BigDecimal的数据集？

如何以给定的精度创建具有BigDecimal的spark数据集？请参见spark外壳中的以下示例。您将看到我可以使用所需的BigDecimal精度创建一个DataFrame，但是...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 0

在Java Spark中尝试zipWithIndex时出错

我尝试使用zipWithIndex添加具有行号的列，如下所示：spark val df = sc.parallelize（Seq（（1.0，2.0），（0.0，-1.0），（3.0，4.0），（6.0，-2.3 ）））。toDF（“ x”，“ y”）val rddzip = df.rdd ....

java apache-spark rdd apache-spark-dataset

回答 1 投票 1

使用限制时如何保持火花数据集的顺序，但>>

我有一个超过40万行的数据集。我需要从35万到370 000的2万行数据。我要做的是第一个dataset.limit（370000）.except（dataset.limit（350000），但是当我需要顺序时...

apache-spark apache-spark-dataset hadoop-partitioning

回答 1 投票 0

使用Java将函数应用于Apache Spark中数据集的单个列上

说我有一个数据集：数据集 sqlDF = this.spark.sql（“ SELECT first_name，last_name，age of person”；这将返回一个包含三列的数据集：first_name，last_name，age。我想要...

java apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

要从Spark DataFrame列出的所有列的区别

我有一个如下所示的数据框，我想转换为期望的格式，作为列表中的不同值。 + --------------------- + --------------- + | col1 | col2 | + ----------------...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

将数据框数据集转换为特定列的字符串数据类型的JSON格式，并将JSON字符串转换回数据框

我正在使用Spark Java读取数据集格式的消息。我需要调用Rest API方法（仅传递几个选定的列-PID，ACCOUNTNUM）。该方法期望记录列表出现在...

java json apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

apache-spark-dataset 相关问题

最新问题