apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

使用 scala 语法时,Spark 会读取过滤中的所有列

这段代码很好,它只读取第 i 列(注意最后一行 ReadSchema: struct,它只读取 i): 导入 org.apache.spark.sql.Dataset // 定义案例类 案例类...

回答 2 投票 0

Spark AQE 无法帮助数据集倾斜连接

我在 Spark 中面临一个问题,其中 2 个倾斜的数据集需要很长时间才能连接。其中一个(或两个)数据集包含倾斜数据,并将其用作连接列。 所以我希望启用 Spark AQE ...

回答 1 投票 0

PySpark:在分组数据中查找特定值并将整个组标记为不同值

我有如下的员工数据。我想按 EMP_ID 对以下数据进行分组,如果该分组 EMP_ID 的“状态”值为“未完成”,则 EMP_ID 的整个“总体状态”应该为标记...

回答 1 投票 0

在 PySpark 的这段代码中将创建多少个作业、阶段、任务以及为什么

我有这个代码 从 pyspark.sql.functions 导入 * df1=spark.read.option('header','true').csv('/FileStore/tables/ds_salaries.csv')\ `在此处输入代码`.withColumn('

回答 1 投票 0

如何将dataframe中的空值填充到uuid?

有一个dataframe中的一列有空值(并非全部为空),需要用uuid填充空值,有办法吗? cala> val df = Seq(("stuff2",null,null), ("stuff2",null,Array("

回答 3 投票 0

spark dataframe 使用cast 时输出结果不正确

在使用spark dataframe时,当cast()函数被调用为decimal(38,16)时,结果,它计算的不是最多16位小数,而是最多14个字符,并填充其余的字符。 ..

回答 1 投票 0

随机分区配置对转换的影响有多大

基于随机分区配置的宽转换实际上是如何工作的? 如果我有以下程序: Spark.conf.set("spark.sql.shuffle.partitions", "5") val df = ...

回答 1 投票 0

将 Spark 数据集列从 UDT 转换为数组<String>

我正在使用 Spark OrientDB 连接器来检索一些数据,如下所示: 特点 标题 托尼·斯塔克 [“钢铁侠”] 詹姆斯·布坎南·巴恩斯 [《美国队长:Fi...

回答 0 投票 0

Spark groupByKey 无法解释已知字段的 lambda 函数

我有两个数据集 ds1 和 ds2,它们具有以下各自的架构: 地址DS: > 地址DS.printSchema() 根 |-- endId: 字符串 (nullable = true) |-- parentId: string (nullable = true...

回答 0 投票 0

Dataset Scala Spark:如果列表中存在列值,如何过滤数据集

我正在尝试过滤数据集以查看名字列中的任何名称是否与给定的名称列表相匹配。 我有一个包含名字和姓氏的数据集“A”,并且想要输入 l...

回答 1 投票 0

Spark 3.2.4 数据集 ClassCastException

我使用的是 Spark 3.2.4,但数据集存在以下问题。 我有一个名为 data 的 DataFrame,我正在使用案例类将其转换为 DataSet。 案例类日志(事件时间:选项[String] = ...

回答 0 投票 0

解构 Spark SQL 数据集<Row> 回到其单独的 StructFields/列

Java 11 和 Spark SQL 2.13:3.3.2 在这里。请注意:我正在使用 Java API 并对它感兴趣,希望得到 Java 答案,但我可能可以破译基于 Scala/Python 的答案并执行 nec...

回答 1 投票 0

UDF函数为数组<Struct>类型格式化日期字段并返回格式化数据

我想编写一个通用的 udf 函数,它将输入作为数组列并检查所有时间戳字段。将时间戳字段格式化为 UTC,然后按格式返回数组

回答 0 投票 0

如何获取/构建 JavaRDD[DataSet]?

当我使用 deeplearning4j 并尝试在 Spark 中训练模型时 公共多层网络拟合(JavaRDD 训练数据) fit() 需要一个 JavaRDD 参数, 我试着像这样建造 总价值...

回答 2 投票 0

writeStream()在批次数据中打印空值,即使我在kafka中通过writeStream()提供适当的json数据。

我试图使用模式转换json,并将值打印到控制台,但writeStream()在所有列中打印空值,即使我给了适当的数据。数据我给kafka主题...{"股票":。

回答 1 投票 0

避免在nullSafeJoin后出现重复的coulms

我有一个用例,在这个用例中,我需要连接可为空的列,我是这样做的: def nullSafeJoin(leftDF: DataFrame, rightDF: DataFrame, joinOnColumns: Seq[String]) = { val dataset1 = 。我是这样做的: def nullSafeJoin(leftDF: DataFrame, rightDF: DataFrame, joinOnColumns: Seq[String]) = { val dataset1 = ...。

回答 1 投票 0

如何使用spark-java api的MapFunction和ReduceFunction在集群上并行处理?

我使用spark-sql-2.4.1v和java8。必须使用java api在各种条件下使用group by做一个复杂的计算,即使用MapFunction和ReduceFunction。场景:有源数据...

回答 1 投票 -5

Spark数据集map(identity)在Scala上不可序列化。

我有一个数据框架,里面有很多列,但我只需要其中的几列。我创建了一个case类来模拟所述的数据框架,希望未声明的列会被删除,但这......

回答 1 投票 -1

scala spark数据框架修改列的udf返回值。

我有一个火花数据帧,其中有一个时间戳字段,我想将其转换为长数据类型。我使用了一个UDF和独立的代码工作正常,但当我插入到一个通用的逻辑,任何... ...

回答 1 投票 0

在spark中,RDD、Dataframe、Dataset中哪个更好地进行avro列式操作?

我们有一个用例,我们需要在avro数据集上进行一些列式转换。我们以前一直到现在都在运行MR作业,现在想探索spark。我正在浏览一些教程,但不确定......

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.