apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

java.lang.RuntimeException:编码时出错:java.lang.ArrayIndexOutOfBoundsException:1

当我尝试合并来自数据库和csv文件的两个数据集时出现错误,错误消息是这样的:org.apache.spark.SparkException:作业由于阶段失败而中止:任务0在...中] >

回答 1 投票 1

将CSV文件作为PySpark数据集导入(不包含数据框)

如何将CSV文件作为数据集导入PySpark?请注意,我并不是在问如何将它们导入数据框。从Databricks阅读此页时,我了解了数据集的一些优点...

回答 1 投票 0

在Spark SQL数据框中压缩并分解多列

我具有以下结构的数据框:A:Array [String] | B:数组[String] | [...多其他列...] ======================================== ================================== [A,...

回答 2 投票 1

时间序列/刻度数据集的火花转换

我们在配置单元中有一个表,该表存储每个交易日结束时的交易订单数据作为order_date。其他重要列是产品,合同,价格(所下订单的价格),ttime(交易时间)状态...

回答 1 投票 1

Spark DataFrame:查找并设置子节点的主根

我有以下Apache Spark数据帧:父-子A1-A10 A1-A2 A2-A3 A3-A4 A5-A7 A7-A6 A8-A9此数据帧...

回答 1 投票 1

将数据集中具有键值对的列转换为不同的行

我在dataframe中有数据,该数据是从azure eventhub获得的。然后,我将此数据转换为json对象,并将所需的数据存储到数据集中,如下所示。用于从...

回答 2 投票 0

将数据集中具有键值对数组的列转换为不同的行

我在dataframe中有数据,该数据是从azure eventhub获得的。然后,我将此数据转换为json对象,并将所需的数据存储到数据集中,如下所示。用于从...

回答 1 投票 0

使用星火数据帧多列一排的变化值

我得到这个格式的数据帧(DF)。 df.show()********* X1 | X2 | X3 | ..... | XN | ID_1 | ID_2 | .... id_23 1 | OK |好|约翰|空|空| |零2 |里克|良好| ...

回答 1 投票 -4

地图功能里面调用SQL SPARK

在我的代码我有,我需要调用SQL火花为每一个数据集的行的要求。现在,火花SQL需要地图功能,这是不可能通过一个内部SparkSession ...

回答 1 投票 -1

如何解释火花列的类型减少

我有以下表DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME指望美国罗马尼亚15美国1克罗地亚美国爱尔兰...

回答 2 投票 -2

星火斯卡拉数据集类型层次

试图强制执行W延伸有一个返回WR的子类的数据集的方法获取类。抽象类WR案例类TGWR(A:字符串B:字符串)...

回答 1 投票 0

列类型推断为带有类型UDAF的二进制

我正在尝试实现一个返回复杂类型的类型化UDAF。不知何故,Spark无法推断结果列的类型,并使二进制文件将序列化数据放在那里。这是一个最小的例子......

回答 1 投票 2

Spark Java edit data in column

我想遍历spark DataFrame中一列的内容,并在满足特定条件的情况下更正单元格中的数据+ ------------- + | column_title | + ------------- + + ----- + ...

回答 2 投票 1

Spark中的数据帧和数据集

我是Spark的新手,正在经历Dataframes和Dataset。我试着理解它们之间的区别,但我很困惑。我从这里开始发现RDD的抽象发生了......

回答 1 投票 0

如何加速一个复杂数据集的处理/写入

我有一个函数抛出大量数据(数十亿行)并返回元组数据集[(Seq [Data1],Seq [Data2],Seq [Data3])]这个结果数据集包含更多行...

回答 1 投票 1

连接数据集并重命名一列

我知道如何实现它,但我想(或者至少我希望)有一种更简单,更少样板的方法来做同样的事情。场景:员工+ ------- + --- + ------------ + |名称| AGE | ...

回答 3 投票 -1

Java-Spark:如何获取数据集 在循环中迭代时的列值,并在when()中使用它。否则()?

我有一个数据集 具有值“null”的列(空写文本)。我试图将“null”文本替换为text:\ N.为此,我使用一个逻辑,我将添加一个名为的新列...

回答 1 投票 0

如何将sql转换为spark数据集?

我有一个Val test = sql(“select * from table1”),它返回一个数据帧。我想将它转换为无效的数据集.test.toDS抛出错误。

回答 1 投票 -2

使用数据集交叉加入Apache Spark非常慢

我已经在spark用户论坛上发布了这个问题,但没有收到任何回复,所以再次在这里询问。我们有一个用例,我们需要进行笛卡尔连接,由于某种原因我们无法得到它...

回答 1 投票 0

如何将Id添加到spark中的所有数据帧行

嗨我的csv文件结构就像File-1 id col1 col2 a_1 sd fd ds emd sf jhk File-2 id col1 col2 b_2 sd fd ds emd sf jhk现在我想...

回答 1 投票 1

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.