apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

pyspark 403 错误尝试访问公开可用的 AWS S3 存储桶

我正在运行带有 Hadoop 3.3.4 的本地 Dockerized Spark 3.5.3。我想从公开可用的 AWS S3 存储桶下载二进制文件,因此我尝试以下 python 脚本: 导入发现公园 夫...

回答 1 投票 0

如何将变量参数传递给我的 scala 程序?

我对 scala Spark 非常陌生。这里我有一个字数统计程序,其中我将输入文件作为参数传递,而不是对其进行硬编码和读取。但是当我运行该程序时,出现错误 Exceptioni...

回答 3 投票 0

解析不同的模式

需要解析方法才能有效地读取固定长度的文件 样本文件 A01数据已加载 A02数据已解析并加载到内存 A03猫在袋子里 A01.... A02.... A03.... 等等 第一个...

回答 1 投票 0

如何在Databricks集群中添加Spark配置

我正在使用 Spark Databricks 集群,并且想要添加自定义 Spark 配置。 有一个关于此的 Databricks 文档,但我没有任何线索我应该如何以及进行哪些更改....

回答 3 投票 0

如何获取 DataFrame 的字符串表示形式(如 Dataset.show)?

我需要 Spark 数据帧的有用字符串表示形式。我用 df.show 得到的结果很棒——但我无法以字符串形式获得该输出,因为 show 调用的内部 showString 方法是 p...

回答 3 投票 0

从本地 Spark 会话访问 AWS 数据目录 Iceberg 和 Non-iceberg 表

我想从本地环境中的pyspark代码中读取AWS数据目录表(Iceberg和Non-Iceberg)中的数据。 我已经相应地配置了 SparkSession。虽然我能够进入冰山

回答 1 投票 0

RDD 未在 pyspark.sql.connect.dataframe.Dataframe 上实现错误

我在databricks上有一个数据框,我想在上面使用RDD api。从目录中读取后,数据帧的类型为 pyspark.sql.connect.dataframe.Dataframe 。我发现...

回答 1 投票 0

spark:如何用“;”读取csv作为分隔符和“,”作为小数点分隔符?

我的 csv 文件有问题,该文件包含像“7,27431439586819e-05”这样的十进制值 Spark.read.option(“标题”,“真”)\ .option("分隔符", ...

回答 2 投票 0

使用 Pyspark 合并 DeltaTable 中的多个条件

我使用 Delta Table 构建了一个流程,通过 ID_CLIENT 和 ID_Product 键更新插入我的数据,但出现错误: 合并多个源行匹配 是否可以执行合并...

回答 2 投票 0

Apache Spark log4j2.properties 文件不生成日志文件

我尝试在spark 4.0上生成用户定义的日志文件。 操作系统:Windows 11 火花:spark-4.0.0-preview2-bin-hadoop3 首先,我在 %SPARK_HOME 上创建 log4j2.properties 文件

回答 0 投票 0

AWS EKS 上的 Spark java.lang.ClassNotFoundException:在集群模式下运行时找不到类 org.apache.hadoop.fs.s3a.S3AFileSystem

我正在尝试在 EKS 集群上运行 Spark 作业。当我在集群模式下运行它时,我收到以下信息 警告 NativeCodeLoader:无法为您的平台加载本机 hadoop 库...使用构建...

回答 1 投票 0

如何调出内存异常spark

我有11个节点,每个节点有2G内存和16个核心,我尝试使用这个提交我的spark应用程序 ./bin/spark-submit --class myapp.Main --master Spark://名称:7077 --conf Spark.shuffle.

回答 1 投票 0

Spark 窗口函数 - rangeBetween 日期

我有一个带有日期列的 Spark SQL DataFrame,我想要获取的是给定日期范围内当前行之前的所有行。例如,我想要获得 7 天前的所有行

回答 3 投票 0

Pyspark 新列否则会导致“应该是列”错误

我在 PySpark 中有一个 DataFrame,我想根据另一列中的值添加一个新列。我知道这很常见,我已经搜索并尝试了很多不同的方法,但是......

回答 1 投票 0

数据源表不支持LOAD DATA

我是 ADB 新手,尝试使用 parquet 文件将数据加载到 databricks 中的表中,我给出以下命令: 在路径 '/FileStore/tables/Subsidiary__1_-2.parquet' 中加载数据本地...

回答 3 投票 0

尝试将数组 [MyPojo] 传递给 UDF 获取数据集 [Row] 类型的架构不受支持

我正在尝试按标识符对行进行分组,并对同一数据帧内的结果数组应用一些过滤。 我之前所做的是提取所有 id 执行 df.select("id&quo...

回答 1 投票 0

Spark 从使用 LocalStorageHelper 创建的内存中 GCS 中读取

我正在尝试为我的 Spark 摄取应用程序编写集成测试,该应用程序将数据摄取到 GCS。为此,我使用 LocalStorageHelper 创建内存中 GCS。但是当 Spark 尝试读取文件时

回答 1 投票 0

Spark 由于多个 ExecutorLostFailure 而在 dropDuplicates() 处失败

我在 HDFS 上存储了 479 个 parquet 文件(每个文件约 120 MB,总共略多于 20 亿条记录),我试图确定此数据集的最佳 Spark 配置,但我无法

回答 1 投票 0

Spark 失败并出现错误:行分隔符不在分区的初始块中

我正在 Azure Synapse Analytics 上运行 Spark 作业。笔记本从 Azure Data Lake Storage Gen 2 帐户读取和写入数据(相同的存储,但是读取和写入发生在不同的路径)....

回答 1 投票 0

在 pyspark 中更新插入/合并两个数据帧

我需要一个帮助来满足以下要求。这仅适用于示例数据。在实时用例中,每个数据帧中有超过 200 列。我需要比较两个数据帧并标记不同之处...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.