apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

pyspark 403 错误尝试访问公开可用的 AWS S3 存储桶

我正在运行带有 Hadoop 3.3.4 的本地 Dockerized Spark 3.5.3。我想从公开可用的 AWS S3 存储桶下载二进制文件，因此我尝试以下 python 脚本：导入发现公园夫...

apache-spark amazon-s3 pyspark

回答 1 投票 0

如何将变量参数传递给我的 scala 程序？

我对 scala Spark 非常陌生。这里我有一个字数统计程序，其中我将输入文件作为参数传递，而不是对其进行硬编码和读取。但是当我运行该程序时，出现错误 Exceptioni...

scala apache-spark

回答 3 投票 0

解析不同的模式

需要解析方法才能有效地读取固定长度的文件样本文件 A01数据已加载 A02数据已解析并加载到内存 A03猫在袋子里 A01.... A02.... A03.... 等等第一个...

python apache-spark

回答 1 投票 0

如何在Databricks集群中添加Spark配置

我正在使用 Spark Databricks 集群，并且想要添加自定义 Spark 配置。有一个关于此的 Databricks 文档，但我没有任何线索我应该如何以及进行哪些更改....

apache-spark databricks azure-databricks

回答 3 投票 0

如何获取 DataFrame 的字符串表示形式（如 Dataset.show）？

我需要 Spark 数据帧的有用字符串表示形式。我用 df.show 得到的结果很棒——但我无法以字符串形式获得该输出，因为 show 调用的内部 showString 方法是 p...

apache-spark apache-spark-sql

回答 3 投票 0

从本地 Spark 会话访问 AWS 数据目录 Iceberg 和 Non-iceberg 表

我想从本地环境中的pyspark代码中读取AWS数据目录表（Iceberg和Non-Iceberg）中的数据。我已经相应地配置了 SparkSession。虽然我能够进入冰山

apache-spark pyspark aws-glue

回答 1 投票 0

RDD 未在 pyspark.sql.connect.dataframe.Dataframe 上实现错误

我在databricks上有一个数据框，我想在上面使用RDD api。从目录中读取后，数据帧的类型为 pyspark.sql.connect.dataframe.Dataframe 。我发现...

apache-spark pyspark databricks rdd spark-connect

回答 1 投票 0

spark：如何用“;”读取csv作为分隔符和“,”作为小数点分隔符？

我的 csv 文件有问题，该文件包含像“7,27431439586819e-05”这样的十进制值 Spark.read.option(“标题”,“真”)\ .option("分隔符", ...

apache-spark

回答 2 投票 0

使用 Pyspark 合并 DeltaTable 中的多个条件

我使用 Delta Table 构建了一个流程，通过 ID_CLIENT 和 ID_Product 键更新插入我的数据，但出现错误：合并多个源行匹配是否可以执行合并...

python apache-spark pyspark delta-lake

回答 2 投票 0

Apache Spark log4j2.properties 文件不生成日志文件

我尝试在spark 4.0上生成用户定义的日志文件。操作系统：Windows 11 火花：spark-4.0.0-preview2-bin-hadoop3 首先，我在 %SPARK_HOME 上创建 log4j2.properties 文件

apache-spark log4j2 spark-java

回答 0 投票 0

AWS EKS 上的 Spark java.lang.ClassNotFoundException：在集群模式下运行时找不到类 org.apache.hadoop.fs.s3a.S3AFileSystem

我正在尝试在 EKS 集群上运行 Spark 作业。当我在集群模式下运行它时，我收到以下信息警告 NativeCodeLoader：无法为您的平台加载本机 hadoop 库...使用构建...

apache-spark hadoop amazon-eks spark-submit s3a-committers

回答 1 投票 0

如何调出内存异常spark

我有11个节点，每个节点有2G内存和16个核心，我尝试使用这个提交我的spark应用程序 ./bin/spark-submit --class myapp.Main --master Spark://名称:7077 --conf Spark.shuffle.

performance hadoop apache-spark cluster-computing

回答 1 投票 0

Spark 窗口函数 - rangeBetween 日期

我有一个带有日期列的 Spark SQL DataFrame，我想要获取的是给定日期范围内当前行之前的所有行。例如，我想要获得 7 天前的所有行

apache-spark date pyspark apache-spark-sql window-functions

回答 3 投票 0

Pyspark 新列否则会导致“应该是列”错误

我在 PySpark 中有一个 DataFrame，我想根据另一列中的值添加一个新列。我知道这很常见，我已经搜索并尝试了很多不同的方法，但是......

python apache-spark pyspark apache-spark-sql databricks

回答 1 投票 0

数据源表不支持LOAD DATA

我是 ADB 新手，尝试使用 parquet 文件将数据加载到 databricks 中的表中，我给出以下命令：在路径 '/FileStore/tables/Subsidiary__1_-2.parquet' 中加载数据本地...

sql apache-spark apache-spark-sql databricks

回答 3 投票 0

尝试将数组 [MyPojo] 传递给 UDF 获取数据集 [Row] 类型的架构不受支持

我正在尝试按标识符对行进行分组，并对同一数据帧内的结果数组应用一些过滤。我之前所做的是提取所有 id 执行 df.select("id&quo...

scala apache-spark

回答 1 投票 0

Spark 从使用 LocalStorageHelper 创建的内存中 GCS 中读取

我正在尝试为我的 Spark 摄取应用程序编写集成测试，该应用程序将数据摄取到 GCS。为此，我使用 LocalStorageHelper 创建内存中 GCS。但是当 Spark 尝试读取文件时

scala apache-spark google-cloud-platform google-cloud-storage integration-testing

回答 1 投票 0

Spark 由于多个 ExecutorLostFailure 而在 dropDuplicates() 处失败

我在 HDFS 上存储了 479 个 parquet 文件（每个文件约 120 MB，总共略多于 20 亿条记录），我试图确定此数据集的最佳 Spark 配置，但我无法

apache-spark hadoop pyspark hdfs

回答 1 投票 0

Spark 失败并出现错误：行分隔符不在分区的初始块中

我正在 Azure Synapse Analytics 上运行 Spark 作业。笔记本从 Azure Data Lake Storage Gen 2 帐户读取和写入数据（相同的存储，但是读取和写入发生在不同的路径）....

apache-spark pyspark azure-storage azure-synapse

回答 1 投票 0

在 pyspark 中更新插入/合并两个数据帧

我需要一个帮助来满足以下要求。这仅适用于示例数据。在实时用例中，每个数据帧中有超过 200 列。我需要比较两个数据帧并标记不同之处...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

apache-spark 相关问题

最新问题