apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何获取 PySpark 中 zip 中存在的文件的元数据?

我的 ADLS 路径上有一个 .zip 文件,其中包含多个不同格式的文件。我想在不解压的情况下获取文件的元数据,例如文件名、修改时间......

回答 1 投票 0

Spark 作业失败并出现“Python 工作程序意外退出(崩溃)”错误

我在运行使用 Python 处理数据的 Spark 作业时遇到问题。作业失败并显示以下错误消息: org.apache.spark.SparkException:Python工作人员意外退出...

回答 1 投票 0

如何在没有奇怪的合并语法的情况下简单地将数据(行)插入到增量表?

我在文档中没有找到如何简单地插入数据而不用任何手鼓跳舞。为什么API如此复杂真的不清楚。 也许有人知道如何使用古老的 d...

回答 1 投票 0

旧的常青版本在最后一个 mongodb 服务器上进行了测试

当我看到这个链接时: https://github.com/mongodb/mongo-spark/blob/2.1.x/.evergreen/config.yml 我在轴部分看到最新的经过测试的: 轴: - id:“版本” 显示_...

回答 1 投票 0

Spark SQL 中 OUTER 和 FULL_OUTER 有区别吗?

Spark SQL 文档指定 join() 支持以下连接类型: 必须是以下之一:inner、cross、outer、full、full_outer、left、 left_outer、right、right_outer、left_semi 和 lef...

回答 3 投票 0

如何在databricks查询中使用spark配置变量?

我的集群配置方式是定义默认目录,例如在 Spark 配置下你会发现 默认目录 = dev_catalog 我检查了该表确实存在。以下状态...

回答 1 投票 0

无法使用 foreach Pyspark 并行写入 S3 - 从 Worker 调用 SparkContext [重复]

我有一个用例,将列表中的数据并行写入S3。 我的列表是列表列表 -> [[guid1, guid2], [guid3, guid4],...] 函数 get_guids_combined() 负责返回...

回答 1 投票 0

如何动态解析和处理Spark DataFrames中的各种日期格式?

我正在从事 Spark 作业,需要处理包含各种格式的日期字符串的大型数据集。日期格式可能包括: 2021-03-01 2021年3月1日 我的目标是动态阻止...

回答 1 投票 0

如何在spark.sql中使用merge更新列时转义/

我试图使用合并语句更新我的表。我的专栏之一有/。当我尝试使用列名称更新时。下面是我的代码 query = """合并到 dfFullView a...

回答 1 投票 0

AnalysisException:输入“;”不匹配期待<EOF>

尝试使用pysaprk(版本3.5.1)将数据加载到Iceberg中 %%sparksql 修改表 方案表 设置标识符字段 a、b、c; 修改表 方案表 按分区 LO 分布写入...

回答 1 投票 0

加入两张10万桌需要半个小时以上

我正在使用 pyspark 连接两个表,每个表有 100k 行(所以不是倾斜连接)。花了超过 30 分钟甚至一个小时,我认为这里出了问题。代码只是常规连接 a = b。

回答 1 投票 0

如何将 Pyspark DataFrame 写入 XML 格式?

我正在开发一个 Glue ETL 作业,它基本上读取 Pyspark 中的数据帧,并应以 XML 格式输出数据。 我已经搜索了很多解决方案,并且代码在特定的写入状态下失败......

回答 2 投票 0

我需要 Apache Spark 来执行我的 Airflow DAG 任务吗?

我有一个包含多个 DAG 的工作流程。每个 DAG 都有多个任务。 这些任务是简单的 ETL 任务。它涉及 kmls、csv 形式的地理数据。 一个示例任务: 我们有道路学院的元数据...

回答 1 投票 0

为什么BroadcastExchange需要更多驱动内存?

广播时,Spark 可能会失败,并显示错误 org.apache.spark.sql.errors.QueryExecutionErrors#notEnoughMemoryToBuildAndBroadcastTableError (Spark 3.2.1): 为什么 BroadcastExchange 需要更多驱动程序

回答 1 投票 0

使用foreach Pyspark并行写入S3 - 从Worker调用sparkContext

我有一个用例,将列表中的数据并行写入S3。 我的列表是列表列表 -> [[guid1, guid2], [guid3, guid4],...] 函数 get_guids_combined() 负责返回...

回答 1 投票 0

使用 AWS EMR 和 S3 将表名称更改为另一个表名称

使用 EMR 7.2 Spark-sql(默认)> ALTER TABLE account RENAME TO accountinfo; 24/08/14 02:31:04 警告 SessionState:METASTORE_FILTER_HOOK 将被忽略,因为 hive.security.authorization.manage...

回答 1 投票 0

pyspark.DataFrame.checkpoint() 和 pyspark.RDD.checkpoint() 有什么区别?

我目前正在努力解决 Spark 检查点问题,并试图了解 DataFrame 和 RDD 检查点之间的区别。 为了明确起见:在 DataFrame.checkpoint() Spark 创建 fi 之后...

回答 2 投票 0

非 Spark 代码(纯 Python)在 Spark 集群上运行

根据文档(https://docs.databricks.com/en/optimizations/spark-ui-guide/spark-job-gaps.html),任何非 Spark 代码的执行都会显示在时间线作为间隙。例如,你可以...

回答 1 投票 0

为什么不将spark.memory.fraction设置为1.0?

我很困惑为什么 Spark 只使用 Java 堆的一小部分?为什么不直接保持 100% 或将 Spark.memory.fraction 设置为 1.0。 保留 0.4(默认)有什么意义?为什么要保留这个

回答 1 投票 0

如何在Databricks中创建指定文件名Spark的单个CSV文件?

我知道如何在Databricks中使用Spark来创建CSV,但它总是有很多副作用。 例如,这是我的代码: file_path = “dbfs:/mnt/target_folder/file.csv” df.write.mode("覆盖...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.