apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

如何获取 PySpark 中 zip 中存在的文件的元数据？

我的 ADLS 路径上有一个 .zip 文件，其中包含多个不同格式的文件。我想在不解压的情况下获取文件的元数据，例如文件名、修改时间......

python apache-spark pyspark

回答 1 投票 0

Spark 作业失败并出现“Python 工作程序意外退出（崩溃）”错误

我在运行使用 Python 处理数据的 Spark 作业时遇到问题。作业失败并显示以下错误消息： org.apache.spark.SparkException：Python工作人员意外退出...

python apache-spark pyspark apache-spark-sql

回答 1 投票 0

如何在没有奇怪的合并语法的情况下简单地将数据（行）插入到增量表？

我在文档中没有找到如何简单地插入数据而不用任何手鼓跳舞。为什么API如此复杂真的不清楚。也许有人知道如何使用古老的 d...

apache-spark delta-lake

回答 1 投票 0

旧的常青版本在最后一个 mongodb 服务器上进行了测试

当我看到这个链接时： https://github.com/mongodb/mongo-spark/blob/2.1.x/.evergreen/config.yml 我在轴部分看到最新的经过测试的：轴： - id：“版本” 显示_...

mongodb apache-spark connector

回答 1 投票 0

Spark SQL 中 OUTER 和 FULL_OUTER 有区别吗？

Spark SQL 文档指定 join() 支持以下连接类型：必须是以下之一：inner、cross、outer、full、full_outer、left、 left_outer、right、right_outer、left_semi 和 lef...

apache-spark apache-spark-sql

回答 3 投票 0

如何在databricks查询中使用spark配置变量？

我的集群配置方式是定义默认目录，例如在 Spark 配置下你会发现默认目录 = dev_catalog 我检查了该表确实存在。以下状态...

apache-spark databricks cluster-computing databricks-sql

回答 1 投票 0

无法使用 foreach Pyspark 并行写入 S3 - 从 Worker 调用 SparkContext [重复]

我有一个用例，将列表中的数据并行写入S3。我的列表是列表列表 -> [[guid1, guid2], [guid3, guid4],...] 函数 get_guids_combined() 负责返回...

apache-spark pyspark apache-spark-sql pyspark-schema

回答 1 投票 0

如何动态解析和处理Spark DataFrames中的各种日期格式？

我正在从事 Spark 作业，需要处理包含各种格式的日期字符串的大型数据集。日期格式可能包括： 2021-03-01 2021年3月1日我的目标是动态阻止...

dataframe apache-spark pyspark

回答 1 投票 0

如何在spark.sql中使用merge更新列时转义/

我试图使用合并语句更新我的表。我的专栏之一有/。当我尝试使用列名称更新时。下面是我的代码 query = """合并到 dfFullView a...

apache-spark pyspark apache-spark-sql databricks sql-merge

回答 1 投票 0

AnalysisException：输入“;”不匹配期待<EOF>

尝试使用pysaprk（版本3.5.1）将数据加载到Iceberg中 %%sparksql 修改表方案表设置标识符字段 a、b、c；修改表方案表按分区 LO 分布写入...

apache-spark pyspark apache-spark-sql apache-iceberg

回答 1 投票 0

加入两张10万桌需要半个小时以上

我正在使用 pyspark 连接两个表，每个表有 100k 行（所以不是倾斜连接）。花了超过 30 分钟甚至一个小时，我认为这里出了问题。代码只是常规连接 a = b。

amazon-web-services apache-spark join pyspark

回答 1 投票 0

如何将 Pyspark DataFrame 写入 XML 格式？

我正在开发一个 Glue ETL 作业，它基本上读取 Pyspark 中的数据帧，并应以 XML 格式输出数据。我已经搜索了很多解决方案，并且代码在特定的写入状态下失败......

python apache-spark pyspark aws-glue apache-spark-xml

回答 2 投票 0

我需要 Apache Spark 来执行我的 Airflow DAG 任务吗？

我有一个包含多个 DAG 的工作流程。每个 DAG 都有多个任务。这些任务是简单的 ETL 任务。它涉及 kmls、csv 形式的地理数据。一个示例任务：我们有道路学院的元数据...

python apache-spark airflow distributed-computing

回答 1 投票 0

为什么BroadcastExchange需要更多驱动内存？

广播时，Spark 可能会失败，并显示错误 org.apache.spark.sql.errors.QueryExecutionErrors#notEnoughMemoryToBuildAndBroadcastTableError (Spark 3.2.1)：为什么 BroadcastExchange 需要更多驱动程序

apache-spark apache-spark-sql

回答 1 投票 0

使用foreach Pyspark并行写入S3 - 从Worker调用sparkContext

我有一个用例，将列表中的数据并行写入S3。我的列表是列表列表 -> [[guid1, guid2], [guid3, guid4],...] 函数 get_guids_combined() 负责返回...

apache-spark pyspark apache-spark-sql pyspark-schema

回答 1 投票 0

使用 AWS EMR 和 S3 将表名称更改为另一个表名称

使用 EMR 7.2 Spark-sql（默认）> ALTER TABLE account RENAME TO accountinfo; 24/08/14 02:31:04 警告 SessionState：METASTORE_FILTER_HOOK 将被忽略，因为 hive.security.authorization.manage...

apache-spark amazon-s3 apache-hudi

回答 1 投票 0

pyspark.DataFrame.checkpoint() 和 pyspark.RDD.checkpoint() 有什么区别？

我目前正在努力解决 Spark 检查点问题，并试图了解 DataFrame 和 RDD 检查点之间的区别。为了明确起见：在 DataFrame.checkpoint() Spark 创建 fi 之后...

python apache-spark pyspark

回答 2 投票 0

非 Spark 代码（纯 Python）在 Spark 集群上运行

根据文档（https://docs.databricks.com/en/optimizations/spark-ui-guide/spark-job-gaps.html），任何非 Spark 代码的执行都会显示在时间线作为间隙。例如，你可以...

apache-spark pyspark databricks

回答 1 投票 0

为什么不将spark.memory.fraction设置为1.0？

我很困惑为什么 Spark 只使用 Java 堆的一小部分？为什么不直接保持 100% 或将 Spark.memory.fraction 设置为 1.0。保留 0.4（默认）有什么意义？为什么要保留这个

apache-spark pyspark jvm

回答 1 投票 0

如何在Databricks中创建指定文件名Spark的单个CSV文件？

我知道如何在Databricks中使用Spark来创建CSV，但它总是有很多副作用。例如，这是我的代码： file_path = “dbfs:/mnt/target_folder/file.csv” df.write.mode("覆盖...

python csv apache-spark databricks

回答 1 投票 0

apache-spark 相关问题

最新问题