apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

Dataproc 上的 Spark：大型数据集（约 3000 万条记录）的 BigQuery 数据插入速度缓慢

我有一个在 Google Cloud Dataproc 上运行的 Scala Spark 作业，该作业向 Google BigQuery (BQ) 表提供数据并将数据写入其中。该代码适用于较小的数据集，但在处理较大的数据量时（...

scala performance apache-spark google-bigquery google-cloud-dataproc

回答 1 投票 0

在 AWS EMR 的不同实例中的不同日期并行执行相同的 Spark 作业存在性能问题

运行 Spark 作业（仅一个实例）时，它会在 20-30 分钟内完成。但是，相同的代码在多个 emr 实例中并行执行会花费更多时间。例如：我有 3 个实例，每个实例

amazon-web-services apache-spark amazon-emr

回答 1 投票 0

如何在Spark中合并时间间隔

我正在尝试在 Spark 的数据框中提取连续的时间范围。我的输入数据框如下所示： ID 开始日期结束日期 1 1993年1月1日 2018年12月31日 1 2015年1月6日 2023年12月31日 1 2024年1月1日 31/1...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

在没有显式模式参数的情况下使用 to_date 时 Spark 默认模式是什么

我在工作中继承了一个 Spark 项目，该项目使用 to_date 函数将字符串列转换为日期，有时使用明确的日期模式（即 to_date(dateCol, "yyyy-MM-dd")）和

java scala apache-spark type-conversion

回答 1 投票 0

Spark SQL 确定性“样本”表行为

我正在使用 Apache Spark 3.5.0，并使用 Spark SQL 从大型表中采样数据。但是，我需要确保采样行为是确定性的，这意味着...的相同子集...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

在 pyspark 中列出连接列的顺序重要吗

如果我加入 2 列，例如 Product_type 和 Product_name，并且 Product_type 在层次结构中处于较高位置（例如 100 个 Product_type，每个都有 100 个 Product_name），就速度而言，这很重要

apache-spark join pyspark

回答 1 投票 0

apache-spark apache-kafka spark-streaming

回答 1 投票 0

Pyspark 在每次运行时都会给出不同的 df.count() 结果

我正在使用 AWS EMR（v 6.11.1）、PySpark（v 3.3.2）。经过一些转换（主要是在 groupBy、dropDuplicates 之后），数据在 ev 上的 pyspark.sql.DataFrame.count() 输出中获得不同的值...

amazon-web-services apache-spark pyspark apache-spark-sql amazon-emr

回答 1 投票 0

Spark 3.5 中的 RowEncoder.apply(schema).resolveAndBind() 和 Row/InternalRow 序列化器/反序列化器等效项

我们在 Spark 3.1 中使用 RowEncoder.apply(schema).resolveAndBind() 来创建 ExpressionEncoder[row] 并从中创建序列化器和反序列化器。 val 编码器 = Encoders.row(schema).resolveAndBind() ...

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-encoders

回答 1 投票 0

EMR 版本 > 6.9.0 上的 Apache Sedona：JavaPackage 对象不可调用

我正在尝试在 AWS EMR 上运行 Apache Sedona 1.5.3 for Spark 3.4。按照说明操作后，我收到错误，文件“/usr/local/lib64/python3.7/site-packages/sedona/sql/datafram...

apache-spark pyspark amazon-emr apache-sedona

回答 2 投票 0

在 EMR 上设置 Apache Sedona

我希望能够使用 Apache Sedona 在 AWS EMR 上进行分布式 GIS 计算。我们需要正确的引导脚本来拥有所有依赖项。我尝试使用 EMR 5.33 使用 Jars 设置 Geospark

amazon-web-services apache-spark jar amazon-emr

回答 2 投票 0

Databricks Autoloader 批处理模式

我正在寻求有关使用 Autoloader 处理 Databricks 中满载场景的指导。请不要对我太苛刻，因为我目前缺乏实践经验。我的场景是...

apache-spark databricks databricks-autoloader

回答 1 投票 0

ModuleNotFoundError：在 Google Cloud Dataproc 上提交 PySpark 作业时没有名为“minio”的模块

我在尝试向 Google Cloud Dataproc 提交 PySpark 作业时遇到问题。目标是在使用 minio 模块的 Dataproc 集群上运行脚本。然而，我不断遇到

python apache-spark pyspark minio dataproc

回答 1 投票 0

在 EKS 上部署时使用 LDAP 对 Apache Spark 历史记录服务器进行身份验证

我们正在寻找一种为我的 Apache Spark Web UI（历史服务器）配置 LDAP 身份验证的方法。 Spark 实例在 Kubernetes 集群内运行，我们选择 S3 存储桶来存储...

amazon-web-services apache-spark kubernetes ldap amazon-eks

回答 1 投票 0

Spark：坚持没有按预期工作

我使用了 PySpark DataFrame，在其中调用了 UDF 函数。此 UDF 函数进行 API 调用并将响应存储回 DataFrame。我的目标是存储 DataFrame 并在...中重用它

apache-spark pyspark caching databricks azure-databricks

回答 1 投票 0

在 PySpark 中按降序排序

我正在使用 PySpark （Python 2.7.9/Spark 1.3.1）并有一个数据框 GroupObject，我需要对其进行过滤并按降序排序。试图通过这段代码来实现它。 group_by_datafr...

python apache-spark dataframe pyspark apache-spark-sql

回答 8 投票 0

将 Spark DataFrame 转换为 Pandas DF

有没有办法将 Spark DF（不是 RDD）转换为 Pandas DF？我尝试了以下方法： var some_df = 序列（（“A”，“否”），（“B”，“是”），（“B”，“...

pandas apache-spark apache-spark-sql

回答 3 投票 0

是否可以将 Docker 镜像作为 Spark 作业提交到 EMR Serverless？

我有一个 Docker 映像，其中包含一些与 Spark 交互的应用程序代码。是否可以将这个镜像提交到Spark集群上执行？如果是这样，怎么办？ # 不是真正的命令 $ aws emr-

apache-spark emr-serverless

回答 1 投票 0

文件修剪仅适用于过滤器而不适用于加入

我正在努力优化我们在公司的工作方式。想象一下，我们有一个非常大的表，有数十亿行。这个大表有一个高基数列，比方说“id”。我有很多

apache-spark pyspark apache-spark-sql databricks delta-lake

回答 1 投票 0

RDD 中的行对象

我正在尝试对于每个RDD，删除标头 row 并将每个逗号分隔的行解析为每列的 Row 对象遵循 jupyter 笔记本单元中给出的数据类型。请转换一些

python apache-spark pyspark

回答 2 投票 0

apache-spark 相关问题

最新问题