apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

Dataproc 上的 Spark:大型数据集(约 3000 万条记录)的 BigQuery 数据插入速度缓慢

我有一个在 Google Cloud Dataproc 上运行的 Scala Spark 作业,该作业向 Google BigQuery (BQ) 表提供数据并将数据写入其中。该代码适用于较小的数据集,但在处理较大的数据量时(...

回答 1 投票 0

在 AWS EMR 的不同实例中的不同日期并行执行相同的 Spark 作业存在性能问题

运行 Spark 作业(仅一个实例)时,它会在 20-30 分钟内完成。但是,相同的代码在多个 emr 实例中并行执行会花费更多时间。例如:我有 3 个实例,每个实例

回答 1 投票 0

如何在Spark中合并时间间隔

我正在尝试在 Spark 的数据框中提取连续的时间范围。 我的输入数据框如下所示: ID 开始日期 结束日期 1 1993年1月1日 2018年12月31日 1 2015年1月6日 2023年12月31日 1 2024年1月1日 31/1...

回答 1 投票 0

在没有显式模式参数的情况下使用 to_date 时 Spark 默认模式是什么

我在工作中继承了一个 Spark 项目,该项目使用 to_date 函数将字符串列转换为日期,有时使用明确的日期模式(即 to_date(dateCol, "yyyy-MM-dd"))和

回答 1 投票 0

Spark SQL 确定性“样本”表行为

我正在使用 Apache Spark 3.5.0,并使用 Spark SQL 从大型表中采样数据。但是,我需要确保采样行为是确定性的,这意味着...的相同子集...

回答 1 投票 0

在 pyspark 中列出连接列的顺序重要吗

如果我加入 2 列,例如 Product_type 和 Product_name,并且 Product_type 在层次结构中处于较高位置(例如 100 个 Product_type,每个都有 100 个 Product_name),就速度而言,这很重要

回答 1 投票 0


Pyspark 在每次运行时都会给出不同的 df.count() 结果

我正在使用 AWS EMR(v 6.11.1)、PySpark(v 3.3.2)。经过一些转换(主要是在 groupBy、dropDuplicates 之后),数据在 ev 上的 pyspark.sql.DataFrame.count() 输出中获得不同的值...

回答 1 投票 0

Spark 3.5 中的 RowEncoder.apply(schema).resolveAndBind() 和 Row/InternalRow 序列化器/反序列化器等效项

我们在 Spark 3.1 中使用 RowEncoder.apply(schema).resolveAndBind() 来创建 ExpressionEncoder[row] 并从中创建序列化器和反序列化器。 val 编码器 = Encoders.row(schema).resolveAndBind() ...

回答 1 投票 0

EMR 版本 > 6.9.0 上的 Apache Sedona:JavaPackage 对象不可调用

我正在尝试在 AWS EMR 上运行 Apache Sedona 1.5.3 for Spark 3.4。 按照说明操作后,我收到错误, 文件“/usr/local/lib64/python3.7/site-packages/sedona/sql/datafram...

回答 2 投票 0

在 EMR 上设置 Apache Sedona

我希望能够使用 Apache Sedona 在 AWS EMR 上进行分布式 GIS 计算。我们需要正确的引导脚本来拥有所有依赖项。 我尝试使用 EMR 5.33 使用 Jars 设置 Geospark

回答 2 投票 0

Databricks Autoloader 批处理模式

我正在寻求有关使用 Autoloader 处理 Databricks 中满载场景的指导。请不要对我太苛刻,因为我目前缺乏实践经验。 我的场景是...

回答 1 投票 0

ModuleNotFoundError:在 Google Cloud Dataproc 上提交 PySpark 作业时没有名为“minio”的模块

我在尝试向 Google Cloud Dataproc 提交 PySpark 作业时遇到问题。目标是在使用 minio 模块的 Dataproc 集群上运行脚本。然而,我不断遇到

回答 1 投票 0

在 EKS 上部署时使用 LDAP 对 Apache Spark 历史记录服务器进行身份验证

我们正在寻找一种为我的 Apache Spark Web UI(历史服务器)配置 LDAP 身份验证的方法。 Spark 实例在 Kubernetes 集群内运行,我们选择 S3 存储桶来存储...

回答 1 投票 0

Spark:坚持没有按预期工作

我使用了 PySpark DataFrame,在其中调用了 UDF 函数。此 UDF 函数进行 API 调用并将响应存储回 DataFrame。我的目标是存储 DataFrame 并在...中重用它

回答 1 投票 0

在 PySpark 中按降序排序

我正在使用 PySpark (Python 2.7.9/Spark 1.3.1)并有一个数据框 GroupObject,我需要对其进行过滤并按降序排序。试图通过这段代码来实现它。 group_by_datafr...

回答 8 投票 0

将 Spark DataFrame 转换为 Pandas DF

有没有办法将 Spark DF(不是 RDD)转换为 Pandas DF? 我尝试了以下方法: var some_df = 序列( (“A”,“否”), (“B”,“是”), (“B”,“...

回答 3 投票 0

是否可以将 Docker 镜像作为 Spark 作业提交到 EMR Serverless?

我有一个 Docker 映像,其中包含一些与 Spark 交互的应用程序代码。 是否可以将这个镜像提交到Spark集群上执行? 如果是这样,怎么办? # 不是真正的命令 $ aws emr-

回答 1 投票 0

文件修剪仅适用于过滤器而不适用于加入

我正在努力优化我们在公司的工作方式。 想象一下,我们有一个非常大的表,有数十亿行。 这个大表有一个高基数列,比方说“id”。 我有很多

回答 1 投票 0

RDD 中的行对象

我正在尝试对于每个RDD,删除标头 row 并将每个逗号分隔的行解析为每列的 Row 对象 遵循 jupyter 笔记本单元中给出的数据类型。请转换一些

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.