amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

问题无法找到 s3ablock-0001-

当我尝试在 S3 上写入数据时,我在 Amazon EMR 上运行作业时遇到问题。 这是堆栈跟踪: org.apache.hadoop.util.DiskChecker$DiskErrorException:找不到任何有效的本地可怕...

回答 4 投票 0

s3 存储桶中的输出文件在运行 Dbt 时不会被覆盖 - 使用 Iceberg 表配置的 Spark 模型

我们在 dbt 云配置中有一个模型,其中 Spark 在 AWS EMR 上运行,并以 Iceberg 作为目标表类型。 目前我们已经设置了配置:materialized: 'table' 并且每次模型运行时,它都会创建

回答 1 投票 0

为什么Flink核心节点不释放JVM Metaspace内存?

我正在运行一个 1.13.1 flink 集群,我在其中执行批处理作业,该作业执行 athena 查询并将结果保存在 athena 表中。 我一天内多次提交这些作业。 在每次执行中,cl...

回答 1 投票 0

如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5?

我正在开发一个 PySpark ETL 管道应用程序,以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时,我使用本地 mas...

回答 1 投票 0

如何计算Hbase的基础设施成本

我正在尝试使用 AWS EMR 计算 Hbase 基础设施的成本,但无法找到用于计算 HBase 读取/存储/写入成本的文档。 我可以得到一些指导/帮助吗?

回答 2 投票 0

EMR-4.2.0 运行自定义 jar(命令运行程序)时出错

我正在 AWS - EMR-4.2.0 版本中运行 sqoop 安装脚本,遵循本文档。 创建集群后(在步骤中),我已提交我的 sqoop 脚本作为参数和 s3://

回答 4 投票 0

用于使用 imdsv2 创建 emr 集群的 Cloudformation 模板

我有两个cloudformation模板: (1) - 用于使用 imdsv2 创建 ec2 实例 (2) - 用于创建 emr 集群 (imdsv1)。 我正在寻找更新 emr 集群的模板,所以...

回答 1 投票 0

Parquet S3 文件上的 Apache Hudi 更新和删除操作问题

在这里,我尝试模拟 Hudi 数据集的更新和删除,并希望看到 Athena 表中反映的状态。我们使用AWS的EMR、S3和Athena服务。 尝试使用

回答 1 投票 0

使用 AWS Lambda Python 获取 EMR 集群的标签列表

是否有任何函数可以获取 emr 集群(如 S3 存储桶)的标签列表?就像在 S3 存储桶中一样,我们有 get_bucket_tagging 我尝试使用 get_list 但它不起作用。如果有的话请告诉我...

回答 1 投票 0

df.show 返回 java.lang.ClassNotFoundException:org.postgresql.Driver

请仔细阅读,本文并非重复。 我正在尝试通过 AWS 上的 EMR 访问 RDS 数据库。我在齐柏林飞艇上这样做了: 从 pyspark.sql 导入 SparkSession 火花 = SparkSession \ ...

回答 4 投票 0

Trino 冰山连接器“未实现 GlueHiveMetastore 的 getTablesWithParameter”

我在 EMR 版本 6.5 上运行 trino,并且我已经为 trino 添加了 Iceberg 连接器,我希望它使用胶水目录。这些是iceberg.properties下的配置 连接器.name=

回答 1 投票 0

尝试从 EMR 7.0.0 集群写入 S3 时出现 400 错误请求错误

我有一个使用 emr-5.29.0 和 Spark 2.4.4 完美运行的 Spark 应用程序。这个应用程序使用 Spark SQL 写入 S3,如下所示 df .repartition($"年", $"月", $"日&

回答 1 投票 0

确保在 EMR 上的 PySpark 中批量处理下载时遵守文件大小限制

我正在开发一个在 Amazon EMR 上运行的 PySpark 应用程序,其中我的任务涉及根据 DataFrame 中的 URL 下载文件。目标是在 EMR 执行程序上持续下载这些文件...

回答 1 投票 0

使用 AWS EMR 连接到 MongoDB 时出现 TLS 错误

我正在使用 keytool 通过引导程序将证书添加到集群 keytool -import -file impl-stable.crt -alias impl-stable.crt -keystore /usr/lib/jvm/java/jre/lib/security/cacerts -storepass

回答 1 投票 0

如何检查 Spark ui 是否最近运行的应用程序

我正在运行以下脚本以在 emr 的主节点上进行测试 我有一个名为spark_test.py的文件,如下所示 从 pyspark.sql 导入 SparkSession 火花 = SparkSession.builder.mas...

回答 1 投票 0

当将 Iceberg 与 EMR 7.0.0 和 s3 一起使用时,我收到 awssdk SdkClientException: 等待来自池的连接超时

我最近将 EMR 切换到标签 7.0.0。我的部分工作量是使用 pyspark 对大型 Iceberg 表进行一些更新。我将所有 s3 路径移至 s3 架构,而不是此处建议的 s3a。

回答 1 投票 0

我应该在 EMR 上使用 AWS Glue 或 Spark 将二进制数据处理为 parquet 格式吗

我的工作要求是从传感器读取二进制数据并为 Analytics 生成镶木地板输出结果。 对于存储,我选择了 s3 和 Dynamodb。 对于处理引擎,我很困惑...

回答 2 投票 0

使用 EMR 从 1 个 zip 文件中解压多个文件

我有多个名为 f1.zip、f2.zip、...f7.zip 的 zip 文件,每个文件包含大约 200k xml 文件,我使用此代码进行多进程并行解压缩它们,但即使每个文件都非常小...

回答 1 投票 0

并行化从 lambda 函数启动的瞬态 AWS EMR 中的步骤的最佳实践是什么?

假设在 S3 存储桶中接收文件时调用 lambda 函数。 此 lambda 函数负责处理此文件以及在瞬态 AWS EMR 中提交的一些 Spark 作业。 ...

回答 1 投票 0

无法识别的选项--conf

我在客户端部署模式下使用spark-submit 触发EMR 中的spark 作业。这是我的火花提交命令: Spark-submit --deploy-mode 客户端 \ --num-executors 3 \ --执行...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.