amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

如何使用 Terraform 在“AWS Glue 数据目录设置”中启用“用于 Hive 表元数据”?

我正在使用 Terraform 设置由 Amazon EMR 管理的 Trino 集群。 这是我的 Terraform 代码: 资源“aws_emr_cluster”“hm_amazon_emr_cluster”{ 名字...

回答 1 投票 0

如何使用 Terraform 在“AWS Glue 数据目录设置”中设置“用于 Hive 表元数据”?

我正在使用 Terraform 设置由 Amazon EMR 管理的 Trino 集群。 这是我的 Terraform 代码: 资源“aws_emr_cluster”“hm_amazon_emr_cluster”{ 名字...

回答 1 投票 0

使用boto3的EMR集群-服务角色权限不足

我正在尝试在AWS中创建EMR集群。它运行良好,当我通过 UI 执行此操作时,集群已创建。 当我使用以下命令使用命令行创建它时,它也运行良好...

回答 1 投票 0

Spark 聚合多列或哈希

假设我想删除重复项或对 Spark 数据框中的 3 列执行聚合。 这样做会更优化吗 df = df.withColumn( “哈希_dup”, f.hash( ...

回答 1 投票 0

EMR Serverless 是否支持 Bootstrap 操作

创建 EMR 集群时,有一项规定可以提供引导操作,如下所示。 aws emr create-cluster --name "测试集群" --release-label emr-7.1.0 --使用默认角色 ...

回答 1 投票 0

无法在笔记本实例上本地运行 sagemaker pyspark,缺少 conda_python3 内核

我正在尝试在 sagemaker 笔记本上使用 pyspark,如下所述: https://github.com/aws/sagemaker-spark/tree/master/sagemaker-pyspark-sdk#local-spark-on-sagemaker-notebook-instances 页面

回答 1 投票 0

使用 JsonSerDe 时找不到启动令牌错误

我正在尝试从S3导入JSON数据,并在进行一些查询后,再次将输出以JSON格式导出到S3。但是,我得到“org.apache.hadoop.hive.serde2.SerDeException:java.io。

回答 3 投票 0

从 EMR Studio 访问 EMR 目录上的数据:工作区(笔记本)

我在 s3 上保存了一些数据,我想在 EMR 上运行 python 脚本时导入这些数据。 要通过 EMR 控制台上的 python 代码来完成此操作:我只需在 EMR 上创建目录/文件,如下所示 /home/

回答 1 投票 0

如何在 EMR 集群上执行的 pyspark 代码中使用 yaml 文件?

在 EMR 集群中,我正在运行 pyspark 代码,它使用 yaml 文件,我收到路径未找到错误。 我正在使用以下 Spark 提交: Spark-submit --deploy-mode 客户端 --executor-...

回答 1 投票 0

从 AWS Step Functions 创建 EMR 集群时添加引导操作

我正在使用以下代码从 Step Functions 创建 EMR 集群, “spinning_emr_cluster”:{ “类型”:“任务”, “资源”:“arn:aws:状态:::

回答 2 投票 0

Spark Streaming 和集中式日志记录:将 executorId 添加到日志中

我正在尝试为 Spark 流应用程序设置集中式日志记录。我的具体用例是将驱动程序和执行程序日志导出到 AWS CloudWatch 日志,但我认为我的部分问题是

回答 1 投票 0

即使 Spark 作业完成后,EMR 任务仍保持在 RUNNING 状态

我在 EKS 上的 AWS EMR 上运行 PySpark 作业(使用 Apache Hudi),驱动程序代码如下: 与 (SparkSession.builder .appName(f"应用程序") .config('spark.serializer',...

回答 1 投票 0

将自定义模块导入 AWS EMR

我有一个包含“main.py”文件的 s3 存储库,其中包含我构建的自定义模块(在“Cache”和“Helpers”内): 我的“main.py”文件如下所示: 从 pyspark.sql 导入 SparkSession 来自

回答 1 投票 0

如何检查我的 Spark 应用程序是否正在利用所有可用资源?

在进行一些转换并将其加载到数据库后,我正在 Spark 中从 kafka 读取数据。 当我通过 Spark-Submit 开始工作时,我可以看到它启动了 Spark 中提到的容器数量

回答 1 投票 0

EMR Pyspark 在运行 select 语句时看不到计算列

我在 EMR 6.10.1 上托管的托管 pyspark 环境中遇到一个相当奇怪的问题 运行此查询时: Spark.sql("选择1作为a,a+a作为b,b+b作为d").show() 在本地机器上,

回答 1 投票 0

AWS EMR PySpark UDF 失败并显示“无法运行命令 /usr/bin/virtualenv (...)”

我有一个 emr 版本为 6.10.0 的 emr 集群,我尝试在代码中使用 pyspark udf,但它始终失败并出现相同的错误。 数据 = [("AAA",), ("BBB",)...

回答 2 投票 0

Spark 建议列出文档中提供的 Spark 和 Hadoop 依赖项,这是严格要求的吗?

在 Spark 文档中,它指出: 如果您的代码依赖于其他项目,则需要将它们打包 与您的应用程序一起,以便将代码分发到 Spark 簇。为了做到这一点...

回答 1 投票 0

问题无法找到 s3ablock-0001-

当我尝试在 S3 上写入数据时,我在 Amazon EMR 上运行作业时遇到问题。 这是堆栈跟踪: org.apache.hadoop.util.DiskChecker$DiskErrorException:找不到任何有效的本地可怕...

回答 4 投票 0

s3 存储桶中的输出文件在运行 Dbt 时不会被覆盖 - 使用 Iceberg 表配置的 Spark 模型

我们在 dbt 云配置中有一个模型,其中 Spark 在 AWS EMR 上运行,并以 Iceberg 作为目标表类型。 目前我们已经设置了配置:materialized: 'table' 并且每次模型运行时,它都会创建

回答 1 投票 0

为什么Flink核心节点不释放JVM Metaspace内存?

我正在运行一个 1.13.1 flink 集群,我在其中执行批处理作业,该作业执行 athena 查询并将结果保存在 athena 表中。 我一天内多次提交这些作业。 在每次执行中,cl...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.