amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

如何使用 Terraform 在“AWS Glue 数据目录设置”中启用“用于 Hive 表元数据”？

我正在使用 Terraform 设置由 Amazon EMR 管理的 Trino 集群。这是我的 Terraform 代码：资源“aws_emr_cluster”“hm_amazon_emr_cluster”{ 名字...

amazon-web-services terraform amazon-emr trino

回答 1 投票 0

如何使用 Terraform 在“AWS Glue 数据目录设置”中设置“用于 Hive 表元数据”？

我正在使用 Terraform 设置由 Amazon EMR 管理的 Trino 集群。这是我的 Terraform 代码：资源“aws_emr_cluster”“hm_amazon_emr_cluster”{ 名字...

amazon-web-services terraform amazon-emr trino

回答 1 投票 0

使用boto3的EMR集群-服务角色权限不足

我正在尝试在AWS中创建EMR集群。它运行良好，当我通过 UI 执行此操作时，集群已创建。当我使用以下命令使用命令行创建它时，它也运行良好...

amazon-web-services permissions amazon-emr

回答 1 投票 0

Spark 聚合多列或哈希

假设我想删除重复项或对 Spark 数据框中的 3 列执行聚合。这样做会更优化吗 df = df.withColumn( “哈希_dup”， f.hash( ...

apache-spark pyspark amazon-emr

回答 1 投票 0

EMR Serverless 是否支持 Bootstrap 操作

创建 EMR 集群时，有一项规定可以提供引导操作，如下所示。 aws emr create-cluster --name "测试集群" --release-label emr-7.1.0 --使用默认角色 ...

amazon-emr emr-serverless

回答 1 投票 0

无法在笔记本实例上本地运行 sagemaker pyspark，缺少 conda_python3 内核

我正在尝试在 sagemaker 笔记本上使用 pyspark，如下所述： https://github.com/aws/sagemaker-spark/tree/master/sagemaker-pyspark-sdk#local-spark-on-sagemaker-notebook-instances 页面

pyspark amazon-emr amazon-sagemaker amazon-sagemaker-studio

回答 1 投票 0

使用 JsonSerDe 时找不到启动令牌错误

我正在尝试从S3导入JSON数据，并在进行一些查询后，再次将输出以JSON格式导出到S3。但是，我得到“org.apache.hadoop.hive.serde2.SerDeException：java.io。

amazon-web-services hive emr amazon-emr

回答 3 投票 0

从 EMR Studio 访问 EMR 目录上的数据：工作区（笔记本）

我在 s3 上保存了一些数据，我想在 EMR 上运行 python 脚本时导入这些数据。要通过 EMR 控制台上的 python 代码来完成此操作：我只需在 EMR 上创建目录/文件，如下所示 /home/

python amazon-s3 import amazon-emr

回答 1 投票 0

如何在 EMR 集群上执行的 pyspark 代码中使用 yaml 文件？

在 EMR 集群中，我正在运行 pyspark 代码，它使用 yaml 文件，我收到路径未找到错误。我正在使用以下 Spark 提交： Spark-submit --deploy-mode 客户端 --executor-...

python amazon-web-services apache-spark pyspark amazon-emr

回答 1 投票 0

从 AWS Step Functions 创建 EMR 集群时添加引导操作

我正在使用以下代码从 Step Functions 创建 EMR 集群， “spinning_emr_cluster”：{ “类型”：“任务”， “资源”：“arn：aws：状态:::

amazon-emr aws-step-functions

回答 2 投票 0

Spark Streaming 和集中式日志记录：将 executorId 添加到日志中

我正在尝试为 Spark 流应用程序设置集中式日志记录。我的具体用例是将驱动程序和执行程序日志导出到 AWS CloudWatch 日志，但我认为我的部分问题是

apache-spark hadoop-yarn amazon-emr log4j

回答 1 投票 0

即使 Spark 作业完成后，EMR 任务仍保持在 RUNNING 状态

我在 EKS 上的 AWS EMR 上运行 PySpark 作业（使用 Apache Hudi），驱动程序代码如下：与 (SparkSession.builder .appName(f"应用程序") .config('spark.serializer',...

amazon-web-services apache-spark amazon-emr emr-serverless

回答 1 投票 0

将自定义模块导入 AWS EMR

我有一个包含“main.py”文件的 s3 存储库，其中包含我构建的自定义模块（在“Cache”和“Helpers”内）：我的“main.py”文件如下所示：从 pyspark.sql 导入 SparkSession 来自

python amazon-web-services apache-spark pyspark amazon-emr

回答 1 投票 0

如何检查我的 Spark 应用程序是否正在利用所有可用资源？

在进行一些转换并将其加载到数据库后，我正在 Spark 中从 kafka 读取数据。当我通过 Spark-Submit 开始工作时，我可以看到它启动了 Spark 中提到的容器数量

apache-spark amazon-emr

回答 1 投票 0

EMR Pyspark 在运行 select 语句时看不到计算列

我在 EMR 6.10.1 上托管的托管 pyspark 环境中遇到一个相当奇怪的问题运行此查询时： Spark.sql("选择1作为a，a+a作为b，b+b作为d").show() 在本地机器上，

pyspark amazon-emr

回答 1 投票 0

AWS EMR PySpark UDF 失败并显示“无法运行命令 /usr/bin/virtualenv (...)”

我有一个 emr 版本为 6.10.0 的 emr 集群，我尝试在代码中使用 pyspark udf，但它始终失败并出现相同的错误。数据 = [("AAA",), ("BBB",)...

amazon-web-services apache-spark pyspark user-defined-functions amazon-emr

回答 2 投票 0

Spark 建议列出文档中提供的 Spark 和 Hadoop 依赖项，这是严格要求的吗？

在 Spark 文档中，它指出：如果您的代码依赖于其他项目，则需要将它们打包与您的应用程序一起，以便将代码分发到 Spark 簇。为了做到这一点...

apache-spark hadoop hbase amazon-emr

回答 1 投票 0

问题无法找到 s3ablock-0001-

当我尝试在 S3 上写入数据时，我在 Amazon EMR 上运行作业时遇到问题。这是堆栈跟踪： org.apache.hadoop.util.DiskChecker$DiskErrorException：找不到任何有效的本地可怕...

apache-spark hadoop pyspark amazon-emr

回答 4 投票 0

s3 存储桶中的输出文件在运行 Dbt 时不会被覆盖 - 使用 Iceberg 表配置的 Spark 模型

我们在 dbt 云配置中有一个模型，其中 Spark 在 AWS EMR 上运行，并以 Iceberg 作为目标表类型。目前我们已经设置了配置：materialized: 'table' 并且每次模型运行时，它都会创建

apache-spark amazon-emr dbt apache-iceberg dbt-cloud

回答 1 投票 0

为什么Flink核心节点不释放JVM Metaspace内存？

我正在运行一个 1.13.1 flink 集群，我在其中执行批处理作业，该作业执行 athena 查询并将结果保存在 athena 表中。我一天内多次提交这些作业。在每次执行中，cl...

apache-flink amazon-emr

回答 1 投票 0

amazon-emr 相关问题

最新问题