amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

我无法在 AWS EMR 上运行 dask 纱线集群

我想使用 YarnCluster 在 EMR 上运行 dask。 我使用了下面的引导脚本,但我已经在 SSH 控制台中运行了这些指令。 #!/bin/bash HELP="用法:bootstrap-dask [选项] AWS EMR 示例

回答 1 投票 0

Spark 中的广播加入不适用于左外

我有一个小表(2k)记录和大表(500万)记录。我需要从小表中获取所有数据,并且只从大表中匹配数据,所以为了实现这一点,我执行了下面的查询 瑟...

回答 3 投票 0

如何解决 EMR Spark 内存不足错误

我有一个 Spark 作业,正在尝试在 EMR 上执行。它给了我以下错误: java.lang.OutOfMemoryError:Java堆空间 -XX:OnOutOfMemoryError="kill -9 %p" 执行 /bin/sh ...

回答 2 投票 0

文档中的简单 UDF 应用函数在 Spark 3.3 中失败

最新文档中的这个简单代码不适用于 EMR Studio Spark 集群(当前版本:3.3.1-amzn-0) df = Spark.createDataFrame( [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)...

回答 1 投票 0

避免使用 hadoop (EMR) 在 S3 中创建 _$folder$ 键

我正在 AWS 数据管道中使用 EMR 活动。此 EMR 活动正在 EMR 集群中运行 Hive 脚本。它以 dynamo DB 作为输入并将数据存储在 S3 中。 这是 EMR 法案中使用的 EMR 步骤...

回答 5 投票 0

如何停止在我的 AWS EMR Spark 作业标准输出日志中看到 JVM 全线程转储?

我在 AWS EMR 中运行 PySpark 作业。最近,我升级了(AWS EMR 6.4、Spark 3.1.2)并切换到在 Docker 容器中运行作业。从那时起,std 中就有零星的线程转储......

回答 1 投票 0

EMR 上的 Prestosql/trino 缩减会杀死查询

我在 EMR 上有一个 presto 集群。我们还根据 AWS Cloudwatch 指标制定了自动扩展策略。当集群缩小节点时,我们遇到一个问题,它不会等待在...上运行的查询

回答 1 投票 0

Amazon EMR - 端口 9443 上缺少来自 EmrManagedMasterSecurityGroup 的入口规则

我正在努力解决这个问题,但不明白为什么 我有一个 EMR 集群要部署在 AWS 私有子网中。 我检查了这里的文档。 从上面我明白了

回答 3 投票 0

为什么我的group by操作时shuffle分区不是200(默认)? (火花2.4.5)

我是 Spark 新手,并试图了解它的内部结构。所以, 我正在从 s3 读取一个 50MB 的小 parquet 文件并执行分组,然后保存回 s3。 当我观察 Spark UI 时,...

回答 2 投票 0

VSCode 中缺少 Jupyter Notebook 内核

我有多个人在同一个 AWS EMR 集群上工作来运行一些 Spark 作业。这是通过 Jupyter Notebooks 完成的,这些 Notebooks 使用安装在 ... 上的 Jupyter 扩展创建/修改。

回答 3 投票 0

在大型 pyspark 数据帧上进行高效的部分字符串搜索

各位开发者大家好, 我目前正在开发一个 PySpark 项目,我需要在两个大型数据帧之间执行联接。一个数据帧包含大约 1000 万个条目,其中短字符串为

回答 1 投票 0

EMR 任务节点中的 Shuffle 日志填满磁盘

我在 EMR 6.9 上运行 Spark 3 作业,并且它正在连续运行作业。我注意到随着时间的推移,任务节点的磁盘使用量逐渐增加。我注意到任务节点上出现这样的错误 - ...

回答 1 投票 0

在 AWS 上,每天运行 AWS CLI 命令

我有一个 AWS CLI 调用(在本例中,启动已配置的 EMR 集群来执行一些步骤,然后关闭),但我不确定如何每天运行它。 我想一种方法是......

回答 3 投票 0

Redshift 将布尔数据类型解释为位,因此如果存在任何布尔数据类型列,则无法将 hudi 表从 S3 移动到 Redshift

我正在 AWS 中创建一个数据管道,用于通过 EMR 将数据从 S3 移动到 Redshift。数据以 HUDI 格式存储在 S3 的 parquet 文件中。我已经创建了用于全负载传输的 Pyspark 脚本并且...

回答 1 投票 0

ClassNotFoundException:使用 elasticsearch-hadoop for Spark 时的 scala.Product$class

我正在 AWS EMR 上运行 Spark-Submit 作业 从elasticsearch节点读取。 当作业执行此命令时 Python: es_config = { “es.nodes”:url_to_my_node, “es.port&q...

回答 1 投票 0

如何在scala中传递map中存在的列表元素?

我目前正在学习scala-spark,所以请耐心等待。 我正在尝试将函数应用于 scala 数据框来创建一个新列,如下所示 - 导入 org.apache.spark.sql.functions._ 导入 org.apa...

回答 1 投票 0

如何让 Amazon EMR 中的 Trino 同时支持 AWS Glue 数据目录中的 Delta 表和 Postgres 表?

我有一些由 AWS Glue 爬网程序在 AWS Glue 数据目录中注册的 Delta 表和 Postgres (Amazon RDS) 表: 我最初创建了一个 Amazon EMR 集群 aws emr 创建集群 \ --名字...

回答 1 投票 0

在 DBT 中使用 Nessie 命令但不使用 Spark 时出现语法错误

我们正在尝试使用 AWS EMR(在 EC2 上)、DBT、Spark 和 Nessie 设置环境。 即使所有扩展都已正确安装,并且像“CREATE BRANCH”这样的 Nessie 命令也可以在 clu 上工作...

回答 2 投票 0

对 AWS EMR 的安装充满期待

我尝试对数据质量抱有很大的期望 我正在 AWS EMR 集群中运行我的作业,并且我也尝试在 AWS EMR 上启动寄予厚望的作业 我有

回答 2 投票 0

PySpark monotonically_increasing_id 结果在本地和 AWS EMR 上不同

我创建了一个小函数,它将为每一行分配一个复合 id,以便在给定子集大小的情况下将行本质上分组为较小的子集。在我的本地计算机上,逻辑运行完美。有一次我

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.