amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

EMR-Spark 工作负载过大的问题

我正在尝试使用 Spark 在 EMR 中运行繁重的工作负载。我的记录数接近 50 亿。我正在对其他数据帧进行诸如连接、分组、排序等转换,这些数据帧也有数十亿......

回答 0 投票 0

无法使用 jupterlab 的 pyspark 代码从 EKS 上的 EMR 读取 s3a 路径

尝试从 EKS 上的 EMR(使用托管端点)在 Pyspark 内核上运行以下代码,我尝试设置一些 s3a 相关的 Spark 配置,但似乎不起作用 从 pyspark.sql 导入 SparkSession # 创造...

回答 0 投票 0

将 Drill 版本升级到 > 1.14.0 时出现异常 NoClassDefFoundError JniBasedUnixGroupsMapping

对于安装在 Hadoop EMR 核心节点上的 Drill 集群,我们使用基于 PAM 的身份验证。这是下面的配置。 安全.用户.auth: { 启用:真, 包裹 +=...

回答 0 投票 0

优化Spark资源,避免内存和空间占用

我有一个大约 190GB 的数据集,被划分为 1000 个分区。 我的 EMR 集群最多允许 10 个 r5a.2xlarge TASK 节点和 2 个 CORE 节点。每个节点有 64GB mem 和 128GB EBS

回答 2 投票 0

EMR集群容量规划

我们计划使用 EMR 集群来处理 80 GB 的 Parquet 数据。我们想要规划为此所需的总核心和任务节点。我从 AWS 看到了这份用于规划能力的文档...

回答 0 投票 0

Spark Executor 连接正在接近

您好,我正在阅读 parquet 文件,但在 AWS EMR 中遇到以下错误:- 错误 TransportResponseHandler:从 ip-100-73-112-181.ec2.interna 连接时仍有 518 个请求未完成...

回答 0 投票 0

从 Apche Spark 读取 AWS DynamoDb 记录始终返回空数据集

我正在关注这篇文章,我想在我的 Spark 作业中从 dynamodb 读取数据。 问题是我从 dynamo db 读取的数据集始终为空。 我知道这一点是因为这个声明:系统....

回答 1 投票 0

仅加载部分 HBase/Phoenix 表作为 Spark Datafrom

我在 Spark 中使用以下代码将我的 HBase/Phoenix 表的指定列加载到 Spark Dataframe 中。我可以指定要加载的列,但我可以指定哪些行吗?还是我...

回答 1 投票 0

在 VPC 中运行 emr-serverless spark 作业时任务结果丢失

我在运行我的 emr-serverless pyspark sql 代码时收到错误: 错误:root:调用 o221.collectToPython 时发生错误。 :org.apache.spark.SparkException:作业因阶段而中止

回答 0 投票 0

AWS EMR集群能否解析JFrog Artifactory jar包?

我正在启动 AWS EMR 集群并传递一些包 ins --packages 参数,包括我在 JFrog Artifactory 中创建的一些自定义包,显然集群作业无法重新...

回答 2 投票 0

Bucket cache accesses/hits 和 cachingAccesses/cachingHits stat 之间有什么不同?

以下是 Hbase L2 块缓存统计信息。有人可以解释访问/命中和缓存访问/缓存命中之间的区别吗?我找不到有关块缓存统计信息的文档。会是

回答 0 投票 0

hadoop-streaming中练习mapreduce运行JAR报错

我是 AWS 的新手,正在尝试获得这些功能的实践经验。 这就是我要运行的: hadoop罐子 /lib/hadoop-mapreduce/hadoop-streaming-2.8.5-amzn-6.jar \ -文件映射器....

回答 0 投票 0

Terraform EMR on EKS 虚拟集群错误

我正在尝试通过 Terraform 蓝图在 eks 上添加 emr, 我添加了以下内容,成功创建了蓝图面: 模块“emr-蓝图”{ 来源 = "github.co...

回答 0 投票 0

我在 Amazon EMR 集群中连接到什么节点类型(主要、核心或任务)?

我正在尝试在所有 EMR 节点(主节点、核心节点或任务节点)上运行脚本作为引导操作。此脚本将向 AWS CloudWatch 发布指标。将指标发布到 AWS CloudW 时...

回答 0 投票 0

如何通过 AWS EMR 并行化大文件的 curl

我正在尝试将一个非常大的文件(> 1Tb)从网络中拉到 AWS S3 中。通常我会使用 Requests + multipart upload 来执行此操作,但考虑到文件的大小,这最终会非常慢。在

回答 0 投票 0

Dockerized Localstack EMR 步骤创建语法

我正在尝试在 Mac OS 上的 localstack 中运行一些应用程序。我能够创建集群,但在配置步骤时遇到一些问题。 理想情况下,我想使用 JSON 来配置我的步骤。当我跑步时 噢...

回答 0 投票 0

使用 Java 8 在 EMR 集群上运行 spark 作业时获取 classCastException

我正在 spring boot 应用程序中编写 spark 作业。当我在本地系统中运行我的工作时,它运行良好。但是在 AWS EMR 集群中工作时,它会出现以下异常 java.lang.ClassCastExcepti...

回答 0 投票 0

在 spark 中使用自定义模式读取 json 文件不返回结果

我是 emr/hdfs/hive/spark 世界的新手。我有一组大型 json 文件(每个文件 > 50GB),我试图加载这些文件以查询特定的键。 json 有一个标准布局...

回答 0 投票 0

AWS EMR 中的 Spark Scala 作业随机失败并出现错误 org.xml.sax.SAXParseException;文件过早结束

我有一个在 AWS EMR(emr-5.31.0) 中运行的 Spark(2.4.6) Scala 作业随机失败并出现错误 org.xml.sax.SAXParseException;文件过早结束。这项工作一直覆盖镶木地板文件......

回答 0 投票 0

如何使用自定义 Ubuntu 镜像创建 EMR 集群?

我正在尝试使用基于 ubuntu 操作系统的自定义 AMI 启动 EMR 集群。 在创建 AMI 的过程中,我遵循了以下步骤: 使用可用的 ubuntu 服务器 20.04 AMI 启动 ec2 实例...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.