amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

pyspark monotonically_increasing_id 奇怪的行为

我无法确定确切的原因，所以希望其他人知道。我创建了一个小函数，它将为每一行分配一个复合 id，以将行本质上分组为更小的子集，给出...

python python-3.x pyspark amazon-emr

回答 1 投票 0

在 AWS EMR 中运行 Spark sql 查询

我设置了一个 AWS EMR 集群。我选择了emr-6.0.0。所选的应用程序是： Spark：Hadoop 3.2.1 YARN 上的 Spark 2.4.4 以及 Ganglia 3.7.2 和 Zeppelin 0.9.0-SNAPSHOT 之后我创建了一个ju...

amazon-web-services apache-spark pyspark hive amazon-emr

回答 1 投票 0

EMR 上的 GCS 连接器因 java.lang.ClassNotFoundException 失败

我已经创建了一个 emr 集群，其中包含有关如何从此处提供的 gcs 创建连接并继续运行 hadoop distcp 命令的说明。它不断失败并出现以下错误： 2023-...

amazon-web-services google-cloud-storage amazon-emr distcp s3distcp

回答 1 投票 0

EMR-Spark 工作负载过大的问题

我正在尝试使用 Spark 在 EMR 中运行繁重的工作负载。我的记录数接近 50 亿。我正在对其他数据帧进行诸如连接、分组、排序等转换，这些数据帧也有数十亿......

amazon-web-services apache-spark amazon-emr

回答 0 投票 0

无法使用 jupterlab 的 pyspark 代码从 EKS 上的 EMR 读取 s3a 路径

尝试从 EKS 上的 EMR（使用托管端点）在 Pyspark 内核上运行以下代码，我尝试设置一些 s3a 相关的 Spark 配置，但似乎不起作用从 pyspark.sql 导入 SparkSession # 创造...

amazon-eks amazon-emr spark3 amazon-s3-access-points

回答 0 投票 0

将 Drill 版本升级到 > 1.14.0 时出现异常 NoClassDefFoundError JniBasedUnixGroupsMapping

对于安装在 Hadoop EMR 核心节点上的 Drill 集群，我们使用基于 PAM 的身份验证。这是下面的配置。安全.用户.auth: { 启用：真，包裹 +=...

hadoop hadoop-yarn amazon-emr apache-drill

回答 0 投票 0

优化Spark资源，避免内存和空间占用

我有一个大约 190GB 的数据集，被划分为 1000 个分区。我的 EMR 集群最多允许 10 个 r5a.2xlarge TASK 节点和 2 个 CORE 节点。每个节点有 64GB mem 和 128GB EBS

apache-spark pyspark amazon-emr

回答 2 投票 0

EMR集群容量规划

我们计划使用 EMR 集群来处理 80 GB 的 Parquet 数据。我们想要规划为此所需的总核心和任务节点。我从 AWS 看到了这份用于规划能力的文档...

amazon-web-services amazon-emr

回答 0 投票 0

Spark Executor 连接正在接近

您好，我正在阅读 parquet 文件，但在 AWS EMR 中遇到以下错误：- 错误 TransportResponseHandler：从 ip-100-73-112-181.ec2.interna 连接时仍有 518 个请求未完成...

java apache-spark pyspark apache-spark-sql amazon-emr

回答 0 投票 0

从 Apche Spark 读取 AWS DynamoDb 记录始终返回空数据集

我正在关注这篇文章，我想在我的 Spark 作业中从 dynamodb 读取数据。问题是我从 dynamo db 读取的数据集始终为空。我知道这一点是因为这个声明：系统....

apache-spark amazon-dynamodb amazon-emr

回答 1 投票 0

仅加载部分 HBase/Phoenix 表作为 Spark Datafrom

我在 Spark 中使用以下代码将我的 HBase/Phoenix 表的指定列加载到 Spark Dataframe 中。我可以指定要加载的列，但我可以指定哪些行吗？还是我...

apache-spark hbase amazon-emr apache-phoenix

回答 1 投票 0

在 VPC 中运行 emr-serverless spark 作业时任务结果丢失

我在运行我的 emr-serverless pyspark sql 代码时收到错误：错误：root：调用 o221.collectToPython 时发生错误。：org.apache.spark.SparkException：作业因阶段而中止

pyspark amazon-emr emr-serverless

回答 0 投票 0

AWS EMR集群能否解析JFrog Artifactory jar包？

我正在启动 AWS EMR 集群并传递一些包 ins --packages 参数，包括我在 JFrog Artifactory 中创建的一些自定义包，显然集群作业无法重新...

amazon-web-services artifactory amazon-emr jfrog-cli

回答 2 投票 0

Bucket cache accesses/hits 和 cachingAccesses/cachingHits stat 之间有什么不同？

以下是 Hbase L2 块缓存统计信息。有人可以解释访问/命中和缓存访问/缓存命中之间的区别吗？我找不到有关块缓存统计信息的文档。会是

hbase amazon-emr

回答 0 投票 0

hadoop-streaming中练习mapreduce运行JAR报错

我是 AWS 的新手，正在尝试获得这些功能的实践经验。这就是我要运行的： hadoop罐子 /lib/hadoop-mapreduce/hadoop-streaming-2.8.5-amzn-6.jar \ -文件映射器....

amazon-web-services amazon-emr hadoop-streaming

回答 0 投票 0

Terraform EMR on EKS 虚拟集群错误

我正在尝试通过 Terraform 蓝图在 eks 上添加 emr，我添加了以下内容，成功创建了蓝图面：模块“emr-蓝图”{ 来源 = "github.co...

terraform amazon-eks amazon-emr

回答 0 投票 0

我在 Amazon EMR 集群中连接到什么节点类型（主要、核心或任务）？

我正在尝试在所有 EMR 节点（主节点、核心节点或任务节点）上运行脚本作为引导操作。此脚本将向 AWS CloudWatch 发布指标。将指标发布到 AWS CloudW 时...

amazon-web-services amazon-ec2 amazon-emr

回答 0 投票 0

如何通过 AWS EMR 并行化大文件的 curl

我正在尝试将一个非常大的文件（> 1Tb）从网络中拉到 AWS S3 中。通常我会使用 Requests + multipart upload 来执行此操作，但考虑到文件的大小，这最终会非常慢。在

amazon-web-services amazon-s3 curl amazon-emr

回答 0 投票 0

Dockerized Localstack EMR 步骤创建语法

我正在尝试在 Mac OS 上的 localstack 中运行一些应用程序。我能够创建集群，但在配置步骤时遇到一些问题。理想情况下，我想使用 JSON 来配置我的步骤。当我跑步时噢...

amazon-web-services amazon-emr localstack

回答 0 投票 0

使用 Java 8 在 EMR 集群上运行 spark 作业时获取 classCastException

我正在 spring boot 应用程序中编写 spark 作业。当我在本地系统中运行我的工作时，它运行良好。但是在 AWS EMR 集群中工作时，它会出现以下异常 java.lang.ClassCastExcepti...

java amazon-web-services apache-spark aws-lambda amazon-emr

回答 0 投票 0

amazon-emr 相关问题

最新问题