amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

如何让 AWS EMR 访问 Lake Formation 资源链接表

我有一个 Lake Formation 资源链接数据库表,来自另一个 AWS 帐户,我可以在 Athena 中查询该表,只要有权限即可找到。但我无法在 EMR 中查询这些数据。权限访问...

回答 1 投票 0

增量湖屋更新

我正在使用 Pyspark 实现 Lakehouse(Apache Iceberg),但遇到了一些问题。所以我来自 SQL 背景,所以最初尝试以同样的方式实现这个解决方案,但我没有......

回答 1 投票 0

EMR:AWS Graviton 上的 Pyspark conda 环境错误

相同的 pyspark 代码适用于 r7a,但不适用于 EMR 集群 (7.5) 上的 r7g 或 r8g。 我用conda搭建了python环境,并在pyspark中使用: conda create -n pyspark python=3.9 --show-channel-url...

回答 1 投票 0

未找到 com.amazon.ws.emr.hadoop.fs.EmrFileSystem 类

当我尝试在 EMR 集群上运行 pyspark 步骤时,出现错误 Caused by: java.lang.ClassNotFoundException: Class com.amazon.ws.emr.hadoop.fs.EmrFileSystem not found。我对AWS的理解

回答 1 投票 0

EMR:AWS graviton 上的 Pyspark 不起作用

相同的 pyspark 代码适用于 r7a,但不适用于 EMR 集群 (7.5) 上的 r7g 或 r8g。 我用conda搭建了python环境,并在pyspark中使用: conda create -n pyspark python=3.9 --show-channel-url...

回答 1 投票 0

EMRserverless 为执行器分配的内存比我们在 Spark 作业中实际定义的内存多一半

当我将 Spark 的执行器的内存定义为 12GB 时,它实际上分配了几乎一半(例如 6.7GB)。 也尝试设置 20gb,然后它分配了接近 11gb,一半。 我已经定义了足够...

回答 1 投票 0

AWS EMR 本地磁盘加密失败

EMR 实例旋转失败并出现错误 因错误而终止。在主实例上,由于内部错误,本地磁盘加密失败。 任何指示都会有帮助

回答 3 投票 0

BootstrapActions 创建hdfs目录失败

我需要为 run_job_flow 创建一个 hdfs 文件夹才能工作。目前我正在使用这个 sh 脚本命令 sudo -u hdfs hdfs dfs -mkdir -p /apps/hudi/lib 但由于某种原因我收到此错误:...

回答 1 投票 0

AWS EMR-EC2 集群上的 apache-beam 安装问题

我启动了一个AWS EMR-EC2集群,我在让apache-beam的sparkrunner工作时遇到问题。 我有一个将使用 apache-beam 的 python 脚本。我尝试过 aws emr add-steps 或 ssh ...

回答 1 投票 0

UDF?与列?在 pyspark 中更新列哪个更好?

如果我们只是实现一个简单的函数来更新 pyspark 中的列(就地),我们可以使用: 当语法,例如 df.withColumn("col_name", when(col("reference")==1, False).othe...

回答 1 投票 0

使用 Maven Shade 插件的 Apache Spark 项目中的 Jackson Databind 冲突

我正在开发一个使用 Apache Spark 处理 IMDb 数据的项目。我的设置涉及 Spark Core 和 Spark SQL 依赖项,以及用于处理 JSON 序列化和反序列化的 Jackson...

回答 1 投票 0

Pyspark 错误:“EMR 7.0.0 中未找到类 org.apache.hadoop.fs.s3a.S3AFileSystem”

我使用的是EMR 7.0.0版本,AWS中有python 3.9,spark 3.5.0,Hadoop 3.3.6。 我收到错误: 文件“/usr/local/lib/python3.9/site-packages/pyspark/python/lib/pyspark.zip/pyspark/sql/

回答 1 投票 0

Glue Spark:某些任务有 0 条记录用于洗牌,但某些任务有磁盘溢出

我有一个 Spark 作业,其中某些任务的记录输出为零,并且随机播放读取大小,其中某些任务有内存和磁盘溢出。有人可以帮我做什么来优化执行吗? 执行...

回答 1 投票 0

尽管 Spark History UI 作业陷入运行状态,但作业在气流中失败。 AWS 无服务器

有没有人经历过 Airflow 中作业失败的情况,尽管在 Spark History UI 中,作业仍然停留在运行状态。另外,我添加了一行代码将数据写入S3(不读取我...

回答 1 投票 0

使用 Python 在 AWS EMR 上执行 Flink 作业失败并出现“NoClassDefFoundError”

我正在尝试使用 Python 3.9 和 Apache Flink 以及 PyFlink 在 AWS EMR 集群 (v7.3.0) 上运行 Flink 作业。我的作业从 AWS Kinesis 流中读取数据并将流数据打印到控制台。然而,...

回答 1 投票 0

将 jar 上传到 Apache Livy 交互式会话

将 Amazon emr-5.30.1 与 Livy 0.7 和 Spark 2.4.5 结合使用 我们愿意使用 Apache Livy 作为 Spark 的 REST 服务。 我们想要使用的模式是会话而不是批处理。 正在尝试上传 jar 包...

回答 2 投票 0

spark-submit 使用 --py-files 选项找不到模块路径

我正在尝试在 EMR 集群中提交 pyspark 作业。作业的代码位于放置在 S3 中的压缩包中: /bin/spark-提交 \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline....

回答 1 投票 0

创建集群需要InstanceProfile

我尝试从 Eclipse 运行 Elastic MapReduce,但无法执行此操作。 我的代码如下: 公共类 RunEMR { /** * @参数参数 */ 公共静态无效主(字符串[] args){ ...

回答 4 投票 0

需要帮助将 Spark 历史日志存储到 s3 存储桶

我想将 Spark 历史执行日志存储在 s3 存储桶中,以便我可以对我的 Spark 应用程序进行一些分析。我的 Spark 应用程序在 EMR(emr-6.15.0)上运行并使用纱线部署。 之后...

回答 1 投票 0

azure 和 HDInsight 中的持久和瞬态 EMR 等效集群

我想知道在 Azure 上创建 HDInsight 集群是否完全可靠。例如,我不想在一段时间后看到一个节点被清除或删除并且我丢失了数据。 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.