amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

如何让 AWS EMR 访问 Lake Formation 资源链接表

我有一个 Lake Formation 资源链接数据库表，来自另一个 AWS 帐户，我可以在 Athena 中查询该表，只要有权限即可找到。但我无法在 EMR 中查询这些数据。权限访问...

amazon-emr aws-lake-formation

回答 1 投票 0

增量湖屋更新

我正在使用 Pyspark 实现 Lakehouse（Apache Iceberg），但遇到了一些问题。所以我来自 SQL 背景，所以最初尝试以同样的方式实现这个解决方案，但我没有......

pyspark amazon-emr apache-iceberg

回答 1 投票 0

EMR：AWS Graviton 上的 Pyspark conda 环境错误

相同的 pyspark 代码适用于 r7a，但不适用于 EMR 集群 (7.5) 上的 r7g 或 r8g。我用conda搭建了python环境，并在pyspark中使用： conda create -n pyspark python=3.9 --show-channel-url...

pyspark amazon-emr aws-graviton

回答 1 投票 0

未找到 com.amazon.ws.emr.hadoop.fs.EmrFileSystem 类

当我尝试在 EMR 集群上运行 pyspark 步骤时，出现错误 Caused by: java.lang.ClassNotFoundException: Class com.amazon.ws.emr.hadoop.fs.EmrFileSystem not found。我对AWS的理解

pyspark amazon-emr

回答 1 投票 0

EMR：AWS graviton 上的 Pyspark 不起作用

pyspark amazon-emr aws-graviton

回答 1 投票 0

EMRserverless 为执行器分配的内存比我们在 Spark 作业中实际定义的内存多一半

当我将 Spark 的执行器的内存定义为 12GB 时，它实际上分配了几乎一半（例如 6.7GB）。也尝试设置 20gb，然后它分配了接近 11gb，一半。我已经定义了足够...

apache-spark amazon-emr emr-serverless

回答 1 投票 0

AWS EMR 本地磁盘加密失败

EMR 实例旋转失败并出现错误因错误而终止。在主实例上，由于内部错误，本地磁盘加密失败。任何指示都会有帮助

amazon-web-services amazon-emr

回答 3 投票 0

BootstrapActions 创建hdfs目录失败

我需要为 run_job_flow 创建一个 hdfs 文件夹才能工作。目前我正在使用这个 sh 脚本命令 sudo -u hdfs hdfs dfs -mkdir -p /apps/hudi/lib 但由于某种原因我收到此错误：...

apache-spark hadoop amazon-ec2 amazon-emr

回答 1 投票 0

AWS EMR-EC2 集群上的 apache-beam 安装问题

我启动了一个AWS EMR-EC2集群，我在让apache-beam的sparkrunner工作时遇到问题。我有一个将使用 apache-beam 的 python 脚本。我尝试过 aws emr add-steps 或 ssh ...

apache-spark pyspark apache-beam amazon-emr spark-submit

回答 1 投票 0

UDF？与列？在 pyspark 中更新列哪个更好？

如果我们只是实现一个简单的函数来更新 pyspark 中的列（就地），我们可以使用：当语法，例如 df.withColumn("col_name", when(col("reference")==1, False).othe...

python apache-spark pyspark amazon-emr

回答 1 投票 0

使用 Maven Shade 插件的 Apache Spark 项目中的 Jackson Databind 冲突

我正在开发一个使用 Apache Spark 处理 IMDb 数据的项目。我的设置涉及 Spark Core 和 Spark SQL 依赖项，以及用于处理 JSON 序列化和反序列化的 Jackson...

java maven apache-spark jackson amazon-emr

回答 1 投票 0

Pyspark 错误：“EMR 7.0.0 中未找到类 org.apache.hadoop.fs.s3a.S3AFileSystem”

我使用的是EMR 7.0.0版本，AWS中有python 3.9，spark 3.5.0，Hadoop 3.3.6。我收到错误：文件“/usr/local/lib/python3.9/site-packages/pyspark/python/lib/pyspark.zip/pyspark/sql/

amazon-web-services apache-spark amazon-s3 pyspark amazon-emr

回答 1 投票 0

Glue Spark：某些任务有 0 条记录用于洗牌，但某些任务有磁盘溢出

我有一个 Spark 作业，其中某些任务的记录输出为零，并且随机播放读取大小，其中某些任务有内存和磁盘溢出。有人可以帮我做什么来优化执行吗？执行...

apache-spark aws-glue amazon-emr

回答 1 投票 0

尽管 Spark History UI 作业陷入运行状态，但作业在气流中失败。 AWS 无服务器

有没有人经历过 Airflow 中作业失败的情况，尽管在 Spark History UI 中，作业仍然停留在运行状态。另外，我添加了一行代码将数据写入S3（不读取我...

amazon-web-services apache-spark airflow serverless amazon-emr

回答 1 投票 0

使用 Python 在 AWS EMR 上执行 Flink 作业失败并出现“NoClassDefFoundError”

我正在尝试使用 Python 3.9 和 Apache Flink 以及 PyFlink 在 AWS EMR 集群 (v7.3.0) 上运行 Flink 作业。我的作业从 AWS Kinesis 流中读取数据并将流数据打印到控制台。然而，...

apache-flink amazon-emr flink-streaming pyflink

回答 1 投票 0

将 jar 上传到 Apache Livy 交互式会话

将 Amazon emr-5.30.1 与 Livy 0.7 和 Spark 2.4.5 结合使用我们愿意使用 Apache Livy 作为 Spark 的 REST 服务。我们想要使用的模式是会话而不是批处理。正在尝试上传 jar 包...

java apache-spark amazon-emr livy

回答 2 投票 0

spark-submit 使用 --py-files 选项找不到模块路径

我正在尝试在 EMR 集群中提交 pyspark 作业。作业的代码位于放置在 S3 中的压缩包中： /bin/spark-提交 \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline....

amazon-web-services apache-spark amazon-s3 pyspark amazon-emr

回答 1 投票 0

创建集群需要InstanceProfile

我尝试从 Eclipse 运行 Elastic MapReduce，但无法执行此操作。我的代码如下：公共类 RunEMR { /** * @参数参数 */ 公共静态无效主（字符串[] args）{ ...

java amazon-web-services hadoop amazon-iam amazon-emr

回答 4 投票 0

需要帮助将 Spark 历史日志存储到 s3 存储桶

我想将 Spark 历史执行日志存储在 s3 存储桶中，以便我可以对我的 Spark 应用程序进行一些分析。我的 Spark 应用程序在 EMR（emr-6.15.0）上运行并使用纱线部署。之后...

apache-spark amazon-s3 hadoop-yarn amazon-emr

回答 1 投票 0

azure 和 HDInsight 中的持久和瞬态 EMR 等效集群

我想知道在 Azure 上创建 HDInsight 集群是否完全可靠。例如，我不想在一段时间后看到一个节点被清除或删除并且我丢失了数据。 ...

azure amazon-emr azure-hdinsight

回答 1 投票 0

amazon-emr 相关问题

最新问题