amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

AWS EMR-EC2 集群上的 apache-beam 安装问题

我启动了一个AWS EMR-EC2集群,我在让apache-beam的sparkrunner工作时遇到问题。 我有一个将使用 apache-beam 的 python 脚本。我尝试过 aws emr add-steps 或 ssh ...

回答 1 投票 0

UDF?与列?在 pyspark 中更新列哪个更好?

如果我们只是实现一个简单的函数来更新 pyspark 中的列(就地),我们可以使用: 当语法,例如 df.withColumn("col_name", when(col("reference")==1, False).othe...

回答 1 投票 0

使用 Maven Shade 插件的 Apache Spark 项目中的 Jackson Databind 冲突

我正在开发一个使用 Apache Spark 处理 IMDb 数据的项目。我的设置涉及 Spark Core 和 Spark SQL 依赖项,以及用于处理 JSON 序列化和反序列化的 Jackson...

回答 1 投票 0

Pyspark 错误:“EMR 7.0.0 中未找到类 org.apache.hadoop.fs.s3a.S3AFileSystem”

我使用的是EMR 7.0.0版本,AWS中有python 3.9,spark 3.5.0,Hadoop 3.3.6。 我收到错误: 文件“/usr/local/lib/python3.9/site-packages/pyspark/python/lib/pyspark.zip/pyspark/sql/

回答 1 投票 0

Glue Spark:某些任务有 0 条记录用于洗牌,但某些任务有磁盘溢出

我有一个 Spark 作业,其中某些任务的记录输出为零,并且随机播放读取大小,其中某些任务有内存和磁盘溢出。有人可以帮我做什么来优化执行吗? 执行...

回答 1 投票 0

尽管 Spark History UI 作业陷入运行状态,但作业在气流中失败。 AWS 无服务器

有没有人经历过 Airflow 中作业失败的情况,尽管在 Spark History UI 中,作业仍然停留在运行状态。另外,我添加了一行代码将数据写入S3(不读取我...

回答 1 投票 0

使用 Python 在 AWS EMR 上执行 Flink 作业失败并出现“NoClassDefFoundError”

我正在尝试使用 Python 3.9 和 Apache Flink 以及 PyFlink 在 AWS EMR 集群 (v7.3.0) 上运行 Flink 作业。我的作业从 AWS Kinesis 流中读取数据并将流数据打印到控制台。然而,...

回答 1 投票 0

将 jar 上传到 Apache Livy 交互式会话

将 Amazon emr-5.30.1 与 Livy 0.7 和 Spark 2.4.5 结合使用 我们愿意使用 Apache Livy 作为 Spark 的 REST 服务。 我们想要使用的模式是会话而不是批处理。 正在尝试上传 jar 包...

回答 2 投票 0

spark-submit 使用 --py-files 选项找不到模块路径

我正在尝试在 EMR 集群中提交 pyspark 作业。作业的代码位于放置在 S3 中的压缩包中: /bin/spark-提交 \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline....

回答 1 投票 0

创建集群需要InstanceProfile

我尝试从 Eclipse 运行 Elastic MapReduce,但无法执行此操作。 我的代码如下: 公共类 RunEMR { /** * @参数参数 */ 公共静态无效主(字符串[] args){ ...

回答 4 投票 0

需要帮助将 Spark 历史日志存储到 s3 存储桶

我想将 Spark 历史执行日志存储在 s3 存储桶中,以便我可以对我的 Spark 应用程序进行一些分析。我的 Spark 应用程序在 EMR(emr-6.15.0)上运行并使用纱线部署。 之后...

回答 1 投票 0

azure 和 HDInsight 中的持久和瞬态 EMR 等效集群

我想知道在 Azure 上创建 HDInsight 集群是否完全可靠。例如,我不想在一段时间后看到一个节点被清除或删除并且我丢失了数据。 ...

回答 1 投票 0

无法将 Spark 作业中的日志添加到 Spark 事件日志

我正在尝试在 Spark 事件日志中输出日志,以便可以在历史服务器中访问它们。 我尝试过两种方法 添加我自己的扩展 Serialized 的自定义记录器 扩展 org.apache...

回答 1 投票 0

在哪里为 SageMaker 用户定义“集群的 EMR 运行时角色”?

我在尝试从 SageMaker Studio Notebook 中连接到我的 EMR 无服务器集群时遇到此错误,但遇到此错误: 选择 clu 的 EMR 运行时执行角色...

回答 1 投票 0

在哪里为 SageMaker 用户定义“选择集群的 EMR 运行时角色”?

问题 我想从 SageMaker Studio Notebook 中连接到我的 EMR 无服务器集群,但遇到以下错误: 选择集群的EMR运行时执行角色 没有可用的 EMR 执行...

回答 1 投票 0

将 SageMaker 连接到 EMR 集群“为集群选择 EMR 运行时角色”

问题 我想从 SageMaker Studio Notebook 中连接到我的 EMR 无服务器集群: 选择集群的EMR运行时执行角色 找不到集群可用的 EMR 执行角色。

回答 1 投票 0

在 .NET 6 中使用 Elastic.Clients.Elasticsearch 库进行手动映射

我想使用 Elastic.Clients.Elasticsearch 库在我的 .NET Core 6 项目中进行流畅的映射,但我在文档中找不到任何内容。 NEST 库中的用法: var createIndexResponse =

回答 1 投票 0

在 EMR Serverless 7.2.0 中导入 boto3 时出现导入错误

我正在部署 EMR 无服务器应用程序并使用 venv-pack 为该应用程序创建 python 环境。 venv-pack zip 是在 Docker 容器内创建的: 来自 --platform=linux/...

回答 1 投票 0

在 AWS EMR 的不同实例中的不同日期并行执行相同的 Spark 作业存在性能问题

运行 Spark 作业(仅一个实例)时,它会在 20-30 分钟内完成。但是,相同的代码在多个 emr 实例中并行执行会花费更多时间。例如:我有 3 个实例,每个实例

回答 1 投票 0

Pyspark 在每次运行时都会给出不同的 df.count() 结果

我正在使用 AWS EMR(v 6.11.1)、PySpark(v 3.3.2)。经过一些转换(主要是在 groupBy、dropDuplicates 之后),数据在 ev 上的 pyspark.sql.DataFrame.count() 输出中获得不同的值...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.