amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

AWS EMR-EC2 集群上的 apache-beam 安装问题

我启动了一个AWS EMR-EC2集群，我在让apache-beam的sparkrunner工作时遇到问题。我有一个将使用 apache-beam 的 python 脚本。我尝试过 aws emr add-steps 或 ssh ...

apache-spark pyspark apache-beam amazon-emr spark-submit

回答 1 投票 0

UDF？与列？在 pyspark 中更新列哪个更好？

如果我们只是实现一个简单的函数来更新 pyspark 中的列（就地），我们可以使用：当语法，例如 df.withColumn("col_name", when(col("reference")==1, False).othe...

python apache-spark pyspark amazon-emr

回答 1 投票 0

使用 Maven Shade 插件的 Apache Spark 项目中的 Jackson Databind 冲突

我正在开发一个使用 Apache Spark 处理 IMDb 数据的项目。我的设置涉及 Spark Core 和 Spark SQL 依赖项，以及用于处理 JSON 序列化和反序列化的 Jackson...

java maven apache-spark jackson amazon-emr

回答 1 投票 0

Pyspark 错误：“EMR 7.0.0 中未找到类 org.apache.hadoop.fs.s3a.S3AFileSystem”

我使用的是EMR 7.0.0版本，AWS中有python 3.9，spark 3.5.0，Hadoop 3.3.6。我收到错误：文件“/usr/local/lib/python3.9/site-packages/pyspark/python/lib/pyspark.zip/pyspark/sql/

amazon-web-services apache-spark amazon-s3 pyspark amazon-emr

回答 1 投票 0

Glue Spark：某些任务有 0 条记录用于洗牌，但某些任务有磁盘溢出

我有一个 Spark 作业，其中某些任务的记录输出为零，并且随机播放读取大小，其中某些任务有内存和磁盘溢出。有人可以帮我做什么来优化执行吗？执行...

apache-spark aws-glue amazon-emr

回答 1 投票 0

尽管 Spark History UI 作业陷入运行状态，但作业在气流中失败。 AWS 无服务器

有没有人经历过 Airflow 中作业失败的情况，尽管在 Spark History UI 中，作业仍然停留在运行状态。另外，我添加了一行代码将数据写入S3（不读取我...

amazon-web-services apache-spark airflow serverless amazon-emr

回答 1 投票 0

使用 Python 在 AWS EMR 上执行 Flink 作业失败并出现“NoClassDefFoundError”

我正在尝试使用 Python 3.9 和 Apache Flink 以及 PyFlink 在 AWS EMR 集群 (v7.3.0) 上运行 Flink 作业。我的作业从 AWS Kinesis 流中读取数据并将流数据打印到控制台。然而，...

apache-flink amazon-emr flink-streaming pyflink

回答 1 投票 0

将 jar 上传到 Apache Livy 交互式会话

将 Amazon emr-5.30.1 与 Livy 0.7 和 Spark 2.4.5 结合使用我们愿意使用 Apache Livy 作为 Spark 的 REST 服务。我们想要使用的模式是会话而不是批处理。正在尝试上传 jar 包...

java apache-spark amazon-emr livy

回答 2 投票 0

spark-submit 使用 --py-files 选项找不到模块路径

我正在尝试在 EMR 集群中提交 pyspark 作业。作业的代码位于放置在 S3 中的压缩包中： /bin/spark-提交 \ --py-files s3://my-dev/scripts/job-launchers/dev/pipeline....

amazon-web-services apache-spark amazon-s3 pyspark amazon-emr

回答 1 投票 0

创建集群需要InstanceProfile

我尝试从 Eclipse 运行 Elastic MapReduce，但无法执行此操作。我的代码如下：公共类 RunEMR { /** * @参数参数 */ 公共静态无效主（字符串[] args）{ ...

java amazon-web-services hadoop amazon-iam amazon-emr

回答 4 投票 0

需要帮助将 Spark 历史日志存储到 s3 存储桶

我想将 Spark 历史执行日志存储在 s3 存储桶中，以便我可以对我的 Spark 应用程序进行一些分析。我的 Spark 应用程序在 EMR（emr-6.15.0）上运行并使用纱线部署。之后...

apache-spark amazon-s3 hadoop-yarn amazon-emr

回答 1 投票 0

azure 和 HDInsight 中的持久和瞬态 EMR 等效集群

我想知道在 Azure 上创建 HDInsight 集群是否完全可靠。例如，我不想在一段时间后看到一个节点被清除或删除并且我丢失了数据。 ...

azure amazon-emr azure-hdinsight

回答 1 投票 0

无法将 Spark 作业中的日志添加到 Spark 事件日志

我正在尝试在 Spark 事件日志中输出日志，以便可以在历史服务器中访问它们。我尝试过两种方法添加我自己的扩展 Serialized 的自定义记录器扩展 org.apache...

apache-spark logging log4j2 amazon-emr

回答 1 投票 0

在哪里为 SageMaker 用户定义“集群的 EMR 运行时角色”？

我在尝试从 SageMaker Studio Notebook 中连接到我的 EMR 无服务器集群时遇到此错误，但遇到此错误：选择 clu 的 EMR 运行时执行角色...

amazon-emr amazon-sagemaker amazon-sagemaker-studio

回答 1 投票 0

在哪里为 SageMaker 用户定义“选择集群的 EMR 运行时角色”？

问题我想从 SageMaker Studio Notebook 中连接到我的 EMR 无服务器集群，但遇到以下错误：选择集群的EMR运行时执行角色没有可用的 EMR 执行...

amazon-emr amazon-sagemaker amazon-sagemaker-studio

回答 1 投票 0

将 SageMaker 连接到 EMR 集群“为集群选择 EMR 运行时角色”

问题我想从 SageMaker Studio Notebook 中连接到我的 EMR 无服务器集群：选择集群的EMR运行时执行角色找不到集群可用的 EMR 执行角色。

amazon-emr amazon-sagemaker amazon-sagemaker-studio

回答 1 投票 0

在 .NET 6 中使用 Elastic.Clients.Elasticsearch 库进行手动映射

我想使用 Elastic.Clients.Elasticsearch 库在我的 .NET Core 6 项目中进行流畅的映射，但我在文档中找不到任何内容。 NEST 库中的用法： var createIndexResponse =

elasticsearch .net-core amazon-emr nest elasticsearch-8

回答 1 投票 0

在 EMR Serverless 7.2.0 中导入 boto3 时出现导入错误

我正在部署 EMR 无服务器应用程序并使用 venv-pack 为该应用程序创建 python 环境。 venv-pack zip 是在 Docker 容器内创建的：来自 --platform=linux/...

pip boto3 amazon-emr

回答 1 投票 0

在 AWS EMR 的不同实例中的不同日期并行执行相同的 Spark 作业存在性能问题

运行 Spark 作业（仅一个实例）时，它会在 20-30 分钟内完成。但是，相同的代码在多个 emr 实例中并行执行会花费更多时间。例如：我有 3 个实例，每个实例

amazon-web-services apache-spark amazon-emr

回答 1 投票 0

Pyspark 在每次运行时都会给出不同的 df.count() 结果

我正在使用 AWS EMR（v 6.11.1）、PySpark（v 3.3.2）。经过一些转换（主要是在 groupBy、dropDuplicates 之后），数据在 ev 上的 pyspark.sql.DataFrame.count() 输出中获得不同的值...

amazon-web-services apache-spark pyspark apache-spark-sql amazon-emr

回答 1 投票 0

amazon-emr 相关问题

最新问题