amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

在 spark 中使用自定义模式读取 json 文件不返回结果

我是 emr/hdfs/hive/spark 世界的新手。我有一组大型 json 文件(每个文件 > 50GB),我试图加载这些文件以查询特定的键。 json 有一个标准布局...

回答 0 投票 0

AWS EMR 中的 Spark Scala 作业随机失败并出现错误 org.xml.sax.SAXParseException;文件过早结束

我有一个在 AWS EMR(emr-5.31.0) 中运行的 Spark(2.4.6) Scala 作业随机失败并出现错误 org.xml.sax.SAXParseException;文件过早结束。这项工作一直覆盖镶木地板文件......

回答 0 投票 0

如何使用自定义 Ubuntu 镜像创建 EMR 集群?

我正在尝试使用基于 ubuntu 操作系统的自定义 AMI 启动 EMR 集群。 在创建 AMI 的过程中,我遵循了以下步骤: 使用可用的 ubuntu 服务器 20.04 AMI 启动 ec2 实例...

回答 0 投票 0

如何在 EC2 上提交 Apache Airflow EMR 作业?

我正在尝试提交 EMR 作业。 EC2 上的电子病历。我正在起诉 Airflow 提供的代码。按照 Apache Airflow 的建议,使用 Docker 安装 Airflow。 这是在自动步骤中给出的 https://airflow.a...

回答 0 投票 0

读取 CQL 时间类型返回 UnsupportedOperationException,“No Encoder found for java.sql.Time”

我正在尝试使用 datastax 连接器将 Cassandra 表读入 Spark。我的表有 2 列使用 TIME 数据类型。我使用 java.sql.Time 作为数据集中的相应类型,但是

回答 1 投票 0

从 Spark Emr 写入 s3 失败,出现 UnsupportedStagingDirectoryOperationException

我正在尝试通过这样做将数据框保存到 s3 中。 (佛罗里达州 。写 .partitionBy("XXX") .option('path', 's3://some/location') .bucketBy(40, "YY", "ZZ") .

回答 0 投票 0

从 Cassandra 读取 TIME 类型

我正在尝试使用 datastax 连接器将 Cassandra 表读入 Spark。我的表有 2 列使用 TIME 数据类型。我使用 java.sql.Time 作为数据集中的相应类型,但是

回答 0 投票 0

从 dbt 配置文件连接到 Spark EMR thrift 服务器

我有一个用例,我正在使用 dbt-core(数据构建工具)和 dbt-spark 适配器连接到 EMR 集群。 该集群位于私有子网中,并接受使用我...

回答 0 投票 0

EMR 中基于 AWS Graviton 的 EC2 实例升级导致任务失败

我有一个在 EMR 中运行的 spark Scala 作业,我正在努力改进它。截至目前,它在 m5.8xlarge 上运行没有任何问题。我最近尝试升级到基于 Graviton 的 EC2 实例 m6g.8xlarge ...

回答 1 投票 0

运行 Hudi DeltaStreameron EMR 成功,但未同步到 AWS Glue 数据目录

当我在 EMR 上运行 Hudi DeltaStreamer 时,我看到 hudi 文件是在 S3 中创建的(例如,我在 S3 中看到一个 .hoodie/ 目录和预期的镶木地板文件。该命令类似于: 火花提交\ --conf

回答 1 投票 0

如何在 AWS EMR 上获取 spark 作业的标准输出

我可以使用以下命令在 AWS EMR 上提交一个 spark 任务。 如何获取 Spark 作业的标准输出? aws emr 添加步骤 --cluster-id ${CLUSTERID} \ --输出json\ --steps 类型=spark,名称=${

回答 0 投票 0

编排和 EMR

我想在 emr 集群中运行多个 spark 作业,这些作业相互之间有一定的依赖性,一旦一切完成,最后一个步骤应该触发一个 lambda,它将启动一个...

回答 0 投票 0

Spark Executor 挂在 ShuffleBlockFetcherIterator 远程获取上

我正在 Amazon EMR 环境中托管的 Spark 集群上运行一些 Sedona 地理空间查询。我的查询适用于某些输入数据集,但会挂在 Spark SQL 的“count()”方法上

回答 0 投票 0

如何在 AWS EMR serverless 上运行 Python 项目(包)?

我有一个包含多个模块、类和依赖文件(requirements.txt 文件)的 Python 项目。我想将它与所有依赖项一起打包到一个文件中,并将文件路径提供给 AWS EMR

回答 1 投票 0

无法从 aws emr studio 笔记本或控制台中读取 s3 文件

我们有一个 EMR Studio,它设置了 S3 默认存储桶和文件路径,即 s3://OurBucketName/Subdirectory/work,我们在其中创建了一个工作区,该工作区附加到运行中的 EC2 集群...

回答 0 投票 0

无法通过 JDBC 连接到 emr-6.9.0 上的 hiveserver2

尝试连接启用 SSL 的 EMR 集群时,我一直收到无效状态 21。主节点未在 10001 上侦听(连接被拒绝),端口 10000 似乎也不起作用。

回答 0 投票 0

Airflow 运行的 Spark EMR 实例的硬件要求

我正在为 Airflow 作业运行的 spark 任务请求 EMR 集群。我有以下带有 spark 任务选项的 Airflow DAG 部分: 火花选项=[... ('驱动程序内存', '2g'), ('执行核心', '...

回答 0 投票 0

在 EKS 上运行 spark-sql 作业 EMR

我想提交一个 spark-sql 作业以通过气流在 EKS 上的 EMR 上运行。我在 AWS 上发现了一个新发布的 sparkSQlJobDriver 和一个用例。 我尝试按如下方式在我的 dag 中实现它,但我得到了 **

回答 0 投票 0

使用 EMR 服务的 Python 和 Pyspark 代码可追溯性

需要将我们的 EMR 与 AWS 的一项服务集成用于一个用例,即“使用 EMR,python/pyspark 代码运行大约 10 亿个事务和处理......

回答 1 投票 0

Spark 迭代算法

我们有一个用例,在 Spark 作业中 我们遍历外部表的分区 加载该分区的数据(每个分区几乎相同的数据卷) 进行转换(自连接,无 udfs)...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.