amazon-emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

在 spark 中使用自定义模式读取 json 文件不返回结果

我是 emr/hdfs/hive/spark 世界的新手。我有一组大型 json 文件（每个文件 > 50GB），我试图加载这些文件以查询特定的键。 json 有一个标准布局...

apache-spark hive amazon-emr

回答 0 投票 0

AWS EMR 中的 Spark Scala 作业随机失败并出现错误 org.xml.sax.SAXParseException；文件过早结束

我有一个在 AWS EMR(emr-5.31.0) 中运行的 Spark(2.4.6) Scala 作业随机失败并出现错误 org.xml.sax.SAXParseException；文件过早结束。这项工作一直覆盖镶木地板文件......

apache-spark hadoop apache-spark-sql amazon-emr

回答 0 投票 0

如何使用自定义 Ubuntu 镜像创建 EMR 集群？

我正在尝试使用基于 ubuntu 操作系统的自定义 AMI 启动 EMR 集群。在创建 AMI 的过程中，我遵循了以下步骤：使用可用的 ubuntu 服务器 20.04 AMI 启动 ec2 实例...

amazon-web-services ubuntu amazon-ec2 amazon-emr amazon-ami

回答 0 投票 0

如何在 EC2 上提交 Apache Airflow EMR 作业？

我正在尝试提交 EMR 作业。 EC2 上的电子病历。我正在起诉 Airflow 提供的代码。按照 Apache Airflow 的建议，使用 Docker 安装 Airflow。这是在自动步骤中给出的 https://airflow.a...

apache airflow amazon-emr

回答 0 投票 0

读取 CQL 时间类型返回 UnsupportedOperationException，“No Encoder found for java.sql.Time”

我正在尝试使用 datastax 连接器将 Cassandra 表读入 Spark。我的表有 2 列使用 TIME 数据类型。我使用 java.sql.Time 作为数据集中的相应类型，但是

scala apache-spark cassandra amazon-emr spark-cassandra-connector

回答 1 投票 0

从 Spark Emr 写入 s3 失败，出现 UnsupportedStagingDirectoryOperationException

我正在尝试通过这样做将数据框保存到 s3 中。（佛罗里达州。写 .partitionBy("XXX") .option('path', 's3://some/location') .bucketBy(40, "YY", "ZZ") .

apache-spark pyspark apache-spark-sql aws-glue amazon-emr

回答 0 投票 0

从 Cassandra 读取 TIME 类型

我正在尝试使用 datastax 连接器将 Cassandra 表读入 Spark。我的表有 2 列使用 TIME 数据类型。我使用 java.sql.Time 作为数据集中的相应类型，但是

scala apache-spark apache-spark-sql amazon-emr spark-cassandra-connector

回答 0 投票 0

从 dbt 配置文件连接到 Spark EMR thrift 服务器

我有一个用例，我正在使用 dbt-core（数据构建工具）和 dbt-spark 适配器连接到 EMR 集群。该集群位于私有子网中，并接受使用我...

apache-spark amazon-emr dbt

回答 0 投票 0

EMR 中基于 AWS Graviton 的 EC2 实例升级导致任务失败

我有一个在 EMR 中运行的 spark Scala 作业，我正在努力改进它。截至目前，它在 m5.8xlarge 上运行没有任何问题。我最近尝试升级到基于 Graviton 的 EC2 实例 m6g.8xlarge ...

apache-spark amazon-ec2 amazon-emr aws-graviton

回答 1 投票 0

运行 Hudi DeltaStreameron EMR 成功，但未同步到 AWS Glue 数据目录

当我在 EMR 上运行 Hudi DeltaStreamer 时，我看到 hudi 文件是在 S3 中创建的（例如，我在 S3 中看到一个 .hoodie/ 目录和预期的镶木地板文件。该命令类似于：火花提交\ --conf

amazon-emr apache-hudi

回答 1 投票 0

如何在 AWS EMR 上获取 spark 作业的标准输出

我可以使用以下命令在 AWS EMR 上提交一个 spark 任务。如何获取 Spark 作业的标准输出？ aws emr 添加步骤 --cluster-id ${CLUSTERID} \ --输出json\ --steps 类型=spark,名称=${

amazon-web-services apache-spark amazon-emr

回答 0 投票 0

编排和 EMR

我想在 emr 集群中运行多个 spark 作业，这些作业相互之间有一定的依赖性，一旦一切完成，最后一个步骤应该触发一个 lambda，它将启动一个...

apache-spark amazon-emr aws-step-functions

回答 0 投票 0

Spark Executor 挂在 ShuffleBlockFetcherIterator 远程获取上

我正在 Amazon EMR 环境中托管的 Spark 集群上运行一些 Sedona 地理空间查询。我的查询适用于某些输入数据集，但会挂在 Spark SQL 的“count()”方法上

apache-spark amazon-emr

回答 0 投票 0

如何在 AWS EMR serverless 上运行 Python 项目（包）？

我有一个包含多个模块、类和依赖文件（requirements.txt 文件）的 Python 项目。我想将它与所有依赖项一起打包到一个文件中，并将文件路径提供给 AWS EMR

amazon-emr emr-serverless

回答 1 投票 0

无法从 aws emr studio 笔记本或控制台中读取 s3 文件

我们有一个 EMR Studio，它设置了 S3 默认存储桶和文件路径，即 s3://OurBucketName/Subdirectory/work，我们在其中创建了一个工作区，该工作区附加到运行中的 EC2 集群...

amazon-s3 amazon-emr aws-emr-studio

回答 0 投票 0

无法通过 JDBC 连接到 emr-6.9.0 上的 hiveserver2

尝试连接启用 SSL 的 EMR 集群时，我一直收到无效状态 21。主节点未在 10001 上侦听（连接被拒绝），端口 10000 似乎也不起作用。

java ssl hive amazon-emr hiveserver2

回答 0 投票 0

Airflow 运行的 Spark EMR 实例的硬件要求

我正在为 Airflow 作业运行的 spark 任务请求 EMR 集群。我有以下带有 spark 任务选项的 Airflow DAG 部分：火花选项=[... ('驱动程序内存', '2g'), ('执行核心', '...

amazon-web-services apache-spark pyspark airflow amazon-emr

回答 0 投票 0

在 EKS 上运行 spark-sql 作业 EMR

我想提交一个 spark-sql 作业以通过气流在 EKS 上的 EMR 上运行。我在 AWS 上发现了一个新发布的 sparkSQlJobDriver 和一个用例。我尝试按如下方式在我的 dag 中实现它，但我得到了 **

amazon-web-services apache-spark apache-spark-sql airflow amazon-emr

回答 0 投票 0

使用 EMR 服务的 Python 和 Pyspark 代码可追溯性

需要将我们的 EMR 与 AWS 的一项服务集成用于一个用例，即“使用 EMR，python/pyspark 代码运行大约 10 亿个事务和处理......

amazon-web-services amazon-dynamodb amazon-emr

回答 1 投票 0

Spark 迭代算法

我们有一个用例，在 Spark 作业中我们遍历外部表的分区加载该分区的数据（每个分区几乎相同的数据卷）进行转换（自连接，无 udfs）...

apache-spark pyspark hive amazon-emr distributed-computing

回答 0 投票 0

amazon-emr 相关问题

最新问题