amazon-emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

如何在pyspark中读取大型zip文件

我在 s3 上确实有 n 个 .zip 文件,我想处理这些文件并从中提取一些数据。 zip 文件包含单个 json 文件。在Spark中我们可以读取.gz文件,但是我没有找到任何方法......

回答 1 投票 0

在 EC2 集群上的 EMR 上使用 Pyspark 读取 delta 格式 parquet

我遇到过一种情况,我可以在常规 EC2 实例上运行 pyspark,手动 pip 安装 pyspark,然后调用 delta-core jar 包依赖项作为 Spark 配置,如 o...

回答 1 投票 0

AWS EMR - 因错误而终止 在主实例上应用程序预置失败

我正在配置 EMR 集群 emr-5.30.0。我使用 Terraform 运行此命令,并在 AWS CONSOLE 上出现以下错误,因为它失败了。 Amazon EMR 集群 j-11I5FOBxxxxxx 已于 2020 年因错误终止...

回答 4 投票 0

如何在AWS EMR上安装openSSL 1.1?

我正在使用 boostrap 文件为运行 Pyspark 的 EMR 项目安装 python 3.10。 Python 3.10 需要 openSSL 1.1 或更高版本才能使用,但 EMR 具有 OpenSSL 1.0.2k-fips(运行命令 openssl

回答 1 投票 0

在 EMR 6.8 上运行的 Python 版本

EMR 6.8 支持什么版本的 Python? 看起来 EMR 的早期版本支持 Python 3.7,该版本将在 6 个月后弃用。 EMR 6.8 运行 Spark 3.3.0,最多支持 Python 3...

回答 3 投票 0

如何使 EMR 集群自动扩展以利用按需实例,同时保持在最大限制内?

我有一个由 Terraform 创建的 EMR 集群。这是自动缩放策略: 资源“aws_emr_management_scaling_policy”“my_aws_emr_management_scaling_policy”{ cluster_id = var.

回答 1 投票 0

获取 VS Code Python 扩展以连接到在远程 AWS EMR 驱动程序节点上运行的 Jupyter

我有一个在 EMR 驱动程序节点上运行的工作 Jupyter 服务器,我可以在其中毫无问题地运行 python 和 pyspark 代码。当尝试让 VS Code Python 扩展连接到同一个 Jup 时...

回答 1 投票 0

在 EMR 上使用 OpenBLAS Spark

尝试在 EMR 实例上运行 Spark 2.1.0 中的 MlLib ALS 算法时,我不断收到臭名昭著的警告: 警告 BLAS:无法从以下位置加载实现:com.github.fommil.netlib.NativeSyst...

回答 2 投票 0

如何在 Amazon EMR、EC2 上为 Breeze 配置高性能 BLAS/LAPACK

我正在尝试建立一个环境来支持集群上的探索性数据分析。根据对现有内容的初步调查,我的目标是使用 Scala/Spark 与 Amazon EMR 来配置

回答 2 投票 0

Apache Hive - 编程上相同的查询但结果不同,为什么?

我有2个表Table1有41列和超过1亿条记录,Table2有20列和1000万条记录。 我使用以下查询来验证记录。 查询01。 选择计数(*) FROM

回答 1 投票 0

IllegalArgumentException:BigQueryConnectorException$InvalidSchemaException:目标表的架构与数据帧的架构不兼容

我们无法将数据写入大查询中。面临以下问题。 大查询连接器 jar:spark-3.4-bigquery-0.33.0.jar 错误客户端:应用程序诊断消息:用户类引发异常:jav...

回答 1 投票 0

Amazon EMR:未找到 geopandas==0.14.0 的匹配分布

我正在尝试启动 Amazon EMR 6.14.0 集群。 这是我的引导脚本 set_up.sh: #!/usr/bin/env bash 设置-e python3.11 -m pip install geopandas==0.14.0 但是,Amazon EMR 集群失败...

回答 1 投票 0

Spark 执行器空闲超时

我有一个 EMR 集群,在其中运行带有 Spark 动态分配的 pyspark 作业。 Spark.dynamicAllocation.enabled=true 下面是集群的配置 1 个节点 128GB 内存 10核 核心节点 自动缩放...

回答 1 投票 0

在 AWS EMR 中设置每个步骤的环境变量

我无法为我的 Spark 应用程序设置环境变量。我正在使用 AWS EMR 运行 Spark 应用程序。这更像是我在 Spark 之上用 python 编写的一个框架,用于运行多个...

回答 2 投票 0

AWS EMR 设置自动终止策略问题

无法设置 EMR 自动终止空闲时间 AWS SDK 2.21.5最新版本, 我将作业发送到 AWS EMR。 在AWS控制台中,如下所示,空闲时间是正确的,但终止选项仍然是

回答 1 投票 0

Spark 2.2.0 - 如何将 DataFrame 写入/读取 DynamoDB

我希望我的 Spark 应用程序从 DynamoDB 读取表,执行操作,然后将结果写入 DynamoDB。 将表读入 DataFrame 现在,我可以将表从 DynamoDB 读取到 Spark 中...

回答 3 投票 0

如何配置 AWS EMR 在上次作业完成后等待一段时间

目前EMR集群会在最后一个作业完成后自动终止。 我们有服务将新作业(步骤)发送到现有正在运行的 EMR 集群。 由于集群启动需要时间和成本...

回答 1 投票 0

带有 SERDEPROPERTIES 的 Hive CREATE TABLE 语句会引发错误

我正在进行从 HDP 到 AWS EMR 的迁移项目。作为这项工作的一部分,我们使用 HDP 中的 CREATE TABLE 语句在 EMR Hive 中创建表,这是使用 show create 获得的

回答 1 投票 0

pyspark 和 Iceberg:“更新 *”在“合并到”中不起作用?

我在AWS EMR studio上运行pyspark 合并到iceberg_catalog.staging.tbl AS t 使用 tempview AS ON t.number = s.number 匹配后更新 * 如果不匹配,则插入 * 但得到了 pyspark.sql...

回答 1 投票 0

AWS EMR 无服务器 Spark 作业异常

尝试运行一个简单的 Spark 作业(从 s3 读取 json 文件并打印架构)时出现此错误。 “com.amazonaws.emr.serverless.shaded.software.amazon.awssdk.services。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.