aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

使用 PySpark SQL 查询在 AWS Glue 作业中更新 PostgreSQL 中的表列

我正在处理来自 Square 的大量数据,并使用 AWS Lambda 函数将其存储在 PostgreSQL 中。然后,我运行 AWS Glue ETL 作业来将此数据转换为所需的格式。 当前...

回答 1 投票 0

用于从 S3 读取数据并写入 S3 的 AWS Glue Pyspark 脚本需要几个小时才能完成

`我正在 AWS Glue 上使用 pyspark 来运行 ETL 脚本,如下所示: ```` `选择 日期作为日期, 一个小时一个小时, trip_id 作为 trip_id, 首先(user_id)作为user_id, 第一个(vehicle_id)作为车辆...

回答 1 投票 0

CloudWatch 错误:应在堆栈范围内创建规则 JobFailureRule,但未找到堆栈

我在 CDK 脚本中使用了以下逻辑来设置 Cloudwatch 警报,并在胶水工作失败时发送 SNS 通知,但是当我尝试执行 npx 合成器时,它会抛出错误:错误:R...

回答 1 投票 0

无法使用 Glue Catalog 表从 RDS 读取数据

在 AWS Glue 中创建可视化 ETL 时,我遇到了一个问题:尽管使用了成功抓取数据的相同连接,但 Glue 目录表节点无法从 RDS 获取数据。哈...

回答 1 投票 0

spark如何从本地文件系统或云存储读取文件

我对其中一些问题感到好奇和困惑。如果有人可以帮助解释并分享有助于理解的参考资料,我会很高兴。 Spark 是怎么读的...

回答 1 投票 0

从 Step Functions 调用 AWS Glue 工作流

部署 Cloudformation 时从 Step Functions 调用 Glue 工作流程出现以下错误: 资源处理程序返回消息:“状态机定义无效:'SCHEMA_VALIDATION_FAI...

回答 1 投票 0

AWS Glue 作业日志仍会输出和错误日志

我配置了一个 AWS Glue 作业,在其中启用了连续日志记录,然后在作业参数中定义了连续日志记录。 参数: --enable-Continous-cloudwatch-log - true --...

回答 1 投票 0

为什么使用 getField() 在 AWSglue for scala 中为对象数组返回一个无类型,尽管确认它存在

当使用 getField() 时,我能够返回简单的值,但是当我尝试在对象数组上使用它时,它返回 None 。所以我尝试创建一个简单版本的 Scala 代码,但我遇到了问题...

回答 1 投票 0

为什么 s3.to_parquet 在发布到 AWS Glue 时切换数据类型?

我正在创建一个数据框,如下所示: concatdatafile = pd.concat(数据文件,轴= 0,ignore_index = True,sort = False) 然后在发布之前检查一些字段数据类型: 记录器.info(" ***

回答 1 投票 0

如何在 AWS Glue ETL 作业 python 脚本中添加文件名模式

我想在 AWS Glue ETL 作业 python 脚本中添加文件名模式,它应该在 s3 存储桶中生成具有模式 dostrp*.csv.gz 的文件,但找不到如何提供此文件模式的方法...

回答 1 投票 0

AWS Glue 中的并行性

我正在 Glue 作业中从 S3 读取一个大文件。它是一个 .txt 文件,我将其转换为 .csv 并读取特定列中的所有值。 我想在这里利用 Glue 的并行性,其中 r...

回答 1 投票 0

AWS Glue 中的并行性

我正在胶水作业中从 S3 读取一个大文件。它是一个 .txt 文件,我将其转换为 .csv 并读取特定列中的所有值。我想在这里利用 Glue 的并行性,其中 r...

回答 1 投票 0

Glue Crawler 创建单个表而不是多个表

我在S3中有以下结构 ... ├── 数据 │ ├── 历史 │ │ ├── mongodb │ │ │ ├── mongodb_attempts │ │ │ │ ├── attempts_20240513 │ │ | │ │ ├── 000_part_0.parqu...

回答 1 投票 0

Presto/Trino 无法读取 Hive 视图

我一直在尝试使用 EMR 上的 Glue Data Catalog 和 Presto/Trino 查询一些非常简单的 Hive 视图,但没有成功。 错误是“未找到视图”或“不支持 Hive 视图”。我有...

回答 1 投票 0

如何将 Pyspark DataFrame 写入 XML 格式?

我正在开发一个 Glue ETL 作业,它基本上读取 Pyspark 中的数据帧,并应以 XML 格式输出数据。 我已经搜索了很多解决方案,并且代码在特定的写入状态下失败......

回答 2 投票 0

将 pyspark dataframe 中的每一行转换为 json 文档

导入系统 导入boto3 导入 json 从 pyspark.context 导入 SparkContext 从 awsglue.context 导入 GlueContext 从 awsglue.job 导入作业 从 pyspark.sql 导入行 从日期时间导入数据...

回答 1 投票 0

AWS Glue - o109.pyWriteDynamicFrame。错误:关系“xyz”已经存在

我有一个非常简单的aws胶水视觉etl,它从s3存储桶上的文件读取数据,然后将其复制到awsrdspostgresql数据库中。 脚本: 导入系统 来自 awsglue.transforms 我...

回答 1 投票 0

为什么从 AWS Glue (Spark) 写入 kinesis 时出现“无法找到数据源”错误

我正在尝试从几个来源获取一些数据,对其进行一些转换,然后使用 AWSglue 和 scala 将其加载到 Kinesis 中。数据来自静态源,例如表和 s3 存储桶,所以...

回答 1 投票 0

使用 Athena 视图中的粘合上下文目录创建动态框架

我在 Athena 中创建了一个视图,我正在尝试在 Glue 作业中执行以下操作: 从 awsglue.context 导入 GlueContext 数据帧 =glueContext.create_dynamic_frame.from_catalog( ...

回答 1 投票 0

在AWSglue上安装rdkit,找不到setup.py

我正在尝试使用 Spark 作业在 awsglue 4.0 上安装 rdkit,专门用于从 SDF 文件获取 ID。我对glue或在pychar之外安装python库没有太多经验......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.