aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

lit() 仅填充该列的第一行

Spark 新手尝试让 AWS Glue 将列添加到我的数据集。 特别是,我有以下 Spark 代码 df = s3SourceDataDynamicFrame.toDF() df = df.选择( col("eventId").

回答 1 投票 0

如何在步骤函数中一次将参数传递给多个作业?

我有多个胶水作业,它们都具有相同的作业参数 --param1 和 --param2 在粘合作业中使用。 我在步骤函数中连接了两个粘合作业。 但不知道如何...

回答 1 投票 0

我正在尝试使用适用于 Java 1.X 的 AWS Glue 开发工具包从 AWS Glue 获取数据库列表,策略上的资源访问权限有限,但得到的是空列表

如标题中所述,我正在尝试从 AWS Glue 获取数据库列表。 我在 Glue 中列出了很多数据库。我正在使用资源访问权限有限的策略,因此我只能看到特定的...

回答 2 投票 0

AWS Glue 3.0:即使重新分区后,分区计数也会自行更改

我有一项作业在 AWS Glue 3.0 上使用 G.8x 工作线程运行。我正在使用 100 个工人的配置。 在最近的运行中,count() 导致 OOM,我发现重新分区可能会有所帮助。 我读到我们必须...

回答 1 投票 0

将 python 脚本作为 AWS 胶水服务作业运行

我有一个使用本地路径在本地运行的 python 脚本,但我需要复制此 python 脚本并将其作为 AWSglue 服务作业运行并将输出保存在 s3 存储桶中。 请帮助我一步一步...

回答 1 投票 0

如何使用 yaml CloudFormation 堆栈将 ETL 脚本加载到 S3 存储桶

我一直在使用 yaml 编写 CloudFormation Stack 并将其部署到 AWS 基础设施(由于遗留原因,不幸的是我无法切换到 CDK ;)) 以下 yaml 代码是

回答 1 投票 0

当底层 JSON 文件中的时间戳格式发生更改时,在 Athena 中查询时间戳数据

我正在从 S3 中存储的 JSON 文件查询 AWS Athena 中的数据。我已使用 AWS Glue 将所有 JSON 文件加载到 Athena 中,到目前为止它运行良好。但是,时间戳格式有

回答 2 投票 0

AWS Athena 错误:仅事务表支持修改 Hive 表行

我无法对 AWS Athena 表中的行执行删除操作。它抛出以下错误: NOT_SUPPORTED:仅事务表支持修改 Hive 表行 这个查询...

回答 1 投票 0

将红移表的子集读取到粘合会话中

在我的正常工作流程中,我使用以下命令将整个表格读入粘合中: 订单=glueContext.create_dynamic_frame_from_options(“redshift”,connection_options = { “网址”:...

回答 2 投票 0

调用 z:com.amazonaws.services.glue.util.Job.commit 时发生错误。未初始化

我有一个胶水作业,可以解析上传到 S3 的 csv 文件并将数据保存到 rds 实例。一切正常。但有一天发生了一个错误 调用时发生错误 z:com.amazonaws.ser...

回答 3 投票 0

如何识别哪个日志流属于哪个胶水作业?

我有 python shell 类型的 AWS Glue 作业。 python shellglue 作业的日志存储在两个不同的 cloudwatch 日志组中。 /aws-glue/python-jobs/output:- 存储非错误日志 /哇...

回答 1 投票 0

Glue:从云跟踪中的 AWS 事件触发的 NotifyEvent 负载中提取存储桶名称和密钥

我在 s3 存储桶上设置了一个事件桥触发器,每次我们上传对象时,它都会触发 Cloud Trail 中的 NotifyEvent。我正在尝试从有效负载中提取存储桶名称和密钥

回答 1 投票 0

有更好的方法来优化我的 AWS Glue 脚本吗?

我是 AWS Glue 和 PySpark 的新手,我无法解决我面临的问题,需要社区的帮助。 任务:我的任务是使用 PySpar 在 AWS Glue 上创建脚本...

回答 1 投票 0

AWS Glue Python 脚本添加粘合连接时不会从 s3 安装wheel

我正在运行一个glue python-shell 脚本,并且我包含了额外的py 文件,这些文件是S3 中到我为该脚本构建的轮子的路径。这些已按预期安装。 当我将胶水连接连接到...

回答 1 投票 0

Pyspark 迭代 1M 列的有效方法

我有一个 pyspark 数据框,如下所示: +--------+-------------+---------+---------+-------- ---+ | 代码| 更新于|S0x223433|S1yd33333|S4r256467| +--------+-------------+---------+---------+-------- ...

回答 1 投票 0

Spark HashAggregate 在 SparkSQL 中交换列

我有一个 AWS Glue 作业,它使用 Spark SQL 连接两个数据帧。该作业连续 6 个月每周正确运行,没有出现任何问题,然后连接突然开始交换结果中的值

回答 1 投票 0

AWS Chatbot 和 EventBridge for Glue 作业状态更改错误 - 不支持收到的事件

我正在尝试设置具有 Slack 集成的 AWS 聊天机器人,以显示 AWS Glue 状态更改(错误)的错误消息。我已经设置了 AWS EventBridge 事件模式来捕获 Glue Job St...

回答 2 投票 0

如何通过 DynamoDB-Athena 连接器在查询中使用 AWS Glue 元数据

我正在尝试将 Athena 联合查询系统与预构建的 Athena-DynamoDB 连接器结合使用。我有连接器设置,因此我可以运行如下查询: 从“lambda:...

回答 1 投票 0

AWS Glue 日志已损坏

我的 AWS Glue 作业日志损坏了。 日志从 Glue Python 脚本发出并发送到 CloudWatch。我最近开始使用 AWS EMF 发布结构化 JSON 日志,...

回答 1 投票 0

在 AWS Glue 上使用 cx_Oracle 将数据插入到 AWS Oracle RDS

我需要使用 AWS Glue 作业将数据插入我的 AWS Oracle RDS。我想使用 cx_Oracle 来执行该任务。我的 S3 存储桶上有 zip 文件,可用于获取 cx_Oracle。虽然我...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.