AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。
Spark 新手尝试让 AWS Glue 将列添加到我的数据集。 特别是,我有以下 Spark 代码 df = s3SourceDataDynamicFrame.toDF() df = df.选择( col("eventId").
我有多个胶水作业,它们都具有相同的作业参数 --param1 和 --param2 在粘合作业中使用。 我在步骤函数中连接了两个粘合作业。 但不知道如何...
我正在尝试使用适用于 Java 1.X 的 AWS Glue 开发工具包从 AWS Glue 获取数据库列表,策略上的资源访问权限有限,但得到的是空列表
如标题中所述,我正在尝试从 AWS Glue 获取数据库列表。 我在 Glue 中列出了很多数据库。我正在使用资源访问权限有限的策略,因此我只能看到特定的...
AWS Glue 3.0:即使重新分区后,分区计数也会自行更改
我有一项作业在 AWS Glue 3.0 上使用 G.8x 工作线程运行。我正在使用 100 个工人的配置。 在最近的运行中,count() 导致 OOM,我发现重新分区可能会有所帮助。 我读到我们必须...
我有一个使用本地路径在本地运行的 python 脚本,但我需要复制此 python 脚本并将其作为 AWSglue 服务作业运行并将输出保存在 s3 存储桶中。 请帮助我一步一步...
如何使用 yaml CloudFormation 堆栈将 ETL 脚本加载到 S3 存储桶
我一直在使用 yaml 编写 CloudFormation Stack 并将其部署到 AWS 基础设施(由于遗留原因,不幸的是我无法切换到 CDK ;)) 以下 yaml 代码是
当底层 JSON 文件中的时间戳格式发生更改时,在 Athena 中查询时间戳数据
我正在从 S3 中存储的 JSON 文件查询 AWS Athena 中的数据。我已使用 AWS Glue 将所有 JSON 文件加载到 Athena 中,到目前为止它运行良好。但是,时间戳格式有
AWS Athena 错误:仅事务表支持修改 Hive 表行
我无法对 AWS Athena 表中的行执行删除操作。它抛出以下错误: NOT_SUPPORTED:仅事务表支持修改 Hive 表行 这个查询...
在我的正常工作流程中,我使用以下命令将整个表格读入粘合中: 订单=glueContext.create_dynamic_frame_from_options(“redshift”,connection_options = { “网址”:...
调用 z:com.amazonaws.services.glue.util.Job.commit 时发生错误。未初始化
我有一个胶水作业,可以解析上传到 S3 的 csv 文件并将数据保存到 rds 实例。一切正常。但有一天发生了一个错误 调用时发生错误 z:com.amazonaws.ser...
我有 python shell 类型的 AWS Glue 作业。 python shellglue 作业的日志存储在两个不同的 cloudwatch 日志组中。 /aws-glue/python-jobs/output:- 存储非错误日志 /哇...
Glue:从云跟踪中的 AWS 事件触发的 NotifyEvent 负载中提取存储桶名称和密钥
我在 s3 存储桶上设置了一个事件桥触发器,每次我们上传对象时,它都会触发 Cloud Trail 中的 NotifyEvent。我正在尝试从有效负载中提取存储桶名称和密钥
我是 AWS Glue 和 PySpark 的新手,我无法解决我面临的问题,需要社区的帮助。 任务:我的任务是使用 PySpar 在 AWS Glue 上创建脚本...
AWS Glue Python 脚本添加粘合连接时不会从 s3 安装wheel
我正在运行一个glue python-shell 脚本,并且我包含了额外的py 文件,这些文件是S3 中到我为该脚本构建的轮子的路径。这些已按预期安装。 当我将胶水连接连接到...
我有一个 pyspark 数据框,如下所示: +--------+-------------+---------+---------+-------- ---+ | 代码| 更新于|S0x223433|S1yd33333|S4r256467| +--------+-------------+---------+---------+-------- ...
Spark HashAggregate 在 SparkSQL 中交换列
我有一个 AWS Glue 作业,它使用 Spark SQL 连接两个数据帧。该作业连续 6 个月每周正确运行,没有出现任何问题,然后连接突然开始交换结果中的值
AWS Chatbot 和 EventBridge for Glue 作业状态更改错误 - 不支持收到的事件
我正在尝试设置具有 Slack 集成的 AWS 聊天机器人,以显示 AWS Glue 状态更改(错误)的错误消息。我已经设置了 AWS EventBridge 事件模式来捕获 Glue Job St...
如何通过 DynamoDB-Athena 连接器在查询中使用 AWS Glue 元数据
我正在尝试将 Athena 联合查询系统与预构建的 Athena-DynamoDB 连接器结合使用。我有连接器设置,因此我可以运行如下查询: 从“lambda:...
我的 AWS Glue 作业日志损坏了。 日志从 Glue Python 脚本发出并发送到 CloudWatch。我最近开始使用 AWS EMF 发布结构化 JSON 日志,...
在 AWS Glue 上使用 cx_Oracle 将数据插入到 AWS Oracle RDS
我需要使用 AWS Glue 作业将数据插入我的 AWS Oracle RDS。我想使用 cx_Oracle 来执行该任务。我的 S3 存储桶上有 zip 文件,可用于获取 cx_Oracle。虽然我...