aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

有更好的方法来优化我的 AWS Glue 脚本吗?

我是 AWS Glue 和 PySpark 的新手,我无法解决我面临的问题,需要社区的帮助。 任务:我的任务是使用 PySpar 在 AWS Glue 上创建脚本...

回答 1 投票 0

AWS Glue Python 脚本添加粘合连接时不会从 s3 安装wheel

我正在运行一个glue python-shell 脚本,并且我包含了额外的py 文件,这些文件是S3 中到我为该脚本构建的轮子的路径。这些已按预期安装。 当我将胶水连接连接到...

回答 1 投票 0

Pyspark 迭代 1M 列的有效方法

我有一个 pyspark 数据框,如下所示: +--------+-------------+---------+---------+-------- ---+ | 代码| 更新于|S0x223433|S1yd33333|S4r256467| +--------+-------------+---------+---------+-------- ...

回答 1 投票 0

Spark HashAggregate 在 SparkSQL 中交换列

我有一个 AWS Glue 作业,它使用 Spark SQL 连接两个数据帧。该作业连续 6 个月每周正确运行,没有出现任何问题,然后连接突然开始交换结果中的值

回答 1 投票 0

AWS Chatbot 和 EventBridge for Glue 作业状态更改错误 - 不支持收到的事件

我正在尝试设置具有 Slack 集成的 AWS 聊天机器人,以显示 AWS Glue 状态更改(错误)的错误消息。我已经设置了 AWS EventBridge 事件模式来捕获 Glue Job St...

回答 2 投票 0

如何通过 DynamoDB-Athena 连接器在查询中使用 AWS Glue 元数据

我正在尝试将 Athena 联合查询系统与预构建的 Athena-DynamoDB 连接器结合使用。我有连接器设置,因此我可以运行如下查询: 从“lambda:...

回答 1 投票 0

AWS Glue 日志已损坏

我的 AWS Glue 作业日志损坏了。 日志从 Glue Python 脚本发出并发送到 CloudWatch。我最近开始使用 AWS EMF 发布结构化 JSON 日志,...

回答 1 投票 0

在 AWS Glue 上使用 cx_Oracle 将数据插入到 AWS Oracle RDS

我需要使用 AWS Glue 作业将数据插入我的 AWS Oracle RDS。我想使用 cx_Oracle 来执行该任务。我的 S3 存储桶上有 zip 文件,可用于获取 cx_Oracle。虽然我...

回答 1 投票 0

如何格式化awsglue爬虫/数据框的字符串日期以正确识别为日期字段?

我有一些json数据(示例如下)。 awsgluecrawler读取此数据并使用表创建一个glue目录数据库,并将日期字段设置为字符串字段。有没有办法,我可以格式化数据...

回答 1 投票 0

AWS Redshift Specturum、AWS GLUE、AWS S3 私有 vpc

我有下一个挑战。 我有一个附加了策略的 S3 存储桶,如果该存储桶不是来自 VPC 端点,则该策略会拒绝对该存储桶的所有请求。基本上我让它只能在 VPC 内工作。 我有一个 AWS

回答 1 投票 0

在oracle 11g中使用standard_hash函数时出现无效标识符错误

我尝试根据字段生成哈希,但出现以下错误: 询问: 从 schema.table 中选择 standard_hash(pk_time) 错误: “STANDARD_HASH”:无效标识符 专栏ty...

回答 1 投票 0

在 awsglue studio 中遮盖数据

我正在 AWS Glue Studio 中构建 ETL 流程,在其中获取存储桶 s3 中的数据以删除一些字段。在此过程之后,我需要使用自定义转换来掩盖一些数据并且......

回答 3 投票 0

使用 AWS Glue 数据目录在 EMR 上运行 DBT Spark

我有一个带有 AWS EMR 的经典基础设施,其中 Spark 作业写入位于 S3 中的 hive 表,其中 hive 元存储设置为 AWS Glue DataCatalog。 现在我正在探索湖屋格式,苏...

回答 1 投票 0

AWS Glue 作业何时发送 STARTING 事件?

我有一项胶水作业,希望在作业开始运行时收到电子邮件提醒。根据文档,Glue 作业将向 Eventbridge 发送“Glue 作业运行状态”事件,例如“STARTING&q...

回答 1 投票 0

通过AWS Glue中注册的本地Spark SQL读取DeltaLake表

我在 S3 上存储的 AWS Glue Catalog 上注册了订单 Delta Lake 表。 val Spark = SparkSession.builder() .appName("GlueDeltaLakeExample") .master("本地") .

回答 1 投票 0

启用书签的 AWS Glue 作业,从 S3 CSV 文件读取相同数据

我之前配置了 AWS 胶水作业 现在,我在 CDK 中添加了选项,以便在使用 --job-bookmark-option 参数创建作业时启用/禁用/暂停书签 我已经在AWS co里验证过了...

回答 1 投票 0

类型错误:DynamicFrameWriter.from_jdbc_conf() 缺少 1 个必需的位置参数:'catalog_connection'

我遇到一个问题,在我的 awsglue 作业中运行更新查询时......我知道目前不可能直接使用 AWS GLUE 对 SQL 和 Mongo 在数据库中进行更新。 但是...

回答 1 投票 0

使用boto3获取数据库中的表列表

我正在尝试从我的 aws 数据目录中的数据库获取表的列表。 我正在尝试使用 boto3。 我在 aws 上的 sagemaker 笔记本中运行下面的代码。 它会永远运行(就像超过 30

回答 2 投票 0

在 Spark scala 中使用 for 循环和 Withcolumn 函数向数据帧添加列时出现 java.lang.StackOverflowError

我有一个 Spark 代码,它从配置文件中添加数据帧中的列,最后仅选择配置文件中的现有列来创建新的数据帧。 当我的钱更少时...

回答 1 投票 0

AWS Glue write_dynamic 框架会自动向某些记录添加双引号

我有这段代码可以将动态帧写入S3中的文件,但它也用双引号引起来一些记录。 关于如何禁用此功能有什么想法吗? format_options = {“optimizePerformance”:True,&q...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.