aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

使用 Glue 作业脚本刷新 Redshift 物化视图

我正在尝试使用粘合作业刷新物化视图,使用 boto3 通过数据库用户名进行身份验证连接到 Redshift 集群。 CloudWa 中的执行超时没有错误...

回答 1 投票 0

AWS Glue 无法从爬网程序创建数据库:权限被拒绝

我正在尝试在 S3 存储桶上使用 AWS Glue 爬网程序来填充 Glue 数据库。我运行创建爬网程序向导,选择我的数据源(带有 avro 文件的 S3 存储桶),让它创建 IAM...

回答 5 投票 0

将大约 50GB 的 Parquet 数据加载到 Redshift 需要无限期的加载时间

我正在加载大约 50 GB 使用 Glue Etl 作业将 Parquet 数据加载到 Dataframe 中,然后尝试加载到 Redshift 表中,这需要 6-7 小时,甚至还没有完成。 `数据接收器=glueContext。

回答 1 投票 0

AWS Quicksight:如何控制对某些 DynamoDB 表的访问

因此,在尝试将 Athena 与 DynamoDB 连接时,我尝试使用 AWS 提供的 Lambda 连接器。问题是它获取所有 DynamoDB 表,我只想显示生产表(其中...

回答 1 投票 0

AWS Glue 可以使用 IAM 身份验证连接到 Elasticsearch 吗?

遵循本教程:https://docs.aws.amazon.com/glue/latest/ug/tutorial-elastisearch-connector.html 我知道使用此连接器可以连接到 Aws Elasticsearch,但这仍然需要 AWS Secrets

回答 2 投票 0

在awsglue作业中,如何使用自定义库?

我正在使用 Glue 作业 Spark 脚本。 我已经在 SageMaker 中编写了 Python 代码。在 SageMaker 中,我使用了自定义库文件夹。我使用像 '''from A import B''' 这样的文件夹,A 是文件夹名称,B 是 def

回答 1 投票 0

当没有作业运行时,为什么 AWS Glue 会显示“超出最大并发运行数”?

我有一个 AWS Glue 作业,最大并发运行数设置为 1。该作业当前未运行。但是当我尝试运行它时,我不断收到错误:“超出最大并发运行数”。 删除...

回答 4 投票 0

apache-iceberg 修复发现的冲突文件,这些文件可能包含与 true 匹配的记录

运行合并到查询时出现错误 org.apache.iceberg.exceptions.ValidationException:发现可能包含匹配 true 的记录的冲突文件:[file_1、file_2、file_3] 弹出。 我想要...

回答 1 投票 0

lit() 仅填充该列的第一行

Spark 新手尝试让 AWS Glue 将列添加到我的数据集。 特别是,我有以下 Spark 代码 df = s3SourceDataDynamicFrame.toDF() df = df.选择( col("eventId").

回答 1 投票 0

如何在步骤函数中一次将参数传递给多个作业?

我有多个胶水作业,它们都具有相同的作业参数 --param1 和 --param2 在粘合作业中使用。 我在步骤函数中连接了两个粘合作业。 但不知道如何...

回答 1 投票 0

我正在尝试使用适用于 Java 1.X 的 AWS Glue 开发工具包从 AWS Glue 获取数据库列表,策略上的资源访问权限有限,但得到的是空列表

如标题中所述,我正在尝试从 AWS Glue 获取数据库列表。 我在 Glue 中列出了很多数据库。我正在使用资源访问权限有限的策略,因此我只能看到特定的...

回答 2 投票 0

AWS Glue 3.0:即使重新分区后,分区计数也会自行更改

我有一项作业在 AWS Glue 3.0 上使用 G.8x 工作线程运行。我正在使用 100 个工人的配置。 在最近的运行中,count() 导致 OOM,我发现重新分区可能会有所帮助。 我读到我们必须...

回答 1 投票 0

将 python 脚本作为 AWS 胶水服务作业运行

我有一个使用本地路径在本地运行的 python 脚本,但我需要复制此 python 脚本并将其作为 AWSglue 服务作业运行并将输出保存在 s3 存储桶中。 请帮助我一步一步...

回答 1 投票 0

如何使用 yaml CloudFormation 堆栈将 ETL 脚本加载到 S3 存储桶

我一直在使用 yaml 编写 CloudFormation Stack 并将其部署到 AWS 基础设施(由于遗留原因,不幸的是我无法切换到 CDK ;)) 以下 yaml 代码是

回答 1 投票 0

当底层 JSON 文件中的时间戳格式发生更改时,在 Athena 中查询时间戳数据

我正在从 S3 中存储的 JSON 文件查询 AWS Athena 中的数据。我已使用 AWS Glue 将所有 JSON 文件加载到 Athena 中,到目前为止它运行良好。但是,时间戳格式有

回答 2 投票 0

AWS Athena 错误:仅事务表支持修改 Hive 表行

我无法对 AWS Athena 表中的行执行删除操作。它抛出以下错误: NOT_SUPPORTED:仅事务表支持修改 Hive 表行 这个查询...

回答 1 投票 0

将红移表的子集读取到粘合会话中

在我的正常工作流程中,我使用以下命令将整个表格读入粘合中: 订单=glueContext.create_dynamic_frame_from_options(“redshift”,connection_options = { “网址”:...

回答 2 投票 0

调用 z:com.amazonaws.services.glue.util.Job.commit 时发生错误。未初始化

我有一个胶水作业,可以解析上传到 S3 的 csv 文件并将数据保存到 rds 实例。一切正常。但有一天发生了一个错误 调用时发生错误 z:com.amazonaws.ser...

回答 3 投票 0

如何识别哪个日志流属于哪个胶水作业?

我有 python shell 类型的 AWS Glue 作业。 python shellglue 作业的日志存储在两个不同的 cloudwatch 日志组中。 /aws-glue/python-jobs/output:- 存储非错误日志 /哇...

回答 1 投票 0

Glue:从云跟踪中的 AWS 事件触发的 NotifyEvent 负载中提取存储桶名称和密钥

我在 s3 存储桶上设置了一个事件桥触发器,每次我们上传对象时,它都会触发 Cloud Trail 中的 NotifyEvent。我正在尝试从有效负载中提取存储桶名称和密钥

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.