aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

从 RDS 到 Snowflake 的 AWS Glue ETL 作业中出现错误“IllegalArgumentException:没有名称为 <host> 的组”

我已成功设置 AWS Glue,其中 RDS 数据库作为数据源,Snowflake 数据库作为数据目标。在此设置中,我配置了 AWS Glue 爬网程序来对元数据进行编目...

回答 1 投票 0

有没有办法使用 AWS CDK 将 ServiceRoles 策略附加到手动创建的角色?

我尝试将 AWSGlueServiceRole 附加到 AWS CDK 应用程序中手动创建的角色。它可以通过 AWS IAM 控制台轻松附加,但我找不到通过 CDK 附加它的方法。 以下...

回答 1 投票 0

有没有办法使用 AWS CDK 将 ServiceRoles 附加(如策略)到手动创建的角色?

我尝试将 AWSGlueServiceRole 附加到 AWS CDK 应用程序中手动创建的角色。它可以通过 AWS IAM 控制台轻松附加,但我找不到通过 CDK 附加它的方法。 以下...

回答 1 投票 0

如何触发胶水爬行器?

设置一个glue爬虫作业以从s3存储桶中读取并创建一个glue目录数据库。创建资源后,我如何触发它。我可以将它与 s3 对象创建挂钩吗?还有,可以吗...

回答 1 投票 0

AWS CDKglue-alpha 作业:如何在 `extraPythonFiles` 中导入模块?

我正在使用 AWS CDK 创建 Glue 作业。按照本文档(https://docs.aws.amazon.com/cdk/api/v2/docs/@aws-cdk_aws-glue-alpha.PythonSparkJobExecutableProps.html)我发现它是可能的...

回答 1 投票 0

使用 Terraform 将列分区到 Athena Iceberg 表

我想使用 Terraform 创建一个带有分区列的 Iceberg 表。通过运行 SQL DDL 语句,可以使用 python/boto3 实现此目的,但我还没有找到使用 Terraform 执行此操作的方法...

回答 1 投票 0

为什么我的 Glue Crawler 排除模式不适用?

我知道以前已经有人问过这个问题了。但我花了几个小时试图让它发挥作用。 我有一个像这样的目录结构: - 数据湖 --- 数据集 ----- 富 -------- 00001.json ------- 00002.json...

回答 1 投票 0

根据指定的输出文件大小使用 AWS Glue 脚本对 DynamicFrames 进行分区

我有一系列镶木地板文件,这些文件已放入 S3 存储桶内;这些文件的大小从几 KB 到几 GB 不等。然而,这些文件中包含的数据是

回答 1 投票 0

如何在pyspark中过滤和更新增量表并保存结果?

我在 s3 中保存了一个增量表,我正在使用 aws 粘合作业将一组 csv 读入 pyspark 数据帧,然后通过将数据帧行附加到增量表来更新增量表。

回答 1 投票 0

如何从 AWS Glue 作业将数据写入 Iceberg 表中

我在 AWS Glue 中创建了一个作业,该作业从 Postrgres 表中获取数据并将其写入 S3 中的 CSV 文件中。并且工作正常。 下一步是用 Iceberg 表替换目标

回答 1 投票 0

如何从 AWS Kinesis Firehose 写入具有 int64 时间戳(而不是 int96)的 Parquet 文件?

为什么 int96 时间戳对我不起作用? 我想使用 S3 Select 读取 Parquet 文件。根据文档,S3 Select 不支持保存为 int96 的时间戳。另外,存储时间戳...

回答 2 投票 0

提供商 hashicorp/aws 不支持数据源“aws_glue_catalog_database”

我不想创建新的 Glue 爬虫数据库,而是想在此处使用现有的数据库: 资源“aws_glue_crawler”“测试”{ 名称=“测试” 描述...

回答 1 投票 0

如何在pyspark数据框中分解字符串类型列并在表中创建单独的列

我从 pyspark 中的表加载的数据帧中获取以下值作为字符串。它是嵌套字典列表。我想使用 pyspark 进行爆炸并将它们作为表中的单独列。 数据框...

回答 1 投票 0

为 awsgluecrawler 设置时间表

通过 Terraform 将每日计划添加到 AWS Glue Crawler 的正确方法是什么?我尝试遵循官方文档并尝试了以下操作: 资源“aws_glue_crawler”“测试”{ 名字...

回答 1 投票 0

更改 AWS Glue 作业参数的值

有没有办法可以更改作业本身中 AWS Glue 作业参数的值?假设我有一个参数,其键为 --color 且值为“red”: args = getResolvedOptions(sys.argv, ['

回答 2 投票 0

使用 AWS CLI,如何更新 Glue 列的数据类型?

我知道我可以轻松使用 AWS Glue 控制台来执行此操作,但我只是尝试通过 AWS CLI 来执行此操作。所以我有一个 my_table_name 表,其中 id 列当前类型为字符串。

回答 1 投票 0

AWS Athena 从通过 GLUE Crawler 输入来自 S3 的 csv 创建的表返回零记录

第一部分: 我尝试在 s3 中加载的虚拟 csv 上运行胶水爬虫,它创建了一个表,但是当我尝试在 athena 中查看表并查询它时,它显示返回了零记录。 但是At中ELB的demo数据...

回答 10 投票 0

我可以自动停止 Glue 交互会话吗?

我正在使用 AWS Glue 并制作作业。 通过最近的更新,Glue 交互式会话会自动启动。 而且账单金额也不小。 我根本不使用它并且想正常停止它。 有什么办法吗...

回答 1 投票 0

AWS Glue psycopg2 安装

我正在尝试运行使用 psycopg2 来操作 Redshift 实例的代码。我尝试导入一个wheel文件,因为我发现它们在Glue python作业中受支持。我看到库已安装...

回答 7 投票 0

日期时间是aws胶水作业不采用本地时区,它使用UTC?

我正在 ap-south-1 区域运行 AWS Glue 作业。在这里,我使用了 python datetime 函数来加载我的审计列之一 (created_on)。当我尝试加载 datetime.now() 时,它需要......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.