aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

根据指定的输出文件大小使用 AWS Glue 脚本对 DynamicFrames 进行分区

我有一系列镶木地板文件,这些文件已放入 S3 存储桶内;这些文件的大小从几 KB 到几 GB 不等。然而,这些文件中包含的数据是

回答 1 投票 0

如何在pyspark中过滤和更新增量表并保存结果?

我在 s3 中保存了一个增量表,我正在使用 aws 粘合作业将一组 csv 读入 pyspark 数据帧,然后通过将数据帧行附加到增量表来更新增量表。

回答 1 投票 0

如何从 AWS Glue 作业将数据写入 Iceberg 表中

我在 AWS Glue 中创建了一个作业,该作业从 Postrgres 表中获取数据并将其写入 S3 中的 CSV 文件中。并且工作正常。 下一步是用 Iceberg 表替换目标

回答 1 投票 0

如何从 AWS Kinesis Firehose 写入具有 int64 时间戳(而不是 int96)的 Parquet 文件?

为什么 int96 时间戳对我不起作用? 我想使用 S3 Select 读取 Parquet 文件。根据文档,S3 Select 不支持保存为 int96 的时间戳。另外,存储时间戳...

回答 2 投票 0

提供商 hashicorp/aws 不支持数据源“aws_glue_catalog_database”

我不想创建新的 Glue 爬虫数据库,而是想在此处使用现有的数据库: 资源“aws_glue_crawler”“测试”{ 名称=“测试” 描述...

回答 1 投票 0

如何在pyspark数据框中分解字符串类型列并在表中创建单独的列

我从 pyspark 中的表加载的数据帧中获取以下值作为字符串。它是嵌套字典列表。我想使用 pyspark 进行爆炸并将它们作为表中的单独列。 数据框...

回答 1 投票 0

为 awsgluecrawler 设置时间表

通过 Terraform 将每日计划添加到 AWS Glue Crawler 的正确方法是什么?我尝试遵循官方文档并尝试了以下操作: 资源“aws_glue_crawler”“测试”{ 名字...

回答 1 投票 0

更改 AWS Glue 作业参数的值

有没有办法可以更改作业本身中 AWS Glue 作业参数的值?假设我有一个参数,其键为 --color 且值为“red”: args = getResolvedOptions(sys.argv, ['

回答 2 投票 0

使用 AWS CLI,如何更新 Glue 列的数据类型?

我知道我可以轻松使用 AWS Glue 控制台来执行此操作,但我只是尝试通过 AWS CLI 来执行此操作。所以我有一个 my_table_name 表,其中 id 列当前类型为字符串。

回答 1 投票 0

AWS Athena 从通过 GLUE Crawler 输入来自 S3 的 csv 创建的表返回零记录

第一部分: 我尝试在 s3 中加载的虚拟 csv 上运行胶水爬虫,它创建了一个表,但是当我尝试在 athena 中查看表并查询它时,它显示返回了零记录。 但是At中ELB的demo数据...

回答 10 投票 0

我可以自动停止 Glue 交互会话吗?

我正在使用 AWS Glue 并制作作业。 通过最近的更新,Glue 交互式会话会自动启动。 而且账单金额也不小。 我根本不使用它并且想正常停止它。 有什么办法吗...

回答 1 投票 0

AWS Glue psycopg2 安装

我正在尝试运行使用 psycopg2 来操作 Redshift 实例的代码。我尝试导入一个wheel文件,因为我发现它们在Glue python作业中受支持。我看到库已安装...

回答 7 投票 0

日期时间是aws胶水作业不采用本地时区,它使用UTC?

我正在 ap-south-1 区域运行 AWS Glue 作业。在这里,我使用了 python datetime 函数来加载我的审计列之一 (created_on)。当我尝试加载 datetime.now() 时,它需要......

回答 1 投票 0

我无法在glue版本4中使用mongo连接url,但在glue版本3中工作正常

我已经使用 awsglue 从 mongo db 中提取数据大约一年了。我一直在使用glue版本3。我可以使用awsglue版本3执行etl,但是一旦我选择glue版本4,然后...

回答 1 投票 0

无法使用 pyiceberg 和 Aws Glue 创建表

我正在尝试在 AWS Glue 中创建新的 Iceberg 表: glue_database_name =“alex_iceberg_test_db” glue_catalog_uri = "s3://alex-iceberg-test-storage" my_namespace = 'alex_db' #

回答 1 投票 0

如何构建将多个源的连续数据同步到单个数据接收器的服务

我正在设计一个服务,不断从多个来源提取数据(比如mysql/postgres表、雪花数据库、redshift等),进行一些转换(简单的字段映射)并保存数据...

回答 1 投票 0

如何在Spark中并行化map函数?

我正在尝试通过 DataFrame 调用函数。该函数采用 id 作为输入并查询 DynamoDB 表。如果表中存在该 id,它将继续执行其他任务(例如调用另一个 AWS

回答 1 投票 0

AWS Kinesis - 账户 XXX 下的流 XXX 中的分片 XXX 上的 GetShardIterator 无效,因为它不是来自此流

所以这是我的问题。 是否为 DynamoDB 启用了 DynamoDB Amazon Kinesis 数据流并为其创建了 Amazon Kinesis 数据流。 使用 Kinesis 数据流作为源和红色创建 ETL 作业...

回答 1 投票 0

PySpark DataFrames 与 Glue DynamicFrames 的性能

所以我最近第一次开始使用 Glue 和 PySpark。任务是创建一个 Glue 作业来执行以下操作: 从驻留在 S3 存储桶中的 parquet 文件加载数据 应用过滤器...

回答 1 投票 0

AttributeError:“DynamoHandler”对象没有属性“export_table_to_point_in_time”

我有一个功能,可以使用版本1.33.13中boto3的export_table_to_point_in_time导出发电机数据 客户端 = boto3.client("dynamodb") 响应=客户。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.