aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

根据指定的输出文件大小使用 AWS Glue 脚本对 DynamicFrames 进行分区

我有一系列镶木地板文件，这些文件已放入 S3 存储桶内；这些文件的大小从几 KB 到几 GB 不等。然而，这些文件中包含的数据是

python amazon-web-services aws-glue

回答 1 投票 0

如何在pyspark中过滤和更新增量表并保存结果？

我在 s3 中保存了一个增量表，我正在使用 aws 粘合作业将一组 csv 读入 pyspark 数据帧，然后通过将数据帧行附加到增量表来更新增量表。

pyspark aws-glue delta

回答 1 投票 0

如何从 AWS Glue 作业将数据写入 Iceberg 表中

我在 AWS Glue 中创建了一个作业，该作业从 Postrgres 表中获取数据并将其写入 S3 中的 CSV 文件中。并且工作正常。下一步是用 Iceberg 表替换目标

amazon-web-services aws-glue amazon-vpc vpc-endpoint

回答 1 投票 0

如何从 AWS Kinesis Firehose 写入具有 int64 时间戳（而不是 int96）的 Parquet 文件？

为什么 int96 时间戳对我不起作用？我想使用 S3 Select 读取 Parquet 文件。根据文档，S3 Select 不支持保存为 int96 的时间戳。另外，存储时间戳...

hive aws-glue parquet amazon-kinesis-firehose amazon-s3-select

回答 2 投票 0

提供商 hashicorp/aws 不支持数据源“aws_glue_catalog_database”

我不想创建新的 Glue 爬虫数据库，而是想在此处使用现有的数据库：资源“aws_glue_crawler”“测试”{ 名称=“测试” 描述...

amazon-web-services terraform aws-glue terraform-provider-aws

回答 1 投票 0

如何在pyspark数据框中分解字符串类型列并在表中创建单独的列

我从 pyspark 中的表加载的数据帧中获取以下值作为字符串。它是嵌套字典列表。我想使用 pyspark 进行爆炸并将它们作为表中的单独列。数据框...

python amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

为 awsgluecrawler 设置时间表

通过 Terraform 将每日计划添加到 AWS Glue Crawler 的正确方法是什么？我尝试遵循官方文档并尝试了以下操作：资源“aws_glue_crawler”“测试”{ 名字...

amazon-web-services terraform aws-glue terraform-provider-aws

回答 1 投票 0

更改 AWS Glue 作业参数的值

有没有办法可以更改作业本身中 AWS Glue 作业参数的值？假设我有一个参数，其键为 --color 且值为“red”： args = getResolvedOptions(sys.argv, ['

python amazon-web-services aws-glue

回答 2 投票 0

使用 AWS CLI，如何更新 Glue 列的数据类型？

我知道我可以轻松使用 AWS Glue 控制台来执行此操作，但我只是尝试通过 AWS CLI 来执行此操作。所以我有一个 my_table_name 表，其中 id 列当前类型为字符串。

amazon-web-services aws-cli aws-glue

回答 1 投票 0

AWS Athena 从通过 GLUE Crawler 输入来自 S3 的 csv 创建的表返回零记录

第一部分：我尝试在 s3 中加载的虚拟 csv 上运行胶水爬虫，它创建了一个表，但是当我尝试在 athena 中查看表并查询它时，它显示返回了零记录。但是At中ELB的demo数据...

amazon-web-services csv amazon-redshift amazon-athena aws-glue

回答 10 投票 0

我可以自动停止 Glue 交互会话吗？

我正在使用 AWS Glue 并制作作业。通过最近的更新，Glue 交互式会话会自动启动。而且账单金额也不小。我根本不使用它并且想正常停止它。有什么办法吗...

amazon-web-services aws-glue

回答 1 投票 0

AWS Glue psycopg2 安装

我正在尝试运行使用 psycopg2 来操作 Redshift 实例的代码。我尝试导入一个wheel文件，因为我发现它们在Glue python作业中受支持。我看到库已安装...

python amazon-web-services psycopg2 aws-glue

回答 7 投票 0

日期时间是aws胶水作业不采用本地时区，它使用UTC？

我正在 ap-south-1 区域运行 AWS Glue 作业。在这里，我使用了 python datetime 函数来加载我的审计列之一 (created_on)。当我尝试加载 datetime.now() 时，它需要......

aws-glue

回答 1 投票 0

我无法在glue版本4中使用mongo连接url，但在glue版本3中工作正常

我已经使用 awsglue 从 mongo db 中提取数据大约一年了。我一直在使用glue版本3。我可以使用awsglue版本3执行etl，但是一旦我选择glue版本4，然后...

mongodb amazon-web-services apache-spark etl aws-glue

回答 1 投票 0

无法使用 pyiceberg 和 Aws Glue 创建表

我正在尝试在 AWS Glue 中创建新的 Iceberg 表： glue_database_name =“alex_iceberg_test_db” glue_catalog_uri = "s3://alex-iceberg-test-storage" my_namespace = 'alex_db' #

aws-glue apache-iceberg

回答 1 投票 0

如何构建将多个源的连续数据同步到单个数据接收器的服务

我正在设计一个服务，不断从多个来源提取数据（比如mysql/postgres表、雪花数据库、redshift等），进行一些转换（简单的字段映射）并保存数据...

java amazon-web-services apache-spark etl aws-glue

回答 1 投票 0

如何在Spark中并行化map函数？

我正在尝试通过 DataFrame 调用函数。该函数采用 id 作为输入并查询 DynamoDB 表。如果表中存在该 id，它将继续执行其他任务（例如调用另一个 AWS

amazon-web-services aws-glue

回答 1 投票 0

AWS Kinesis - 账户 XXX 下的流 XXX 中的分片 XXX 上的 GetShardIterator 无效，因为它不是来自此流

所以这是我的问题。是否为 DynamoDB 启用了 DynamoDB Amazon Kinesis 数据流并为其创建了 Amazon Kinesis 数据流。使用 Kinesis 数据流作为源和红色创建 ETL 作业...

amazon-web-services amazon-dynamodb aws-glue amazon-kinesis

回答 1 投票 0

PySpark DataFrames 与 Glue DynamicFrames 的性能

所以我最近第一次开始使用 Glue 和 PySpark。任务是创建一个 Glue 作业来执行以下操作：从驻留在 S3 存储桶中的 parquet 文件加载数据应用过滤器...

pyspark aws-glue

回答 1 投票 0

AttributeError：“DynamoHandler”对象没有属性“export_table_to_point_in_time”

我有一个功能，可以使用版本1.33.13中boto3的export_table_to_point_in_time导出发电机数据客户端 = boto3.client("dynamodb") 响应=客户。

amazon-web-services amazon-dynamodb boto3 aws-glue amazon-dynamodb-streams

回答 1 投票 0

aws-glue 相关问题

最新问题