aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

AWS Glue 请验证角色的 TrustPolicy

我正在实习,需要使用 AWS Glue 来使用和实施 ETL。我成功地与包含数据的 RDS Aurora 数据库建立了 JDBC 连接,但是当我尝试创建

回答 1 投票 0

Glue S3 CSV 负载改进

我们有glue,它使用pyspark load()从s3存储桶读取csv文件。 read_s3_files = Spark.read.format("csv") \ .option("标题", True) \ .选项(“

回答 1 投票 0

根据模式读取 Spark DataFrame 中的数据,但不区分大小写

我在sparkconf中设置了“spark.sql.caseSensitive”,“False”。 这就是我创建架构的方式: 架构={ “类型”:“结构”, “字段”:[ ...

回答 1 投票 0

触发 AWS Glue 表压缩

我在胶水桌上无法压实。 我创建了一个 Glue 数据库和一个 Glue 表。 我有一个 S3 存储桶设置。 我已在 Glue 仪表板中启用了表优化

回答 1 投票 0

pyspark 在 python 中写入 csv 时默认修剪所有字段

我正在尝试使用spark 3.3、Scala 2 python代码将数据集写入csv文件,默认情况下它会修剪所有字符串字段。例如,对于下面的列值: “文本123”,&

回答 1 投票 0

如何在 AWS Glue 架构注册表中安装自定义 protobuf 包?

我正在考虑使用 AWS Glue 的架构注册表来托管我的所有 protobuf 模型。我目前正在遵循这个例子。在他们的 Employee.proto 中,我看到他们正在从 googl 导入包...

回答 1 投票 0

AWS Glue 是否直接从 EventBridge 接受事件?

您可以将事件直接从AWS事件桥传递到AWS胶水吗? AWSglue是否每次都会创建一个新的集群来处理事件?该事件的处理时间是多少?

回答 1 投票 0

如何通过 terraform 设置/传递环境变量到 awsglue 脚本?

我正在通过 terraform 和 python 文件在 aws 中设置一个粘合作业,该文件对数据进行 ETL(参见下面的示例)。我如何将环境变量从我的 terraform 代码传递到我的脚本,例如......

回答 1 投票 0

如何使用pyspark ETL配置输出文件大小?

我有一些 ETL 代码,我读取 csv 数据将它们转换为数据帧,在使用 pyspark RDD(弹性分布式数据集)通过地图对数据进行某些转换后组合/合并数据帧...

回答 1 投票 0

如何使用 python 从 Lambda 函数在单个查询中查询多个 AWS Athena 数据库?

我正在尝试构建一个 Python Lambda 函数,该函数使用 AWS Wrangler Python 库从多个 Athena 数据库中提取数据。 wr.athena.read_sql_query('跨数据库sql查询', '其中一个

回答 1 投票 0

awsglue.utils.GlueArgumentError:参数 --JOB_NAME 是必需的

当我使用 Python 在 AWS Glue 中运行 Glue 作业样板时,出现错误 导入系统 从 awsglue.transforms 导入 * 从 awsglue.utils 导入 getResolvedOptions 从 pyspark.context 导入

回答 5 投票 0

Amazon s3 文件夹结构和爬虫设置以创建带分区的表

我有 s3 文件夹,它是使用 Python shell 脚本手动创建的 我的 s3 文件夹如下所示 s3://my_bucket/landing_zone/year=2024/month=10/day=01/sales/file.csv s3://my_bucket/landing_zone/是...

回答 1 投票 0

Glue Spark:某些任务有 0 条记录用于洗牌,但某些任务有磁盘溢出

我有一个 Spark 作业,其中某些任务的记录输出为零,并且随机播放读取大小,其中某些任务有内存和磁盘溢出。有人可以帮我做什么来优化执行吗? 执行...

回答 1 投票 0

awsglue 3.0 中的伟大期望 v3 API

我正在尝试使用 AWSglue 3.0 上的 Great Expectations 在管道中进行验证。 这是我根据他们的文档在运行时创建数据上下文的初步尝试 def create_context(): 瞧...

回答 2 投票 0

AWS Glue ETL MongoDB 连接字符串错误

使用 MongoDb 与 AWSglue 的问题 - 我创建了一个到数据库的连接(使用 MongoDb 连接选项)并针对它运行一个爬虫,一切正常,但是当我尝试使用它时...

回答 1 投票 0

如何通过 terraform 提供 awsglue 作业参数?

我正在通过 terraform 在 aws 中设置粘合作业(示例如下)。基于此处的文档 - https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html,任何其他 p...

回答 1 投票 0

使用来自awsgluedocker容器的python解释器在Pycharm中未解决的引用pyspark

我已设置 AWSglue 容器以在本地处理我的 etl 作业。代码可以毫无问题地运行。然而,Pycharm 代码分析告诉我,pyspark 没有安装,尽管它已经安装了,而且......

回答 1 投票 0

在亚马逊redshift中创建外部表时出错

我使用 Amazon redshift 创建了一个集群。使用此连接,我打开查询编辑器来创建外部表 创建外部架构 dynamodb_external_table2 FROM 数据目录 数据库“开发”

回答 1 投票 0

如何将pyspark daframe保存为jsonl/json文件?

为此问题设计的示例。我有一个 pyspark 数据框,为了方便起见,我对数据进行了硬编码,但我有一堆 csv 文件读入数据框。我可以将数据帧保存为 json ...

回答 1 投票 0

如何在awsglue中使用pyspark处理多个csv?

我是 pyspark 和 awsglue 的新手。我根据我看到的示例编写了小脚本,将 csv 文件读取为动态 pyspark 框架。我想知道,如何读取多个 csv 文件或所有 csv 文件...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.