aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

AWS Glue 请验证角色的 TrustPolicy

我正在实习，需要使用 AWS Glue 来使用和实施 ETL。我成功地与包含数据的 RDS Aurora 数据库建立了 JDBC 连接，但是当我尝试创建

amazon-web-services etl aws-glue

回答 1 投票 0

Glue S3 CSV 负载改进

我们有glue，它使用pyspark load()从s3存储桶读取csv文件。 read_s3_files = Spark.read.format("csv") \ .option("标题", True) \ .选项（“

amazon-web-services pyspark aws-glue

回答 1 投票 0

根据模式读取 Spark DataFrame 中的数据，但不区分大小写

我在sparkconf中设置了“spark.sql.caseSensitive”，“False”。这就是我创建架构的方式：架构={ “类型”：“结构”， “字段”：[ ...

pyspark aws-glue apache-iceberg

回答 1 投票 0

触发 AWS Glue 表压缩

我在胶水桌上无法压实。我创建了一个 Glue 数据库和一个 Glue 表。我有一个 S3 存储桶设置。我已在 Glue 仪表板中启用了表优化

amazon-web-services aws-glue amazon-athena

回答 1 投票 0

pyspark 在 python 中写入 csv 时默认修剪所有字段

我正在尝试使用spark 3.3、Scala 2 python代码将数据集写入csv文件，默认情况下它会修剪所有字符串字段。例如，对于下面的列值： “文本123”，&

python aws-glue scala-2.10 apache-spark-3.0

回答 1 投票 0

如何在 AWS Glue 架构注册表中安装自定义 protobuf 包？

我正在考虑使用 AWS Glue 的架构注册表来托管我的所有 protobuf 模型。我目前正在遵循这个例子。在他们的 Employee.proto 中，我看到他们正在从 googl 导入包...

protocol-buffers aws-glue

回答 1 投票 0

AWS Glue 是否直接从 EventBridge 接受事件？

您可以将事件直接从AWS事件桥传递到AWS胶水吗？ AWSglue是否每次都会创建一个新的集群来处理事件？该事件的处理时间是多少？

aws-glue

回答 1 投票 0

如何通过 terraform 设置/传递环境变量到 awsglue 脚本？

我正在通过 terraform 和 python 文件在 aws 中设置一个粘合作业，该文件对数据进行 ETL（参见下面的示例）。我如何将环境变量从我的 terraform 代码传递到我的脚本，例如......

python pyspark aws-glue

回答 1 投票 0

如何使用pyspark ETL配置输出文件大小？

我有一些 ETL 代码，我读取 csv 数据将它们转换为数据帧，在使用 pyspark RDD（弹性分布式数据集）通过地图对数据进行某些转换后组合/合并数据帧...

python pandas pyspark aws-glue

回答 1 投票 0

如何使用 python 从 Lambda 函数在单个查询中查询多个 AWS Athena 数据库？

我正在尝试构建一个 Python Lambda 函数，该函数使用 AWS Wrangler Python 库从多个 Athena 数据库中提取数据。 wr.athena.read_sql_query('跨数据库sql查询', '其中一个

python aws-lambda aws-glue amazon-athena aws-data-wrangler

回答 1 投票 0

awsglue.utils.GlueArgumentError：参数 --JOB_NAME 是必需的

当我使用 Python 在 AWS Glue 中运行 Glue 作业样板时，出现错误导入系统从 awsglue.transforms 导入 * 从 awsglue.utils 导入 getResolvedOptions 从 pyspark.context 导入

python amazon-web-services pyspark aws-glue

回答 5 投票 0

Amazon s3 文件夹结构和爬虫设置以创建带分区的表

我有 s3 文件夹，它是使用 Python shell 脚本手动创建的我的 s3 文件夹如下所示 s3://my_bucket/landing_zone/year=2024/month=10/day=01/sales/file.csv s3://my_bucket/landing_zone/是...

python amazon-s3 aws-glue amazon-athena partitioning

回答 1 投票 0

Glue Spark：某些任务有 0 条记录用于洗牌，但某些任务有磁盘溢出

我有一个 Spark 作业，其中某些任务的记录输出为零，并且随机播放读取大小，其中某些任务有内存和磁盘溢出。有人可以帮我做什么来优化执行吗？执行...

apache-spark aws-glue amazon-emr

回答 1 投票 0

awsglue 3.0 中的伟大期望 v3 API

我正在尝试使用 AWSglue 3.0 上的 Great Expectations 在管道中进行验证。这是我根据他们的文档在运行时创建数据上下文的初步尝试 def create_context(): 瞧...

pyspark aws-glue great-expectations

回答 2 投票 0

AWS Glue ETL MongoDB 连接字符串错误

使用 MongoDb 与 AWSglue 的问题 - 我创建了一个到数据库的连接（使用 MongoDb 连接选项）并针对它运行一个爬虫，一切正常，但是当我尝试使用它时...

mongodb amazon-web-services etl aws-glue

回答 1 投票 0

如何通过 terraform 提供 awsglue 作业参数？

我正在通过 terraform 在 aws 中设置粘合作业（示例如下）。基于此处的文档 - https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html，任何其他 p...

python amazon-web-services aws-glue

回答 1 投票 0

使用来自awsgluedocker容器的python解释器在Pycharm中未解决的引用pyspark

我已设置 AWSglue 容器以在本地处理我的 etl 作业。代码可以毫无问题地运行。然而，Pycharm 代码分析告诉我，pyspark 没有安装，尽管它已经安装了，而且......

pycharm aws-glue

回答 1 投票 0

在亚马逊redshift中创建外部表时出错

我使用 Amazon redshift 创建了一个集群。使用此连接，我打开查询编辑器来创建外部表创建外部架构 dynamodb_external_table2 FROM 数据目录数据库“开发”

amazon-s3 amazon-redshift aws-glue

回答 1 投票 0

如何将pyspark daframe保存为jsonl/json文件？

为此问题设计的示例。我有一个 pyspark 数据框，为了方便起见，我对数据进行了硬编码，但我有一堆 csv 文件读入数据框。我可以将数据帧保存为 json ...

pandas amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

如何在awsglue中使用pyspark处理多个csv？

我是 pyspark 和 awsglue 的新手。我根据我看到的示例编写了小脚本，将 csv 文件读取为动态 pyspark 框架。我想知道，如何读取多个 csv 文件或所有 csv 文件...

python amazon-web-services csv pyspark aws-glue

回答 1 投票 0

aws-glue 相关问题

最新问题