aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

awsglue.utils.GlueArgumentError：参数 --JOB_NAME 是必需的

当我使用 Python 在 AWS Glue 中运行 Glue 作业样板时，出现错误导入系统从 awsglue.transforms 导入 * 从 awsglue.utils 导入 getResolvedOptions 从 pyspark.context 导入

python amazon-web-services pyspark aws-glue

回答 5 投票 0

Amazon s3 文件夹结构和爬虫设置以创建带分区的表

我有 s3 文件夹，它是使用 Python shell 脚本手动创建的我的 s3 文件夹如下所示 s3://my_bucket/landing_zone/year=2024/month=10/day=01/sales/file.csv s3://my_bucket/landing_zone/是...

python amazon-s3 aws-glue amazon-athena partitioning

回答 1 投票 0

Glue Spark：某些任务有 0 条记录用于洗牌，但某些任务有磁盘溢出

我有一个 Spark 作业，其中某些任务的记录输出为零，并且随机播放读取大小，其中某些任务有内存和磁盘溢出。有人可以帮我做什么来优化执行吗？执行...

apache-spark aws-glue amazon-emr

回答 1 投票 0

awsglue 3.0 中的伟大期望 v3 API

我正在尝试使用 AWSglue 3.0 上的 Great Expectations 在管道中进行验证。这是我根据他们的文档在运行时创建数据上下文的初步尝试 def create_context(): 瞧...

pyspark aws-glue great-expectations

回答 2 投票 0

AWS Glue ETL MongoDB 连接字符串错误

使用 MongoDb 与 AWSglue 的问题 - 我创建了一个到数据库的连接（使用 MongoDb 连接选项）并针对它运行一个爬虫，一切正常，但是当我尝试使用它时...

mongodb amazon-web-services etl aws-glue

回答 1 投票 0

如何通过 terraform 提供 awsglue 作业参数？

我正在通过 terraform 在 aws 中设置粘合作业（示例如下）。基于此处的文档 - https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html，任何其他 p...

python amazon-web-services aws-glue

回答 1 投票 0

使用来自awsgluedocker容器的python解释器在Pycharm中未解决的引用pyspark

我已设置 AWSglue 容器以在本地处理我的 etl 作业。代码可以毫无问题地运行。然而，Pycharm 代码分析告诉我，pyspark 没有安装，尽管它已经安装了，而且......

pycharm aws-glue

回答 1 投票 0

在亚马逊redshift中创建外部表时出错

我使用 Amazon redshift 创建了一个集群。使用此连接，我打开查询编辑器来创建外部表创建外部架构 dynamodb_external_table2 FROM 数据目录数据库“开发”

amazon-s3 amazon-redshift aws-glue

回答 1 投票 0

如何将pyspark daframe保存为jsonl/json文件？

为此问题设计的示例。我有一个 pyspark 数据框，为了方便起见，我对数据进行了硬编码，但我有一堆 csv 文件读入数据框。我可以将数据帧保存为 json ...

pandas amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

如何在awsglue中使用pyspark处理多个csv？

我是 pyspark 和 awsglue 的新手。我根据我看到的示例编写了小脚本，将 csv 文件读取为动态 pyspark 框架。我想知道，如何读取多个 csv 文件或所有 csv 文件...

python amazon-web-services csv pyspark aws-glue

回答 1 投票 0

s3 分区 - aws 胶水爬虫 - athena

在s3中我使用脚本（python脚本）创建了文件夹（分区）文件夹看起来像这样 my_bucket/dev_zone/merchant_id=1/年=2025/月=01/日期=01/ 我正在从我的 AWS 胶水脚本写入数据...

amazon-web-services amazon-s3 aws-glue amazon-athena schemacrawler

回答 1 投票 0

在 Athena 上查询 json 数据时出错

我在 S3 中存储了 JSON 数据，我想使用 Athena 查询它。我使用 AWS Glue 爬网程序来检索已正确获取的元数据和列，但我仍然无法查询...

amazon-web-services amazon-s3 aws-glue amazon-athena

回答 1 投票 0

如何使用类似递归的操作在 PySpark 中计算累积衰减和？

我有一个 PySpark DataFrame，如下所示： ID 编号2 id3 h_生成衰减因子 h_总计 1 164 1 149.8092121 1 164 2 1417.298433 0.944908987 1558.854504 1 164 3 3833.995761 0.886920437 5216.

python apache-spark pyspark python-multiprocessing aws-glue

回答 1 投票 0

如何在 AWS Glue 中捕获此 EntityNotFound 异常？

当我进行此调用时（尝试从 AWS Glue 中获取不存在的表）： glueContext.create_dynamic_frame.from_catalog(database='wrong_database_name', table_name='or_wrong_table_name') 我...

amazon-web-services aws-glue

回答 2 投票 0

Glue 爬虫未为 SQL Server 数据源创建表

我正在创建一个 Glue Crawler 来爬取一些本地 SQL Server 数据库表。我正在使用下面的 SQL Server 数据库连接语法 - 这是正确的吗？爬虫没有抛出任何错误...

sql-server amazon-web-services aws-glue

回答 1 投票 0

aws Glue 笔记本中的 JDBC 连接尝试失败，而测试连接成功

我无法通过awsglue中的python笔记本访问postgresqlRDS。我已经设置了一个安全组，允许所有入口 tcp，源是安全组本身。所有出站都是