aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

awsglue.utils.GlueArgumentError:参数 --JOB_NAME 是必需的

当我使用 Python 在 AWS Glue 中运行 Glue 作业样板时,出现错误 导入系统 从 awsglue.transforms 导入 * 从 awsglue.utils 导入 getResolvedOptions 从 pyspark.context 导入

回答 5 投票 0

Amazon s3 文件夹结构和爬虫设置以创建带分区的表

我有 s3 文件夹,它是使用 Python shell 脚本手动创建的 我的 s3 文件夹如下所示 s3://my_bucket/landing_zone/year=2024/month=10/day=01/sales/file.csv s3://my_bucket/landing_zone/是...

回答 1 投票 0

Glue Spark:某些任务有 0 条记录用于洗牌,但某些任务有磁盘溢出

我有一个 Spark 作业,其中某些任务的记录输出为零,并且随机播放读取大小,其中某些任务有内存和磁盘溢出。有人可以帮我做什么来优化执行吗? 执行...

回答 1 投票 0

awsglue 3.0 中的伟大期望 v3 API

我正在尝试使用 AWSglue 3.0 上的 Great Expectations 在管道中进行验证。 这是我根据他们的文档在运行时创建数据上下文的初步尝试 def create_context(): 瞧...

回答 2 投票 0

AWS Glue ETL MongoDB 连接字符串错误

使用 MongoDb 与 AWSglue 的问题 - 我创建了一个到数据库的连接(使用 MongoDb 连接选项)并针对它运行一个爬虫,一切正常,但是当我尝试使用它时...

回答 1 投票 0

如何通过 terraform 提供 awsglue 作业参数?

我正在通过 terraform 在 aws 中设置粘合作业(示例如下)。基于此处的文档 - https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html,任何其他 p...

回答 1 投票 0

使用来自awsgluedocker容器的python解释器在Pycharm中未解决的引用pyspark

我已设置 AWSglue 容器以在本地处理我的 etl 作业。代码可以毫无问题地运行。然而,Pycharm 代码分析告诉我,pyspark 没有安装,尽管它已经安装了,而且......

回答 1 投票 0

在亚马逊redshift中创建外部表时出错

我使用 Amazon redshift 创建了一个集群。使用此连接,我打开查询编辑器来创建外部表 创建外部架构 dynamodb_external_table2 FROM 数据目录 数据库“开发”

回答 1 投票 0

如何将pyspark daframe保存为jsonl/json文件?

为此问题设计的示例。我有一个 pyspark 数据框,为了方便起见,我对数据进行了硬编码,但我有一堆 csv 文件读入数据框。我可以将数据帧保存为 json ...

回答 1 投票 0

如何在awsglue中使用pyspark处理多个csv?

我是 pyspark 和 awsglue 的新手。我根据我看到的示例编写了小脚本,将 csv 文件读取为动态 pyspark 框架。我想知道,如何读取多个 csv 文件或所有 csv 文件...

回答 1 投票 0

s3 分区 - aws 胶水爬虫 - athena

在s3中我使用脚本(python脚本)创建了文件夹(分区) 文件夹看起来像这样 my_bucket/dev_zone/merchant_id=1/年=2025/月=01/日期=01/ 我正在从我的 AWS 胶水脚本写入数据...

回答 1 投票 0

在 Athena 上查询 json 数据时出错

我在 S3 中存储了 JSON 数据,我想使用 Athena 查询它。我使用 AWS Glue 爬网程序来检索已正确获取的元数据和列,但我仍然无法查询...

回答 1 投票 0

如何使用类似递归的操作在 PySpark 中计算累积衰减和?

我有一个 PySpark DataFrame,如下所示: ID 编号2 id3 h_生成 衰减因子 h_总计 1 164 1 149.8092121 1 164 2 1417.298433 0.944908987 1558.854504 1 164 3 3833.995761 0.886920437 5216.

回答 1 投票 0

如何在 AWS Glue 中捕获此 EntityNotFound 异常?

当我进行此调用时(尝试从 AWS Glue 中获取不存在的表): glueContext.create_dynamic_frame.from_catalog(database='wrong_database_name', table_name='or_wrong_table_name') 我...

回答 2 投票 0

Glue 爬虫未为 SQL Server 数据源创建表

我正在创建一个 Glue Crawler 来爬取一些本地 SQL Server 数据库表。我正在使用下面的 SQL Server 数据库连接语法 - 这是正确的吗?爬虫没有抛出任何错误...

回答 1 投票 0

aws Glue 笔记本中的 JDBC 连接尝试失败,而测试连接成功

我无法通过awsglue中的python笔记本访问postgresqlRDS。 我已经设置了一个安全组,允许所有入口 tcp,源是安全组本身。所有出站都是

回答 1 投票 0

Elastic Agent 如何提取 AWS Glue 指标

我正在 AWS EC2 实例上运行 Elastic Agent (v8.12.2),收集 cloudwatch 指标。 我正在使用 AWS 集成,并且了解 Glue 的指标可在 cloudwatch 指标下使用,因此...

回答 1 投票 0

如何将文件夹、子文件夹和文件从S3存储桶移动到另一个存储桶?

我有一个问题:我想将为此迁移创建的文件夹上的总线结构(文件夹、子文件夹和文件)从存储桶 A 迁移到存储桶 B。 我想知道: 首先 - 如果是...

回答 1 投票 0

如何在 AWS Glue python shell 作业中将数据批量插入 MSSQL 数据库?

我在 s3 中有大量数据。在我的 Python 胶水作业中,我将以 pandas 数据框的形式从这些文件中提取数据,并对数据框应用必要的转换,然后...

回答 1 投票 0

Apache Iceberg - 合并时间长

我有一个AWS Glue作业,它试图将数据合并到按product_id分区的Apache Iceberg表中。 我想要实现的是能够使用 AWS Glue 作业运行并发合并操作...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.