aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

是否可以使用AWS CLI仅更新部分胶水作业?

我试图在我的CI / CD开发中包含script_location的更新,并且只包含此参数。 AWS要求我包含RoleArn等必需参数。我怎么才能更新......

回答 1 投票 0

AWS Glue上的Spark SQL:pyspark.sql.utils.AnalysisException

我在AWS Glue脚本中使用Spark SQL来转换S3中的一些数据。这是脚本逻辑数据格式CSV编程语言:Python 1)使用Glue的目录将数据从S3中拉入胶水中......

回答 1 投票 0

AWS Glue截断红移表

我创建了一个胶水作业,将数据从S3(csv文件)复制到Redshift。它可以工作并填充所需的表格。但是,我需要在这个过程中清理桌子,因为我离开了......

回答 3 投票 2

使用AWS Glue覆盖MySQL表

我有一个lambda进程,偶尔会轮询API以获取最新数据。这个数据有唯一的密钥,我想用Glue来更新MySQL中的表。是否有使用...覆盖数据的选项

回答 3 投票 6

将json对象文件保存为json数组而不是s3上的json对象

我想在s3上将DF保存为json格式。它保存为json对象文件,但我想要json数组文件。我在s3上有csv文件,我在aws glue中加载到dataframe中。表演后......

回答 1 投票 0

AWS Glue ETL作业因AnalysisException失败:u'无法推断Parquet的架构。必须手动指定。

我正在尝试创建AWS Glue ETL Job,它将数据从存储在S3中的镶木地板文件加载到Redshift表中。 Parquet文件使用带有“简单”文件架构选项的pandas写入多个...

回答 2 投票 3

AWS Redshift使用AWS Glue进行S3 Parquet文件

我们有一个用例,我们在Redshift中处理数据。但我想在S3中创建这些表的备份,以便我可以使用Spectrum查询这些表。从Redshift移动表格...

回答 2 投票 1

Aws Glue Etl - 没有名为dynamicframe的模块

我在尝试执行aws Glue Etl的aws示例时遇到问题 - 在阅读完所有这些步骤后在本地执行:https://docs.aws.amazon.com/glue/latest/dg/dev-endpoint-tutorial-local-notebook.html并创造......

回答 2 投票 0

AWS Glue DPU配置

我看到DPU由4个vCPU和16 GB内存组成。是否可以更改vCPU,内存的此设置,以便我不会耗尽DPU或超出DPU限制。我认为最多......

回答 2 投票 0

如何使用Spark DataFrames防止两次处理文件

我正在使用AWS Glue处理一些S3 TSV到S3 Parquet。由于非UTF-8传入文件,我被迫使用DataFrames而不是DynamicFrames来处理我的数据(这是一个已知的问题,没有...

回答 4 投票 3

pyspark dataframe基于列后缀转置多个列

有一个数据框(列c到e最多有15个变体)cola,colb,colc_1,cold_1,cole_1,colc_2,cold_2,cole_2 ... 1,2,3,4,5,6,7,8想要数据帧可乐,...

回答 1 投票 0

Glue要爬网的混合模式事件的建议JSON结构

我有一些JSON包含具有不同模式的不同事件,如下所示:{“events”:[{“key”:“an_action”,“properties”:{“user”:“111111111111”,...

回答 1 投票 0

为什么AWS Glue不支持SQL作为ETL语言?

目前,它支持Python和Scala,但SQL表达ETL逻辑显然更自然,更方便。

回答 2 投票 1

在pySpark中将csv加载到DataFrame时出现问题

我正在尝试将一堆CSV文件聚合为一个,并使用AWS Glue中的ETL作业以ORC格式将其输出到S3。我的聚合CSV如下所示:header1,header2,header3 foo1,foo2,foo3 bar1,...

回答 1 投票 0

AWS Glue作业python脚本

我在不同的数据库中有两个表源和目标。我需要从源中插入目标中的新记录,更新现有记录并从目标表中删除记录。一世 ...

回答 1 投票 0

查询EMR-Presto和Athena之间的结果差异

我已将Glue目录连接到Athena和EMR实例(已安装presto)。我尝试在两者上运行相同的查询但是得到了不同的结果。 EMR给0行,但雅典娜给...

回答 1 投票 1

AWS Glue Crawler将json文件归类为UNKNOWN

我正在开发一个ETL作业,它将JSON文件摄取到RDS登台表中。我配置的爬虫只要它们的大小不超过1MB就可以对JSON文件进行分类。如果我缩小...

回答 2 投票 5

使用AWS Glue将CSV转换为ORC时如何排除分区?

我在S3中有一堆CSV文件,我试图使用AWS Glue中的ETL作业转换为ORC。我有一个爬虫程序,它爬行包含CSV的目录并生成一个表。表看起来......

回答 1 投票 0

何时通过AWS Glue ETL使用Amazon Redshift频谱来查询Amazon S3数据

由于AWS Glue ETL可以是python脚本,因此可以使用它来使用数据库接口执行SQL查询,并且可以将数据从Amazon S3加载到DynamicFrame中。我想知道什么时候......

回答 1 投票 0

如何使用pyspark从aws glue中的时间戳中提取Year

我需要从时间戳中获取年份,同时在aws glue中转换原始数据。以下是我正在尝试但不起作用的内容。从awsglue.unss导入awsglue.transforms import *导入sys ...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.