aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

如何从AWS Glue(PySpark)连接到Redshift?

我正在尝试连接到Redshift并从Glue DevEndpoint运行简单查询(这是必需的),但似乎无法连接。以下代码只是超时:df = spark.read \ .format('jdbc'...

回答 1 投票 0

“由于超出内存限制而被YARN杀死的容器。”的错误发生。

ErrorMessage':'调用o103.pyWriteDynamicFrame时发生错误。作业由于阶段故障而中止:阶段5.0中的任务0失败了4次,最近一次失败:阶段5.0中的任务0.3丢失(TID ...

回答 1 投票 1

如何从外部在Amazon Glue中创建数据目录?

我想在Amazon Glue的外部创建数据目录。有什么办法吗?

回答 1 投票 -2

AWS Glue Crawler-数据目录表作为源-cloudformation

我正在尝试创建一个Crawler来扫描S3存储桶Parquet文件并更新Glue数据目录中现有表的分区信息。这是我正在谈论的确切功能。 https:// aws ....

回答 1 投票 0

从现有的AWS Glue爬网程序获取Cloudformation

是否可以通过现有的AWS Glue Crawler创建/获取/检索cloudformation资源json / yaml?如果是这样,我怎么得到它。如果没有,如何从现有的“抓取工具”中创建一个?编辑:...

回答 1 投票 0

使用目录表中的架构创建动态框架

我已经通过API AWS胶水中的create_table在目录表中创建了表。通过此代码示例,以下代码在目录中创建表。当我从该表创建动态框架时,它是空的...

回答 1 投票 0

Cloudformation aws-glue内联命令

我的目标是通过cloudformation创建胶水作业。我正在处理的问题是Command属性似乎不支持内联代码(就像cloudformation lamba Code属性那样)。我的问题,...

回答 1 投票 0

Data Lake AWS无服务器Amazon S3

我试图使用Amazon Simple Storage Service(Amazon S3)作为主要数据存储来构建无服务器数据湖。提取的数据位于我们称为原始区域的Amazon S3存储桶中。制作...

回答 1 投票 0

如何使用pyspark在aws胶水中嵌套json中的数组变平?

我正在尝试展平JSON文件,以便能够将其全部加载到AWS Glue中的PostgreSQL中。我正在使用PySpark。使用搜寻器搜寻S3 JSON并生成一个表。然后,我使用ETL Glue脚本执行以下操作:...

回答 1 投票 0

AWS Glue Sagemaker笔记本“没有名为awsglue.transforms的模块”

我已经创建了一个Sagemaker笔记本来开发AWS Glue作业,但是在遍历提供的示例(“使用AWS Glue进行联接,过滤和加载关系数据”时,出现以下错误:是...

回答 2 投票 0

如何在数据加载之前截断AWS Glue作业中的RDS表?

我正在使用AWS Glue作为ETL将数据加载到RDS表,这是每日快照表,需要在当天加载数据之前将其截断。我在...

回答 1 投票 0

AWS Glue IllegalArgumentException:'无效的类型名称uuid'

我正在尝试将具有UUID的表的一列ETL放入postgres表中,但是我正在努力将UUID列作为UUID类型加载到目标postgres表中。使用以下行的...

回答 1 投票 0

如何将AWS Glue作业的输出返回给调用的Step Function工作流程?

AWS Step Functions允许调用AWS Glue作业,如下所述:https://docs.aws.amazon.com/step-functions/latest/dg/connect-glue.html我想运行作业并返回一些值就是...

回答 1 投票 0

如何将查询从Spark写入Redshift?

我通过SSH连接到Glue中的Dev Endpoint。目前正在运行Spark 2.4.1。我想运行一个简单的查询,选择* from pg_namespace;同样在那之后,要使用COPY ...

回答 1 投票 0

将Spark DataFrame保存到按日期划分的Parquet中

我有巨大的数据框,其中包含几列,其中之一是callDate(DateType)。我想将该数据帧保存到S3的实木复合地板上,并通过此call_date列对其进行分区。这将是初始加载...

回答 1 投票 1

在AWS胶中创建动态框架时如何忽略引号?

我在S3存储桶中有一个文本文件,我想使用它来创建动态框架。行看起来像这样:“ 0001”“ aaaa”有两列的简单文件。我只想制作一个具有两列的动态框架...

回答 1 投票 0

Glue_version和python_version在Terraform中不起作用

大家好,我正在使用terraform创建胶水作业。现在,AWS Glue现在支持在Apache Spark 2.4.3(使用Python 3)上运行ETL作业的功能。我要使用此功能。但是每当我...

回答 1 投票 0

Spark Scala:访问数组内部的struct内部的数据

模式看起来像这个根|-orderitemlist:array(nullable = true)| |-元素:struct(containsNull = true)| | |-内部材料代码:字符串(nullable = true)| | |-批号:...

回答 1 投票 0

AWS胶水作业-写入单个Parquet文件

我正在带有分区的S3存储桶中收集JSON格式的数据。示例:s3://bucket/app-events/year=2019/month=9/day=30/0001.json s3:// bucket / app-events / year = 2019 / month = 9 / day = 30/0002 .json s3:// ...

回答 1 投票 0

在指定的VPC内的AWS Glue中运行现有脚本

下面是我要建立的管道。 AWS S3 ---> AWS Glue --->雪花但是我不确定如何在特定的VPC中运行粘合作业。有人,请对此加以说明。

回答 1 投票 -1

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.