aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

如何从AWS Glue（PySpark）连接到Redshift？

我正在尝试连接到Redshift并从Glue DevEndpoint运行简单查询（这是必需的），但似乎无法连接。以下代码只是超时：df = spark.read \ .format（'jdbc'...

amazon-web-services amazon-redshift aws-glue

回答 1 投票 0

“由于超出内存限制而被YARN杀死的容器。”的错误发生。

ErrorMessage'：'调用o103.pyWriteDynamicFrame时发生错误。作业由于阶段故障而中止：阶段5.0中的任务0失败了4次，最近一次失败：阶段5.0中的任务0.3丢失（TID ...

apache-spark pyspark aws-glue

回答 1 投票 1

如何从外部在Amazon Glue中创建数据目录？

我想在Amazon Glue的外部创建数据目录。有什么办法吗？

amazon-web-services aws-glue aws-glue-data-catalog

回答 1 投票 -2

AWS Glue Crawler-数据目录表作为源-cloudformation

我正在尝试创建一个Crawler来扫描S3存储桶Parquet文件并更新Glue数据目录中现有表的分区信息。这是我正在谈论的确切功能。 https：// aws ....

amazon-web-services amazon-cloudformation aws-glue

回答 1 投票 0

从现有的AWS Glue爬网程序获取Cloudformation

是否可以通过现有的AWS Glue Crawler创建/获取/检索cloudformation资源json / yaml？如果是这样，我怎么得到它。如果没有，如何从现有的“抓取工具”中创建一个？编辑：...

java amazon-web-services amazon-cloudformation amazon-athena aws-glue

回答 1 投票 0

使用目录表中的架构创建动态框架

我已经通过API AWS胶水中的create_table在目录表中创建了表。通过此代码示例，以下代码在目录中创建表。当我从该表创建动态框架时，它是空的...

python boto3 boto aws-glue aws-glue-data-catalog

回答 1 投票 0

Cloudformation aws-glue内联命令

我的目标是通过cloudformation创建胶水作业。我正在处理的问题是Command属性似乎不支持内联代码（就像cloudformation lamba Code属性那样）。我的问题，...

amazon-cloudformation aws-glue

回答 1 投票 0

Data Lake AWS无服务器Amazon S3

我试图使用Amazon Simple Storage Service（Amazon S3）作为主要数据存储来构建无服务器数据湖。提取的数据位于我们称为原始区域的Amazon S3存储桶中。制作...

node.js amazon-s3 aws-lambda aws-glue

回答 1 投票 0

如何使用pyspark在aws胶水中嵌套json中的数组变平？

我正在尝试展平JSON文件，以便能够将其全部加载到AWS Glue中的PostgreSQL中。我正在使用PySpark。使用搜寻器搜寻S3 JSON并生成一个表。然后，我使用ETL Glue脚本执行以下操作：...

arrays json pyspark pyspark-sql aws-glue

回答 1 投票 0

AWS Glue Sagemaker笔记本“没有名为awsglue.transforms的模块”

我已经创建了一个Sagemaker笔记本来开发AWS Glue作业，但是在遍历提供的示例（“使用AWS Glue进行联接，过滤和加载关系数据”时，出现以下错误：是...

amazon-web-services aws-glue amazon-sagemaker

回答 2 投票 0

如何在数据加载之前截断AWS Glue作业中的RDS表？

我正在使用AWS Glue作为ETL将数据加载到RDS表，这是每日快照表，需要在当天加载数据之前将其截断。我在...

amazon-web-services etl aws-glue

回答 1 投票 0

AWS Glue IllegalArgumentException：'无效的类型名称uuid'

我正在尝试将具有UUID的表的一列ETL放入postgres表中，但是我正在努力将UUID列作为UUID类型加载到目标postgres表中。使用以下行的...

amazon-web-services aws-glue

回答 1 投票 0

如何将AWS Glue作业的输出返回给调用的Step Function工作流程？

AWS Step Functions允许调用AWS Glue作业，如下所述：https://docs.aws.amazon.com/step-functions/latest/dg/connect-glue.html我想运行作业并返回一些值就是...

amazon-web-services aws-glue aws-step-functions

回答 1 投票 0

如何将查询从Spark写入Redshift？

我通过SSH连接到Glue中的Dev Endpoint。目前正在运行Spark 2.4.1。我想运行一个简单的查询，选择* from pg_namespace;同样在那之后，要使用COPY ...

apache-spark amazon-redshift aws-glue

回答 1 投票 0

将Spark DataFrame保存到按日期划分的Parquet中

我有巨大的数据框，其中包含几列，其中之一是callDate（DateType）。我想将该数据帧保存到S3的实木复合地板上，并通过此call_date列对其进行分区。这将是初始加载...

apache-spark apache-spark-sql parquet aws-glue

回答 1 投票 1

在AWS胶中创建动态框架时如何忽略引号？

我在S3存储桶中有一个文本文件，我想使用它来创建动态框架。行看起来像这样：“ 0001”“ aaaa”有两列的简单文件。我只想制作一个具有两列的动态框架...

pyspark aws-glue

回答 1 投票 0

Glue_version和python_version在Terraform中不起作用

大家好，我正在使用terraform创建胶水作业。现在，AWS Glue现在支持在Apache Spark 2.4.3（使用Python 3）上运行ETL作业的功能。我要使用此功能。但是每当我...

aws-sdk terraform aws-glue

回答 1 投票 0

Spark Scala：访问数组内部的struct内部的数据

apache-spark apache-spark-sql aws-glue

回答 1 投票 0

AWS胶水作业-写入单个Parquet文件

我正在带有分区的S3存储桶中收集JSON格式的数据。示例：s3：//bucket/app-events/year=2019/month=9/day=30/0001.json s3：// bucket / app-events / year = 2019 / month = 9 / day = 30/0002 .json s3：// ...

amazon-web-services amazon-s3 amazon aws-glue

回答 1 投票 0

在指定的VPC内的AWS Glue中运行现有脚本

下面是我要建立的管道。 AWS S3 ---> AWS Glue --->雪花但是我不确定如何在特定的VPC中运行粘合作业。有人，请对此加以说明。

amazon-web-services aws-glue snowflake

回答 1 投票 -1

aws-glue 相关问题

最新问题