aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

JDBC连接失败

我正在尝试通过JDBC将AWS Glue连接到Azure SQL Server。我已经尝试了jdbc url的不同设置但没有成功。 URL的外观如下:jdbc:sqlserver://domain.windows.net:1433 / ...

回答 2 投票 0

即使在成功完成代码完成后,AWS Glue也会发出错误

我用于在AWS Glue中创建和运行作业的Python代码是:from datetime import datetime,timedelta from time import sleep import boto3 glue = boto3.client(service_name ='glue',...

回答 1 投票 0

将时间戳字段转换为日期类型,并将其用作AWS Glue ETL中的分区

我正在尝试在csv中的一个字段上创建一个分区,并使用Glue ETL(python)将其存储为镶木地板。问题是,这个字段是一个时间戳,所以在创建分区之前,我想提取...

回答 1 投票 1

参数化/可重复使用的AWS胶水作业

我是AWS的新手,我正在尝试创建一个参数化的AWS Glue作业,它应该有输入参数:数据源数据大小计数变量列表以前有人做过类似的事吗?

回答 2 投票 0

AWS Glue与其Dev Endpoint之间的差异

我的理解是AWS Glue中的Dev Endpoints可用于迭代开发代码,然后将其部署到Glue作业。我发现这在开发Spark工作时特别有用,因为每次你......

回答 1 投票 0

AWS Glue执行者死亡

我正在以这种方式使用AWS Glue DynamicFrame从S3读取镶木地板文件:sources = glue_context \ .create_dynamic_frame \ .from_options(connection_type =“s3”,connection_options = {'...

回答 1 投票 0

AWS Glue谓词下推条件无效

我有一个MySQL源代码,我正在创建一个具有谓词下推条件的Glue Dynamic Frame,如下所示datasource = glueContext.create_dynamic_frame_from_catalog(database = ...

回答 1 投票 2

AWS Glue书签:运行作业与触发器

我想知道是否为具有书签功能的特定作业启用了如果我使用触发器运行替换运行作业,它如何工作逻辑。示例我使用“运行作业”按钮手动运行我的作业并...

回答 1 投票 0

使用AWS Glue Jobs将缺少的列值设置为默认值

我正在尝试使用Glue从dynamodb提取数据集到s3。在此过程中,我想选择少量列,然后为具有缺失值的任何和所有行/列设置默认值。 ...

回答 1 投票 0

从EMR迁移到AWS Glue后,Spark SQL中找不到表

我在EMR上有Spark作业,EMR配置为使用Glue目录来获取Hive和Spark元数据。我创建了Hive外部表,它们出现在Glue目录中,我的Spark作业可以......

回答 2 投票 0

在使用AWS Glue Catalog生成的表上查询AWS Athena时,“不支持类型LIST”

我编写了一个ETL作业,将一堆JSON文件转换为存储在S3上的时间分区镶木地板文件(对象)。而不是在AWS Athena上手动创建表并使用Athena数据目录,...

回答 1 投票 2

如何关联包含JSON的数组

我正在使用AWS Glue读取包含JSON的数据文件(在S3上)。这是一个包含在数组中的数据的JSON。我尝试过使用relationalize()函数,但它不适用于数组。它确实有效......

回答 1 投票 0

如何在Terraform中定义AWS胶水设置

所以我可以登录AWS控制台并在左侧面板上选择 - > Glue - > Settings - >定义我的策略,例如{Version:.... Statement:[...]}如何在terraform中实现这一点?现有的地形资源......

回答 1 投票 0

使用AWS Glue从S3 - > RDS移动数据

AWS Glue是否提供将数据从S3存储桶移动到RDS数据库的能力?我正在尝试设置无服务器应用程序,以获取上传到S3的动态数据并将其迁移到RDS。胶水提供爬行者......

回答 1 投票 0

如何使用AWS Glue从S3导入JSON数据?

我在AWS S3中存储了一大堆以JSON格式存储的数据。它看起来像这样:s3://my-bucket/store-1/20190101/sales.json s3://my-bucket/store-1/20190102/sales.json s3:// my-bucket / store-1 / ...

回答 2 投票 0

AWS Glue作业将列合并到时间戳中

我很擅长使用AWS Glue和Spark。我正在尝试运行ETL作业,因此我的数据当前被解析为三个单独的列(年,月和日),我需要将这些列合并到一个...

回答 1 投票 0

AWS Glue:由于缺少元数据,无法启动作业运行

为了使用boto3运行作业,文档说明只需要JobName。但是,我的代码:def start_job_run(self,name):print(“通过客户端运行的作业的名称是:{...

回答 2 投票 0

如何在加载到AWS Athena时使csv文件的第一行成为列名?

我正在使用Glue将csv从S3存储桶移植到AWS的Athena,并且列的标题只是默认的'col0','col1'等,而列的真正标题是在第一个...

回答 1 投票 1

ETL:在AWS粘合作业中展平嵌套数组

我目前正在尝试使用AWS Glue导入存储在json中的数据。 jsons包含一个属性'tags',定义为一个字符串数组。我最初已经导入了没有标签的表格......

回答 1 投票 1

如何找出AWS Glue中使用的PySpark版本?

我正在使用AWS Glue + PySpark连接到AWS中的Oracle。如何找出正在使用的PySpark版本?

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.