aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

解密AWS胶内存和度量标准

我试图找出我的AWS Glue工作指标的含义,以及可能的失败原因从第二个图表我注意到驱动程序内存(蓝色)保持相对稳定而某些执行程序...

回答 2 投票 0

AWS胶水增量负载

我有一个S3存储桶,日常文件被丢弃。 AWS抓取工具从此位置抓取数据。在我的胶水作业运行的第一天,它会获取表格中的所有数据......

回答 1 投票 2

如何通过Glue在AWS Athena中查询嵌套的XML文件

我希望嵌套的XML文件使用AWS胶水从AWS Athena进行查询。 99988881111 25.0 &...

回答 1 投票 0

用于aws Glue / Redshift的预过滤解决方案(在加载到S3之前)

我正在研究aws从Redshift表(或视图)到Redshift表的Glue预定转换脚本。我的一些表是巨大的,我不想将整个表加载到S3文件或...

回答 1 投票 0

如何在没有dev端点的情况下测试AWS Glue代码

我想避免AWS dev端点。有没有办法在不使用AWS dev端点的情况下测试和调试我的PySpark代码,并在本地笔记本/ IDE中测试我的代码?

回答 4 投票 2

我们可以在aws DMS中执行sql查询吗?

我们可以在DMS任务中执行sql查询,以便它只获取所需的数据而不是整个数据库。如果不可能,则使用哪个aws服务从本地数据中获取基于查询的数据...

回答 2 投票 0

AWS Glue Bookmark生成重复项

我正在向Glue Job提交一个Python脚本(实际上是pyspark)来处理镶木地板文件并从该数据源中提取一些分析。这些镶木地板文件存在于S3文件夹中并且不断...

回答 1 投票 0

Snowflake:SQL访问控制错误:对架构进行操作的权限不足

我写了aws glue job,我试图将雪花表读作spark数据帧,并尝试将spark数据帧写入雪花表。我的工作是失败说“不足......

回答 1 投票 0

尝试运行爬网程序时,AWS Glue Tutorial失败

我正在尝试运行AWS Glue教程。我可以完全访问所有AWS服务。当我尝试运行爬虫时,它会向我返回以下消息:“aws_glue / AWS-Crawler无权...

回答 1 投票 0

AWS胶水和跨区域访问

我有一些关于AWS Glue的问题,我希望有人可以为我解答。所以情况是我们在us-east-1区域设置了AWS账户,我们使用AWS EMR和Glue作为......

回答 1 投票 1

在AWS Glue中读取配置文件

我在部署到AWS Glue之前创建了一个Glue Dev Endpoint来测试我的代码。下面,您将找到项目架构的屏幕截图。在gluelibrary中的项目布局/有config.ini我...

回答 1 投票 0

AWS Glue - 如何从S3抓取Kinesis Firehose输出文件夹

我认为应该是AWS Glue的一个相对简单的用例,但我在确定如何实现它时遇到了很多麻烦。我有一个Kinesis Firehose工作将流数据转储到...

回答 4 投票 0

当文本文件加载到S3存储桶时,如何使用Lambda函数调用Glue函数(ETL)

我正在尝试设置一个lambda函数,当.txt文件上传到S3存储桶时激活Glue函数,我正在使用python 3.7到目前为止我有这个:来自__future__ import print_function ...

回答 2 投票 2

如何在aws粘合中读取非utf-8编码的表?

这是一个用于读取csv文件(scala)的代码:val input = glueContext .getCatalogSource(database =“my_database”,tableName =“my_table”)。getDynamicFrame()哪个失败,不清楚...

回答 1 投票 2

可以在实例运行时修改AWS Glue脚本

这是一个我无法找到答案的一般性问题。可以在实例ID运行时修改AWS Glue脚本。编辑脚本是否会影响...

回答 1 投票 0

想要清楚关于AWS Glue的大图

我想清楚一下以下几个方面关于aws Glue的大图。 AWS Glue如何准备和配置其基础架构?然而,它是无服务器,但它如何管理它?怎么样 ...

回答 1 投票 -2

如何使用ODBC连接器连接胶水ETL / Spark中的关系数据库

我需要在AWS生态系统中使用ODBC Connector从RDBMS中提取数据。 AWS Glue不提供ODBC连接。如何使用spark中的ODBC驱动程序将我的spark代码与Relational DB连接起来。一世 ...

回答 1 投票 0

AWS Glue完成后,如何执行SQL脚本或存储过程?

我正在学习AWS Glue。对于传统的ETL,常见的模式是从目标表中查找主键,以确定是否需要执行更新或插入(也称为upsert设计模式)。 ...

回答 1 投票 0

如何在转换数据类型时使“applymapping”正常工作

我的问题是我的ETL作业中的特定列没有转换为搜索到的数据类型,这意味着每次运行作业并稍后爬网(每天)时,数据类型为“字符串”并且......

回答 1 投票 0

Terraform AWS Athena将Glue目录用作db

我很困惑我应该如何使用terraform将Athena连接到我的Glue Catalog数据库。我使用资源“aws_glue_catalog_database”“catalog_database”{name =“$ {var.glue_db_name}”} ...

回答 2 投票 6

© www.soinside.com 2019 - 2024. All rights reserved.