aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

我如何创建代理以在AWS Glue的Spark UI上查看作业?

我正在AWS Glue上运行Spark作业,我看到了YARN Web UI的URL(跟踪URL)。我不清楚如何创建代理来查看该跟踪站点,我希望使用该代理来找到我的跟踪站点...

回答 1 投票 9

如何从数据库模式的视图中提取数据到胶合的数据框中

我想在postgres数据库中的视图中创建和提取。我可以通过创建spark上下文并在粘合脚本中提取信息来做到这一点,但是我松开了数据分类...

回答 1 投票 0

HIVE_PARTITION_SCHEMA_MISMATCH

我从AWS Athena收到此错误:HIVE_PARTITION_SCHEMA_MISMATCH:表和分区模式之间不匹配。类型不兼容,不能强制。列'id'...

回答 1 投票 0

如何解决此HIVE_PARTITION_SCHEMA_MISMATCH?

我在S3上的CSV文件中对数据进行了分区:s3://bucket/dataset/p=1/*.csv(分区#1)... s3://bucket/dataset/p=100/*.csv (分区#100)我在s3:// bucket / dataset /上运行了一个分类器,并且...

回答 1 投票 0


AWS Glue Spark作业无法支持带双引号的大写列名

问题陈述/根本原因:我们正在使用AWS Glue将数据从生产PostGress数据库加载到AWS DataLake中。胶水在内部使用Spark作业来移动数据。但是,我们的ETL过程失败...

回答 2 投票 0

AWS Athena-查询从Glue搜寻器生成的大型外部表?

我在aws s3上有大量的历史记录文件集,这些记录总和达数十亿行,我使用了带有grok反序列化器的glue爬虫,在雅典娜上生成了一个外部表,但事实证明,查询它是...

回答 2 投票 0

从文件读取规则,并将这些规则应用于pyspark数据框行

我有一个规则书csv,数据看起来像这样:operator | lastname | operator | firstname | val等于| ABC |包含| XYZ | 2等于| QWE |包含| rty | 3,因此如果姓氏等于ABC ...

回答 1 投票 0

AWS Glue Crawlers:是否可以推断出更改的列名并将它们映射到数据目录中的预定义列名?

我需要从CSV文件中重复加载数据,该数据将以预定义的结构存储在输出文件/表中。但是,每次迭代中输入文件的列名都可以...

回答 1 投票 0

将MySQL更新语句转换为Amazon Glue

我有一个python脚本,可以使用MySQL清除CSV文件中的某些数据。我想将脚本转换成Glue可以使用的东西,但是我不知道可以与Glue一起使用的SQL语法。 ...

回答 1 投票 0

AWS胶JSON分类的数值

我已经成功地使用胶水抓取的JSON文件,结果是(几乎)如我所料的一群。然而,数字字段(从JSON)被编为字符串,而不是...

回答 1 投票 0

问题从MySQL读取位数据类型,并转化为与AWS胶红移

我有一个表中包含一列叫做活动是数据类型BIT的MySQL数据库。当转换为INT它可以取的值1,2或3.当使用在AWS履带胶它...

回答 2 投票 3

AWS胶履带创建分区和文件表

我有一个非常基本的S3设置,我想对查询使用雅典娜。这些数据都存储在一个桶中,组织成年/月/日/小时的文件夹。 | --data | | --2018 | | | --01 | ...

回答 2 投票 5

引用来自AWS胶作业中蜂房视图

我试图找出如何迁移使用情况下,从EMR到AWS胶涉及蜂巢意见。在今天EMR,我有实木复合地板在S3支持蜂巢外部表,和我有类似补充意见...

回答 1 投票 3

PySpark:如何添加,其数据来自查询列(类似于子查询每行)

我有一个假期表开始:结束日期:日期类型:枚举(4329 | LONG_WEEKENDS)一些示例数据:“开始”,“结束”,“类型”,“2019年1月1日”,“2019年1月1日”, “假日”,“2019年2月5日”,“2019年2月6日”,“假日”” ...

回答 1 投票 -1

AWS胶JDBC连接

看来,AWS胶“添加连接”只能特定的连接添加到一个数据库。我必须从连接MS SQL服务器的所有数据库。是否可以覆盖多个数据库,一个...

回答 2 投票 0

AWS胶 - S3 - 机Python

在AWS胶我该如何应对来自S3文件每星期会发生变化。例如:第1周:“filename01072018.csv”第2周:“filename01142018.csv”这些文件是在相同的格式,但我设置...

回答 2 投票 1

AWS胶执行内存限制

我发现,AWS胶设立执行程序的实例内存限制提高到5 Gb --conf spark.executor.memory = 5G和有时,它失败java.lang.OutOfMemoryError一个大的数据集。这同样适用于...

回答 5 投票 9

AWS glue:忽略JSON属性中的空格

我有一个包含JSON文件的数据集。这些JSON的一些条目在条目中有空格,如{'propertyOne':'something','property Two':'something'}我有这个数据集...

回答 2 投票 2

如何自定义AWS Glue Jobs的作业ID?

是否有任何选项可以使用自定义作业ID启动作业,而不是像“jr -.......”这样的长字符串。我需要捕获作业ID,但我希望它更短。可能吗?谢谢,

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.