AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。
是否可以创建AWS胶水分类器,它可以将csv文件转换为管道分隔
我想将每月Feed转换为使用AWS Glue Crawler从csv转换为管道分隔。是否可以创建一个可以将csv文件转换为管道分隔的分类器(使用Grok或...
在AWS中创建Glue作业时如何修复资源编号LimitExceededException?
我正在尝试创建AWS Glue作业,创建失败,出现以下异常:{“service”:“AWSGlue”,“statusCode”:400,“errorCode”:“ResourceNumberLimitExceededException”,“requestId”:“XXXX”,“ ...
定期安排AWS Glue爬虫的用途是什么。运行一次似乎就足够了
我已经根据S3存储桶的内容创建了一个AWS胶水表。这允许我使用AWS Athena查询此S3存储桶中的数据。我已经定义了一个AWS Glue抓取工具并运行一次以自动确定...
从PySpark批量加载到AWS RDS(postgres)
我正在寻找一个批量加载器,用于将胶水作业加载到RDS,使用PySpark脚本和DataFormatWriter。我有这个为RedShift工作如下:df.write \ .format(“com.databricks ....
我已经在亚马逊EMR上工作了一年多,但最近我们已经转向使用aws胶水进行数据处理。我很难理解dpus和max之间的关系......
我正在对AWS Glue与AWS EMR进行一些定价比较,以便在EMR和Glue之间进行选择。我已经考虑了6个DPU(4个vCPU + 16 GB内存),ETL作业运行10分钟...
AWS Glue Catalog作业上的MSCK Repair Command
我们是否可以安排AWS Glue作业执行MSCK修复命令,以便将新添加的分区的元数据添加到Glue目录中?可以Glue ETL脚本执行MSCK REPAIR TABLE命令...
我有一个由数十亿(20)条记录组成的巨大表格,我的源文件作为输入是目标镶木地板文件。我每天都会收到一个delta传入文件来更新Target中的现有记录...
我在S3中有按类别和日期分区的数据,如下所示:s3://mybucket/category=1/date=2018-08-30/data1.json s3:// mybucket / category = 1 / date = 2018- 08-31 / data2.json s3:// mybucket / category = 2 / ...
如何获取当前Glue作业执行的区域?当胶水作业开始执行时,我看到输出检测区域eu-central-1。在AWS Lambda中,我可以使用以下内容......
我目前有一个大数据架构,其中一些数据管道生成数据输出并将其存储在AWS S3上。我还有一个内部元数据存储,我跟踪每个S3网址和...
我有一张表,其中包含几个不同工作的时间表。我想处理记录并通过AWS Glue API创建触发器。 http://docs.aws.amazon.com/glue/latest/dg/aws-glue-api.html ......
AWS粘合剂每次都会将完整数据从源复制到目标,即使有书签也是如此
我在aws glue控制台中从向导生成了一个胶水作业。我没有在生成任务时更改默认脚本。它从posgres数据库表(源)获取数据并写入......
我们正在使用一些ETL评估AWS Glue的大数据项目。我们添加了一个爬虫程序,它正在从S3中正确地获取CSV文件。最初,我们只想将CSV转换为JSON,然后放弃......
是否可以使用Jupyter Notebook for AWS Glue而不是Zeppelin
我开始使用AWS Glue作为我的数据ETL。我已经将我的数据源导入到我的AWS数据目录中,并且即将为我的一个特定Postgres数据库中的数据创建一个作业...
我可以使用AWS Glue将S3上的json数据转换为柱状格式并将其推送到Redshift吗?
我在S3上有嵌套JSON格式的数据,不断更新。我希望数据在转换后定期将此数据推送到Redshift集群。 AWS Glue可以帮助您配置...
我使用aws glue crawler创建了一个带有表的数据库。在athena,我无法选择该数据库/表进行查询。我认为问题可以在服务区域位置。我的设置是下一个:s3 csv ...
我正在尝试从glue pyspark脚本中的s3存储桶中检索JSON文件。我在aws glue中的作业中运行这个函数:def run(spark):s3_bucket_path ='s3:// bucket / data / ...