AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。
我正在实习,需要使用 AWS Glue 来使用和实施 ETL。我成功地与包含数据的 RDS Aurora 数据库建立了 JDBC 连接,但是当我尝试创建
我们有glue,它使用pyspark load()从s3存储桶读取csv文件。 read_s3_files = Spark.read.format("csv") \ .option("标题", True) \ .选项(“
根据模式读取 Spark DataFrame 中的数据,但不区分大小写
我在sparkconf中设置了“spark.sql.caseSensitive”,“False”。 这就是我创建架构的方式: 架构={ “类型”:“结构”, “字段”:[ ...
我在胶水桌上无法压实。 我创建了一个 Glue 数据库和一个 Glue 表。 我有一个 S3 存储桶设置。 我已在 Glue 仪表板中启用了表优化
pyspark 在 python 中写入 csv 时默认修剪所有字段
我正在尝试使用spark 3.3、Scala 2 python代码将数据集写入csv文件,默认情况下它会修剪所有字符串字段。例如,对于下面的列值: “文本123”,&
如何在 AWS Glue 架构注册表中安装自定义 protobuf 包?
我正在考虑使用 AWS Glue 的架构注册表来托管我的所有 protobuf 模型。我目前正在遵循这个例子。在他们的 Employee.proto 中,我看到他们正在从 googl 导入包...
AWS Glue 是否直接从 EventBridge 接受事件?
您可以将事件直接从AWS事件桥传递到AWS胶水吗? AWSglue是否每次都会创建一个新的集群来处理事件?该事件的处理时间是多少?
如何通过 terraform 设置/传递环境变量到 awsglue 脚本?
我正在通过 terraform 和 python 文件在 aws 中设置一个粘合作业,该文件对数据进行 ETL(参见下面的示例)。我如何将环境变量从我的 terraform 代码传递到我的脚本,例如......
我有一些 ETL 代码,我读取 csv 数据将它们转换为数据帧,在使用 pyspark RDD(弹性分布式数据集)通过地图对数据进行某些转换后组合/合并数据帧...
如何使用 python 从 Lambda 函数在单个查询中查询多个 AWS Athena 数据库?
我正在尝试构建一个 Python Lambda 函数,该函数使用 AWS Wrangler Python 库从多个 Athena 数据库中提取数据。 wr.athena.read_sql_query('跨数据库sql查询', '其中一个
awsglue.utils.GlueArgumentError:参数 --JOB_NAME 是必需的
当我使用 Python 在 AWS Glue 中运行 Glue 作业样板时,出现错误 导入系统 从 awsglue.transforms 导入 * 从 awsglue.utils 导入 getResolvedOptions 从 pyspark.context 导入
我有 s3 文件夹,它是使用 Python shell 脚本手动创建的 我的 s3 文件夹如下所示 s3://my_bucket/landing_zone/year=2024/month=10/day=01/sales/file.csv s3://my_bucket/landing_zone/是...
Glue Spark:某些任务有 0 条记录用于洗牌,但某些任务有磁盘溢出
我有一个 Spark 作业,其中某些任务的记录输出为零,并且随机播放读取大小,其中某些任务有内存和磁盘溢出。有人可以帮我做什么来优化执行吗? 执行...
我正在尝试使用 AWSglue 3.0 上的 Great Expectations 在管道中进行验证。 这是我根据他们的文档在运行时创建数据上下文的初步尝试 def create_context(): 瞧...
使用 MongoDb 与 AWSglue 的问题 - 我创建了一个到数据库的连接(使用 MongoDb 连接选项)并针对它运行一个爬虫,一切正常,但是当我尝试使用它时...
如何通过 terraform 提供 awsglue 作业参数?
我正在通过 terraform 在 aws 中设置粘合作业(示例如下)。基于此处的文档 - https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html,任何其他 p...
使用来自awsgluedocker容器的python解释器在Pycharm中未解决的引用pyspark
我已设置 AWSglue 容器以在本地处理我的 etl 作业。代码可以毫无问题地运行。然而,Pycharm 代码分析告诉我,pyspark 没有安装,尽管它已经安装了,而且......
我使用 Amazon redshift 创建了一个集群。使用此连接,我打开查询编辑器来创建外部表 创建外部架构 dynamodb_external_table2 FROM 数据目录 数据库“开发”
如何将pyspark daframe保存为jsonl/json文件?
为此问题设计的示例。我有一个 pyspark 数据框,为了方便起见,我对数据进行了硬编码,但我有一堆 csv 文件读入数据框。我可以将数据帧保存为 json ...
我是 pyspark 和 awsglue 的新手。我根据我看到的示例编写了小脚本,将 csv 文件读取为动态 pyspark 框架。我想知道,如何读取多个 csv 文件或所有 csv 文件...