aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

如何格式化awsglue爬虫/数据框的字符串日期以正确识别为日期字段?

我有一些json数据(示例如下)。 awsgluecrawler读取此数据并使用表创建一个glue目录数据库,并将日期字段设置为字符串字段。有没有办法,我可以格式化数据...

回答 1 投票 0

AWS Redshift Specturum、AWS GLUE、AWS S3 私有 vpc

我有下一个挑战。 我有一个附加了策略的 S3 存储桶,如果该存储桶不是来自 VPC 端点,则该策略会拒绝对该存储桶的所有请求。基本上我让它只能在 VPC 内工作。 我有一个 AWS

回答 1 投票 0

在oracle 11g中使用standard_hash函数时出现无效标识符错误

我尝试根据字段生成哈希,但出现以下错误: 询问: 从 schema.table 中选择 standard_hash(pk_time) 错误: “STANDARD_HASH”:无效标识符 专栏ty...

回答 1 投票 0

在 awsglue studio 中遮盖数据

我正在 AWS Glue Studio 中构建 ETL 流程,在其中获取存储桶 s3 中的数据以删除一些字段。在此过程之后,我需要使用自定义转换来掩盖一些数据并且......

回答 3 投票 0

使用 AWS Glue 数据目录在 EMR 上运行 DBT Spark

我有一个带有 AWS EMR 的经典基础设施,其中 Spark 作业写入位于 S3 中的 hive 表,其中 hive 元存储设置为 AWS Glue DataCatalog。 现在我正在探索湖屋格式,苏...

回答 1 投票 0

AWS Glue 作业何时发送 STARTING 事件?

我有一项胶水作业,希望在作业开始运行时收到电子邮件提醒。根据文档,Glue 作业将向 Eventbridge 发送“Glue 作业运行状态”事件,例如“STARTING&q...

回答 1 投票 0

通过AWS Glue中注册的本地Spark SQL读取DeltaLake表

我在 S3 上存储的 AWS Glue Catalog 上注册了订单 Delta Lake 表。 val Spark = SparkSession.builder() .appName("GlueDeltaLakeExample") .master("本地") .

回答 1 投票 0

启用书签的 AWS Glue 作业,从 S3 CSV 文件读取相同数据

我之前配置了 AWS 胶水作业 现在,我在 CDK 中添加了选项,以便在使用 --job-bookmark-option 参数创建作业时启用/禁用/暂停书签 我已经在AWS co里验证过了...

回答 1 投票 0

类型错误:DynamicFrameWriter.from_jdbc_conf() 缺少 1 个必需的位置参数:'catalog_connection'

我遇到一个问题,在我的 awsglue 作业中运行更新查询时......我知道目前不可能直接使用 AWS GLUE 对 SQL 和 Mongo 在数据库中进行更新。 但是...

回答 1 投票 0

使用boto3获取数据库中的表列表

我正在尝试从我的 aws 数据目录中的数据库获取表的列表。 我正在尝试使用 boto3。 我在 aws 上的 sagemaker 笔记本中运行下面的代码。 它会永远运行(就像超过 30

回答 2 投票 0

在 Spark scala 中使用 for 循环和 Withcolumn 函数向数据帧添加列时出现 java.lang.StackOverflowError

我有一个 Spark 代码,它从配置文件中添加数据帧中的列,最后仅选择配置文件中的现有列来创建新的数据帧。 当我的钱更少时...

回答 1 投票 0

AWS Glue write_dynamic 框架会自动向某些记录添加双引号

我有这段代码可以将动态帧写入S3中的文件,但它也用双引号引起来一些记录。 关于如何禁用此功能有什么想法吗? format_options = {“optimizePerformance”:True,&q...

回答 2 投票 0

如何在 Athena 中为按日期分区的 CloudFront 日志创建表?

考虑 AWS 注入的 CloudFront 日志存储在 S3 中,其模式为: s3://aws-cloudfront-log-[AWS 账户 ID]/[我喜欢的任何前缀]/E[CloudFront 分配 ID].[年]-[月]-[日]-[小时].[...

回答 1 投票 0

无法在胶水作业中读取文本文件

我正在尝试从与代码位于同一包下的文本文件中读取架构,但无法使用 AWS 胶水作业读取该文件。我可以在本地加载该文件。我正在压缩代码文件...

回答 1 投票 0

使用 Glue ETL 进行跨区域 AWS Glue 数据目录访问

我在 us-west-2 区域有一个 Glue ETL 作业,该作业从该区域的 AWS Glue 数据目录的数据库中读取数据。例子 datasource0 =glueContext.create_dynamic_frame.from_catalog(database='my-da...

回答 1 投票 0

无法从 Quicksight 访问 Glue 表

创建数据源时未找到表。 如果选择自定义 sql,我会收到错误 - 没有足够的权限来执行查询。湖泊形成许可不足。 我的快捷服务...

回答 4 投票 0

AWS CLI `更新触发` CRON 格式

有人能发现我在这里做错了什么吗? > awsglue update-trigger --name MyTrigger --trigger-update '{"Schedule": "cron(0 0 * * ? *)"}' 用法:aws [选项] 有人能发现我在这里做错了什么吗? > aws glue update-trigger --name MyTrigger --trigger-update '{"Schedule": "cron(0 0 * * ? *)"}' usage: aws [options] <command> <subcommand> [<subcommand> ...] [parameters] To see help text, you can run: aws help aws <command> help aws <command> <subcommand> help Unknown options: *, *, ?, *)}, 0 我还尝试过使用 --cli-input-json 并将通配符替换为 0,但结果相同。 > aws glue update-trigger --name MyTrigger --cli-input-json '{ "Name": "MyTrigger ", "WorkflowName": "MyWorkflow", "Type": "SCHEDULED", "State": "ACTIVATED", "Schedule": "cron(0 0 * * ? *)", "Actions": [ { "JobName": "MyETL" } ]}' 我从 get-trigger 结果中得到了这个 cron 格式。 我需要转义 cron 定义中的括号吗? 您的 shell 解释 JSON 的方式存在问题。我会使用更简单的解决方案。试试这个: aws glue update-trigger --name MyTrigger --schedule "cron(0 0 * * ? *)"

回答 1 投票 0

如何解决使用 Spark 写入 Redshift 时出现的以下 AWS Glue 错误:“ORA-01722:无效数字”?

我正在尝试使用 PySpark 从 Oracle 数据库读取数据并写入 Redshift 表。 # 从Oracle中读取数据 oracle_df = Spark.read \ .format("jdbc") \ .option("url&qu...

回答 2 投票 0

如何解决使用 withColumn() 使用 substring() 从字符串中删除第一个字符时出现的“Column is not iterable”错误?

我正在尝试从数据帧 df_rotina_pro 中的某些列中删除第一个字符。但我收到以下错误: 列不可迭代。 代码: 变换后的_df = (

回答 1 投票 0

如何在 Terraform 中使用 GitLab CICD 变量

我正在尝试使用 Gitlab 和 Terraform 自动化 Glue 部署(在我们的 Gitlab 运行程序(EC2 实例)之一的 Docker 容器中运行)。 我知道我可以拥有秘密环境变量...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.