aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

如何在 Athena 中为按日期分区的 CloudFront 日志创建表？

考虑 AWS 注入的 CloudFront 日志存储在 S3 中，其模式为： s3://aws-cloudfront-log-[AWS 账户 ID]/[我喜欢的任何前缀]/E[CloudFront 分配 ID].[年]-[月]-[日]-[小时].[...

amazon-web-services aws-glue amazon-athena

回答 1 投票 0

无法在胶水作业中读取文本文件

我正在尝试从与代码位于同一包下的文本文件中读取架构，但无法使用 AWS 胶水作业读取该文件。我可以在本地加载该文件。我正在压缩代码文件...

python amazon-web-services aws-glue

回答 1 投票 0

使用 Glue ETL 进行跨区域 AWS Glue 数据目录访问

我在 us-west-2 区域有一个 Glue ETL 作业，该作业从该区域的 AWS Glue 数据目录的数据库中读取数据。例子 datasource0 =glueContext.create_dynamic_frame.from_catalog(database='my-da...

amazon-web-services aws-glue aws-glue-data-catalog aws-glue-spark

回答 1 投票 0

无法从 Quicksight 访问 Glue 表

创建数据源时未找到表。如果选择自定义 sql，我会收到错误 - 没有足够的权限来执行查询。湖泊形成许可不足。我的快捷服务...

amazon-web-services aws-glue amazon-athena amazon-quicksight

回答 4 投票 0

AWS CLI `更新触发` CRON 格式

有人能发现我在这里做错了什么吗？ > awsglue update-trigger --name MyTrigger --trigger-update '{"Schedule": "cron(0 0 * * ? *)"}' 用法：aws [选项] 有人能发现我在这里做错了什么吗？ > aws glue update-trigger --name MyTrigger --trigger-update '{"Schedule": "cron(0 0 * * ? *)"}' usage: aws [options] <command> <subcommand> [<subcommand> ...] [parameters] To see help text, you can run: aws help aws <command> help aws <command> <subcommand> help Unknown options: *, *, ?, *)}, 0 我还尝试过使用 --cli-input-json 并将通配符替换为 0，但结果相同。 > aws glue update-trigger --name MyTrigger --cli-input-json '{ "Name": "MyTrigger ", "WorkflowName": "MyWorkflow", "Type": "SCHEDULED", "State": "ACTIVATED", "Schedule": "cron(0 0 * * ? *)", "Actions": [ { "JobName": "MyETL" } ]}' 我从 get-trigger 结果中得到了这个 cron 格式。我需要转义 cron 定义中的括号吗？您的 shell 解释 JSON 的方式存在问题。我会使用更简单的解决方案。试试这个： aws glue update-trigger --name MyTrigger --schedule "cron(0 0 * * ? *)"

aws-cli aws-glue

回答 1 投票 0

如何解决使用 Spark 写入 Redshift 时出现的以下 AWS Glue 错误：“ORA-01722：无效数字”？

我正在尝试使用 PySpark 从 Oracle 数据库读取数据并写入 Redshift 表。 # 从Oracle中读取数据 oracle_df = Spark.read \ .format("jdbc") \ .option("url&qu...

oracle apache-spark pyspark amazon-redshift aws-glue

回答 2 投票 0

如何解决使用 withColumn() 使用 substring() 从字符串中删除第一个字符时出现的“Column is not iterable”错误？

我正在尝试从数据帧 df_rotina_pro 中的某些列中删除第一个字符。但我收到以下错误：列不可迭代。代码：变换后的_df = (

python apache-spark pyspark apache-spark-sql aws-glue

回答 1 投票 0

如何在 Terraform 中使用 GitLab CICD 变量

我正在尝试使用 Gitlab 和 Terraform 自动化 Glue 部署（在我们的 Gitlab 运行程序（EC2 实例）之一的 Docker 容器中运行）。我知道我可以拥有秘密环境变量...

terraform gitlab devops aws-glue cicd

回答 1 投票 0

通过“NETWORK”类型的 VPC 连接到 EC2 实例上的 SQL Server 时，AWS Glue 能否使用 PyODBC？

我在设置 PyODBC 时遇到了很大的困难，以至于我确信在我的情况下这是不可能的。我的情况是：我有一个使用 Python Shell 的 AWS Glue 作业。它连接...

python sql-server amazon-web-services aws-glue pyodbc

回答 1 投票 0

使用 Spark 写入 Redshift 时 AWS Glue 出错：ORA-01722：无效数字

我正在尝试使用 Pyspark 从 Oracle 数据库读取数据并写入 Redshift 表 # 从Oracle中读取数据 oracle_df = Spark.read \ .format("jdbc") \ .选项（“网址”，

oracle apache-spark amazon-redshift aws-glue

回答 1 投票 0

当我在脚本中发布请求时，AWS Glue 作业陷入运行状态

我是 AWS Glue 作业的新手，我有一个 slack URL，我想在其中执行发布请求以在我的机器人频道中发布消息。但是，当我在该 slack URL 上发出发布请求时，我的工作会保持运行状态......

amazon-web-services aws-glue aws-glue-connection

回答 1 投票 0

如何在胶水作业中获取元数据

我想从胶水作业中获取 s3 存储桶（带前缀）的元数据。就像我想获取文件名、创建时间、文件大小等。在我的胶水作业（pyspark）中，我正在将 csv 文件转换为镶木地板...

amazon-web-services amazon-s3 aws-glue

回答 1 投票 0

为什么spark .take(1)给出错误（第0年超出范围）？

我在 AWS Glue 中创建了 Spark df，没有标题，列的值为“0001-01-01-00.00.00.000000”或“0001-01-01-00”。不带标题的示例数据 0001-01-01-00 | 2022-07-09-13.24.60.000000 ...

apache-spark pyspark apache-spark-sql aws-glue

回答 1 投票 0

获取胶水作业运行详细信息

我被这个问题困扰很久了。我想要的输出是运行粘合作业，在粘合作业中我想获取现在开始的运行的粘合作业运行结束时间。有什么办法可以预...

amazon-web-services aws-api-gateway aws-glue

回答 1 投票 0

找不到AWS数据胶水爬虫表

我正在运行我的爬网程序，在日志中它显示已创建一个表并将其添加到也已创建的数据库中。然而，当我想检查表时，它不在那里。我发现了一些

amazon-web-services aws-glue aws-glue-data-catalog

回答 1 投票 0

有没有办法修改合并到 AWS Glue 工作流中的 AWS Glue 触发器的计划？

我创建了一个 AWS Glue 触发器，作为定期运行的 AWS Glue 工作流的一部分。我已经通过触发器成功设置了定期计划，没有任何问题，但现在我需要......

amazon-web-services aws-glue aws-glue-workflow

回答 2 投票 0

AWS Glue 如何调试无效的连接字符串？

我在 VPC 中设置了一个 documentDB，有 2 个私有子网（称为 A 和 B）。我通过选择适当的 VPC、子网 A 和具有子网访问权限的安全组来设置 Glue 连接。我是...

aws-glue aws-documentdb

回答 1 投票 0

无法通过Glue中的pyspark jdbc加载MongoDB atlas数据

我正在尝试使用 AWS Glue 中的 Pyspark 本机方式加载 MongoDB Atlas 数据。我可以通过 Ec2 实例连接到数据库并查看那里的数据。版本： MongoDB：5.0.26 JAR：mongo-spark-

mongodb amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

从 mongo 导入的包含 6 M 条记录的 pyspark 数据帧有两条记录为字符串 ('Error...' )，其余为 structytpe。无法写入 s3

我必须使用 AWS Glue 从 mongodb 导入数据。我成功导入glue动态框架中的数据并将glue df转换为spark df。结构数据类型中有一个字段从

mongodb apache-spark pyspark etl aws-glue

回答 1 投票 0

pySpark with Iceberg 保存多个小文件

我有一个 pyspark 作业在 Glue 上运行。我的工作处理数据并将其保存为 Apache Iceberg。问题是，保存表在分区内生成多个小文件。我测试了几种方法...

pyspark aws-glue apache-iceberg

回答 1 投票 0

aws-glue 相关问题

最新问题