aws-glue-spark 相关问题

AWS Glue 缺少权限

我正在尝试使用 cloudformation 在 AWS Glue/Athena 中创建表。但是，我在 Cloudformation Events 面板中遇到以下错误：

将 AWS Glue 连接到本地 MySQL 时出现问题，是 AWS VPC 吗？

我在 AWS 外部托管的私有 Ubuntu 实例上运行 MySQL。我的 S3 存储桶中有几个 CSV 文件，我想使用 AWS Glue ETL 将其加载到我的 MySQL 数据库中。我其实在关注...

AWS Glue 错误 ModuleNotFoundError：没有名为“pyodbc”的模块

我想使用 python 脚本连接到 Microsoft SQL Server，该脚本将在 AWS Glue 上执行。我在安全配置->脚本库->作业参数（可选）中添加了作业参数...

Glue Dynamic Frame 比普通 Spark 慢得多

在下图中，我们使用三种不同配置运行相同的胶水作业，以了解如何写入 S3：我们使用动态帧写入S3 我们用纯spark框架写信给S...

无法在 AWS datalake/glue UI 中查看表

显示已创建表格的图像。（爬虫快照）即使爬网程序日志指出 - 已创建 2 个表，也无法在 AWS datalake/glue UI 中的数据库选项卡下查看表。 2020-09-...

如何在 Step Function 中包含 AWS Glue 爬网程序

这是我的要求：我在 AWS Glue 中有一个爬虫和一个 pyspark 作业。我必须使用步骤功能设置工作流程。问题：如何将 Crawler 添加为第一个状态。参数是什么...

AWS CloudWatch Logs 未创建

我正在尝试使用 AWS Glue 运行 ETL 作业，将数据从 Redshift 获取到 S3。当我运行爬网程序时，它成功连接到 Redshift 并获取架构信息。相关日志已创建...

Glue 数据库存在，但在数据目录中不可见

我在 AWS Glue 服务中偶然发现了一个奇怪的问题。我手动创建了一个数据库，然后将其删除。现在，当我尝试再次创建具有相同名称的数据库时，我得到以下信息：然而，有一个...

从 Java 下载和上传 AWS Glue ETL 的 ETL 作业

有人可以告诉我如何使用 Java API 下载或上传作业吗？我尝试搜索 SDK 或 REST API 来下载作业，但没有找到。有一个API可以删除作业，...

如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5？

我正在开发一个 PySpark ETL 管道应用程序，以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时，我使用本地 mas...

Spark中同规格硬件上本地处理和集群处理有什么区别？

本地模式 vs 集群模式我是一个刚刚使用EMR的新手。我正在使用 AWS EMR。有主节点、核心节点、任务节点。为什么要使用多核/任务？我不能只用一个吗？难道是……

Apache Spark Structured Streaming 中 Spark UI 上的查询和阶段卡住了

我在 EMR 集群 (6.14) 上使用 Apache Spark Structured Streaming (3.1.2)。 Spark 结构化流将数据从 Apache Kafka 流式传输到 Delta Lake 表。当我打开 Spark UI 时，我看到以下内容

Apache Spark 中的 join 和 cogroup 有什么区别

Apache Spark 中的 join 和 cogroup 有什么区别？每种方法的用例是什么？

kedro ipython，如何访问spark会话

我能够在 kedro ipython 会话中加载 Spark 数据集。首先，我按照此处所述配置了 Spark 会话。然后我用 ipython --ext kedro.extras.exten 启动了 kedro ipython 会话...

在 Spark 的作业之间移动执行器的开销？

我正在阅读一篇有关 Spark 作业调度的论文，我对他们对 Spark 的概述感到困惑： Spark作业由一个DAG组成，其节点是作业的执行阶段。每个阶段代表...

将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件，所以我首先将excel文件读入pandas数据帧，然后尝试将pandas数据帧转换为spark数据帧，但我得到了...

写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题（假设数据类型不正确）。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时，它失败了......

如何在intellij中设置和运行scala-spark？

我正在尝试运行使用 Intellij 来构建用 scala 编写的 Spark 应用程序。当我执行scala程序时，出现以下错误：线程“main”java.lang 中出现异常。

将 Spark-Submit 的路径传递到 Python 脚本中

我想将我在 Spark-submit 命令行命令中使用的路径传递到我的 Python 脚本中，以便在写出文件时使用。（注意：不是当前工作目录，也不是

无法将 Spark 数据帧写入 Mongo

使用 mongo-connector 版本 10.0.1 以下是我的配置 .config("spark.mongodb.write.connection.uri","mongodb://127.0.0.1:27017/") .config("spark.mongodb.write.database&

通过全局初始化脚本启用 Databricks 集群日志

我想通过全局初始化脚本为工作区中的所有集群（新的或旧的）设置集群日志传送。我尝试通过自定义 Spark conf 添加底层 Spark 属性 - /databricks/dri...

Datadog 中的 AWS Cloudwatch 警报

查看 Datadog AWS 集成文档，我发现提到 AWS 警报可以流式传输到 Datadog 中。据说您可以选择两种不同的方法发送AWS CloudWatch ...

使用 Nodejs18 运行时将 `@aws-sdk/client-bedrock-runtime` 导入 AWS Lambda 函数

我正在尝试使用 NodeJs18 运行时将 @aws-sdk/client-bedrock-runtime 导入到 AWS Lambda 函数中。该软件包应该可用，因为根据 AWS 文档，“对于 Node.js 版本......

有没有办法将图像的内容（存储在spark Dataframe中）与pyspark并行写入文件？

我有一个 Spark Dataframe，其中每一行都包含两个项目：文件名（带有扩展名，例如 .jpg）和文件的内容（以字节为单位）。我想写一个过程...

Spark SQL 不支持 JSONPATH 通配符的任何解决方法

spark.sql("""select get_json_object('{"k":{"value":"abc"}}', '$.*.value') as j""").show() 这会导致 null，而它应该返回 'a...

在结构化流 API 中跨多个集群使用共享 Kafka 主题执行 Spark 作业

我正在开发一个 Spark 项目，我需要在两个不同的集群上运行作业，两个集群都使用相同的 Kafka 主题。我希望这些作业能够有效地共享负载并平衡

除了 kotlin 中的 AWS cognito 之外，还有其他类似 cognito 的 AWS 方法可以用来登录吗？

我正在使用AWS appsync，我还将使用AWS进行登录。顺便说一下，我对AWS不是很熟悉，如果我用错了术语，请原谅我。有一种用于用户登录和认知的 AWS 认知方法

Spark：来自数组列的新数据框列

我有这个数据框： +---------+ | 数据| +---------+ |[a、b、c]| |[d, e, f]| |[g,h,i]| +---------+ 以及列名称列表 [“第一列”，“第二列”，“第三列...

如何在 Apache Spark scala 中读取 PDF 文件和 xml 文件？

我读取文本文件的示例代码是 val text = sc.hadoopFile(路径, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], sc.defaultMinPartitions) var rddwithPath = text.asInstan...

如何在 Cloud Composer 2 的 KerbenetesPodOperator 中指定非默认计算类

我正在 Cloud Composer 2 中使用 KurbenetesPodOperator 创建 pod 来执行 Spark 作业。默认情况下，当您使用

在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框，其中有一列，如下所示： +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...

使用 @aws-sdk/client-sqs npm 包从 EKS 集群 pod 推送到 AWS SQS 时出错

我在 AWS EKS 集群中使用 @aws/client-sqs npm 包将消息推送到标准 SQS 队列并收到以下错误： CredentialsProviderError：169.254.170.23 不是有效的容器我...

如何使用C#在AWS Lambda和API Gateway上部署Prince 13.5？

我一直按照本文 (https://medium.com/@bruce_39084/setting-up-prince-on-aws-lambda-and-api-gateway-4d524dcb035b) 中概述的步骤部署 Prince 13.5在 AWS Lambda 和 API Gat...

将 localstack 与 Spring Cloud AWS 2.3 一起使用时出现未知主机

“ResourceLoader”与 AWS S3 可以很好地处理这些属性：云：亚马逊： s3: 端点：s3.amazonaws.com <-- custom endpoint added in spring cloud aws 2.3 creden...

AWS sts 在一个命令中承担角色

要在 CLI 中承担 AWS 角色，我执行以下命令： aws sts 假设角色 --role-arn arn:aws:iam::123456789123:role/myAwesomeRole --role-session-name test --region eu-central-1 这给...

AWS EMR 集群中元数据的 AWS 粘合数据目录

我们计划使用AWS EMR集群来处理json和parquet文件。我有一个基本问题，我们真的需要 aws 数据目录来处理存储在 S3 中的 json 和 parquet 文件...

将架构从一个 AWS RDS 移动到另一个

我需要将架构及其对象从一个 AWS RDS 移动到另一个 AWS RDS 数据库。我过去曾使用过 AWS 架构转换工具 (SCT)。有没有更好的方法或者我正在做的事情...

有 aws dynamodb 的开源替代品吗？

我想从aws迁移到私有IDC。 aws dynamodb 服务应替换为一些数据库。我希望 dynamodb 替代方案可以与当前代码兼容或者只是做一些...

AWS Lambda 测试时出现关键错误。 API网关POST方法显示未找到消息

我正在尝试使用 AWS Lambda、AWS API Gateway、Amazon SNS 和 AWS Dynamodb 构建无服务器联系表单。我有一个网页，将姓名、电子邮件和电话号码作为表单输入。我是...

从spark/scala项目代码中资源文件夹中的sql文件读取查询

我在 IntelliJ 中的文件夹结构如下 src-->主-->资源-->sql-->samplequery.sql 我在文件夹 src--> main-->scala-... 中有 scala 对象文件samplequeryexecute

Spark：坚持没有按预期工作

我使用了 PySpark DataFrame，在其中调用了 UDF 函数。此 UDF 函数进行 API 调用并将响应存储回 DataFrame。我的目标是存储 DataFrame 并在...中重用它

pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("

Databricks Spark：java.lang.OutOfMemoryError：GC 开销超出限制 i

我正在 Databricks 集群中执行 Spark 作业。我通过 Azure 数据工厂管道触发作业，它以 15 分钟的间隔执行，因此在成功执行三到四次之后...

无法验证我的 ECR 的 AWS 凭证

我已经安装了最新版本的 aws-cli-2 和 docker，并运行了“aws configure”并输入了我的访问密钥和秘密密钥。我还验证了 aws.config 是正确的并且

Snowpark DataFrame：为什么同一个类方法有这么多同义词？

我怀疑这一定是为了向后兼容。我只是想找出背后的原因。 Snowpark DataFrame API 的灵感来自 Apache Spark DataFrame API。但为什么...

如何使用诗歌从 test.pypi.org 安装软件包？

我想在我的项目中使用包的预发布版本（https://test.pypi.org/project/delta-spark/2.1.0rc1/）。我正在使用诗歌来管理我的 pyproject.toml。我该怎么做呢？换句话说...

我在安装 pyspark 时遇到错误，如何修复它？

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中，出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。至

JUNIT 测试用例-Spark JDBC

我是 Java 编程的新手。我有一个从Oracle数据库读取数据的方法。现在我需要帮助使用 JUnit 框架为以下代码编写测试用例。数据集 df = Spark.read().

liip_imagine 使用 aws s3 生成错误的缓存 url（liip_imagine、vich_uploader、flysystem）

我目前在 liip_imagine 的配置上遇到问题。我的设置：交响乐6.4 vichuploader 2.3 利匹马嗪 2.12 联赛/飞行系统 aws/aws-sdk-php 我首先用fly安装了vichuploader...

在 Scala 2.12.10 和 Java 1.8 IDEA 中使用时，如何解决“Illegal circularinheritance涉及trait Iterable”编译错误？

看起来Scala编译器有冲突。该错误发生在 Scala 2.12.10、Spark 2.4.4 和 Java 1.8 IDEA 中的 val list1 = sc.makeRDD(List(1,2,3,4)) 中。导入 org.apache.spark.{SparkC...

aws-glue-spark 相关问题

最新问题