apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

net.snowflake.client.jdbc.SnowflakeSQLException:JWT 令牌无效

我无法使用databricks中的pyspark连接雪花。 def readFromSnowflake(): 私钥=“” sf选项 = { “sfURL”:“挥洒......

回答 2 投票 0

Ibis 与 Spark 使用 DataFrame API 对分析数据仓库进行大数据处理?

想象一下以下场景: 我在分析数据仓库中托管了非常大的数据集 该仓库在处理大型分析工作负载方面非常高效,并且可以任意扩展 我...

回答 1 投票 0

Spark 历史记录服务器无法使用 Spark 3.2.3 或 Spark 3.5 加载事件

我在 kubernetes 上运行 Spark 历史服务器。它配置为从目录读取事件,我看到我的 Spark 作业在那里写入的事件。 Spark 历史服务器确实出现了,但没有显示...

回答 1 投票 0

为什么要读取 parquet 文件在 Spark UI 中创建作业?

我正在使用这个语句来读取pyspark中的parquet文件(稍后不使用任何显示函数或show方法)。当我转到 Spark UI 时,我可以看到正在创建一个作业。如何不使用任何

回答 1 投票 0

是否可以在工作节点上运行操作系统命令?

我们目前从源接收 gzip 压缩的 csv 文件。我们发现在继续加载青铜级文件之前使用gunzip 命令解压缩文件的性能更高。 为了(某种程度上)实现并行性...

回答 1 投票 0

Pyspark 转换导致内存不足问题

所以我有一个带有多列的 Spark 数据框,这些列是复杂的结构。我正在尝试根据另一个结构中字段的值来转换其中一个结构列中字段的值

回答 1 投票 0

在pyspark中并行化for循环;每次迭代一张表

我在 Databricks 中有几十个 Spark 表,大小在 ~1 到 ~20 GB 之间,并且想要在每个表上执行一个函数。由于每个结果之间不存在相互依赖性

回答 1 投票 0

如何在 Spark SQL 中向时间戳添加分钟?

我有一个 SQL Server 代码片段,其中存储过程。使用 DATEADD 函数将分钟添加到时间戳。这是代码: DATEADD(分钟,要添加的分钟数,时间戳列)AS new_time...

回答 1 投票 0

迁移到 python 3.12.2 在 Spark 数据帧创建期间会生成 PicklingError

我对spark、spark上下文元素和处理它们不是很有经验...请就以下问题提出建议: 我曾经运行过一个测试,涉及在 pyth 中创建模拟 Spark 上下文......

回答 1 投票 0

sparklyr 中堆空间不足,但内存充足

即使在相当小的数据集上,我也会遇到堆空间错误。我可以确定我没有耗尽系统内存。例如,考虑一个包含大约 20M 行和 9 列的数据集,并且 t...

回答 2 投票 0

运行 pyspark 命令时没有名为“pyspark.resource”的模块

我正在尝试在我的系统中第一次设置 Pyspark 环境。我在安装 Apache Spark 时仔细遵循了所有说明。我使用的是Windows 11系统。 当我运行

回答 1 投票 0

PySpark to_date 函数在一年中的第 1 周返回 null

当我在 to_date 函数中使用一年中的第几周时,一年中的第一周多年来都返回 null。 df=pyrasa.sparkSession.createDataFrame([["2013-01"],["2013-02"],["...

回答 3 投票 0

Spark 结构化流 - 检查点元数据无限增长

我使用spark结构流3.1.2。我需要使用 s3 来存储检查点元数据(我知道,这不是检查点元数据的最佳存储)。压缩间隔是10(默认),我设置了spar...

回答 2 投票 0

“java.lang.NoSuchMethodError:'scala.collection.JavaConverters$AsJava scala.collection”错误

我在这里陷入困境。我正在尝试实现一个非常基本的管道,它从 kafka 读取数据并在 Spark 中处理它。我面临的问题是 apache Spark 突然关闭,给出

回答 1 投票 0

Spark 保留临时视图

我试图保留一个临时视图,以便通过sql再次查询它: val df = Spark.sqlContext.read.option("header", true).csv("xxx.csv") df.createOrReplaceTempView(“xxx”) 坚持/cac...

回答 1 投票 0

pyspark 收集和采取第一个操作时出现异常

我是 pyspark 的新手,我正在学习初学者友好的课程,第一步是导入数据并根据分隔符逗号(“,”)进行分割,然后在尝试执行时分割数据

回答 1 投票 0

即使缺少某些行,如何查找特定窗口期的平均销售额

我想查找 Spark SQL 中商品过去 4 周的平均销售额。 物品 周数 销售量 1 202401 4 1 202402 6 1 202403 2 1 202404 6 2 202401 4 2 202402 1 2 202403 1 3 202401 8 我想要...

回答 1 投票 0

如何使用nohup从文件执行spark-shell?

我有一个 scala 脚本文件,它通过交互式 Spark-Shell 以经典方式成功执行:输入 Spark-Shell,粘贴脚本,等待完成。 我希望能够离开这个...

回答 6 投票 0

Helmchart 安装状态为成功,但未部署 pod

当 helm install 访问(下面提到的路径)时,找不到 HTTP 404,这些 http 调用是在执行命令 helm install connect-context ./connected-context2 -v=6 期间进行的,

回答 2 投票 0

如何在 Scala 中向 Delta 表添加注释?

我想向现有 Delta 表的列添加注释,而不必实际编写诸如“ALTER TABLE ALTER COLUMN”之类的 SQL 语句。是否可以仅使用 Scala 来完成?

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.