pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

有没有一种安全的方法来覆盖流增量表?

我需要使用 PySpark 完全覆盖流增量表而不弄乱检查点,有没有安全的方法可以做到这一点?我不需要保留之前增量版本的任何版本。

回答 1 投票 0

从 postgres 输出将 .csv 文件加载到 databricks 时出现问题

我从 postgres 数据库中的两个表中提取了一些数据作为 .csv 文件。当我尝试将数据加载到数据块中时,它说它无法确定架构。然后我创建架构和 loa...

回答 1 投票 0

java.lang.NoClassDefFoundError: org/apache/hadoop/fs/impl/prefetch/PrefetchingStatistics 运行 pyspark 时

我正在尝试使用连接到 s3 和 athena 的 pyspark 运行简单的代码。 我收到以下错误: 回溯(最近一次调用最后一次): 文件“/hood/bennys/git/sbr-thomas/thomas/spark_ma...

回答 1 投票 0

使用 Azure 服务主体和 MSAL 通过 PySPark JDBC 驱动程序从 DataBricks Python 笔记本连接到 MS SQL Server 时出现令牌(访问)错误

使用 Azure/DataBricks 服务主体和 MSAL 通过 PySPark JDBC 驱动程序从 DataBricks Python 笔记本连接到 MS SQL Server 时,如何解决令牌(Active Directory 访问)错误 (

回答 1 投票 0

如何使用 JDBC 和 SSL 连接远程 Hive 服务器?

我有以下 Hive 的 JDBC URL,我可以从 Beeline 连接。我想知道如何使用 Python 连接到同一 Hive 服务器。 下面是我从 Beeline 使用的命令来连接到...

回答 1 投票 0

如何从 sql 中的一组范围构造不同的日期范围

我有一个表,其中包含我关心的布尔字段,以及这些字段相关的日期范围。这些日期范围可以重叠,可以完全位于其他日期范围之内,并且可以...

回答 1 投票 0

无法使用 pyspark 对从 Azure Databricks 中的 jsonl 文件读取的数据强制执行架构

我正在尝试构建一个 ETL 管道,在该管道中我从 azure blob 存储中读取 jsonl 文件,然后尝试将其转换并加载到 databricks 中的增量表中。 我创建了以下方案...

回答 1 投票 0

无法使用秘密范围从 Azure 存储帐户读取/列出到 Databricks 笔记本中

尽管我已经检查并测试了我的 Azure 存储帐户中的 blob url 路径,但我仍然收到:无法解析主机名。就像我的秘密瞄准镜不起作用一样。这是...

回答 1 投票 0

ValueError:某些类型推断后无法确定

我正在尝试创建一个 Spark 数据框,以便我可以将数据插入到已经定义的模式 SQL 数据库中。 data=[{'媒体': 'Twitter','社交 ID':screen_name, “订阅者姓名”:

回答 1 投票 0

Spark 分桶蜂巢 Metasore

我有两个分桶表,它们分桶在同一列名称上。 Spark 执行器如何将具有相同 id 分布的文件挑选到同一台机器中?Metastore 有什么帮助?

回答 1 投票 0

Spark 传入 JSON 流处理

我一直在尝试完成一个项目,其中我需要使用kafka将数据流发送到本地Spark来处理传入的数据。但是我无法显示和使用右侧的数据框...

回答 1 投票 0

Pyspark - 无法在 Windows 11 上使用 df.show() 显示 DataFrame 内容

我已按照官方文档在本地 Windows 11 计算机上设置 Apache Spark。 此设置包括: 正确安装 Apache Spark、设置环境变量等。 创造...

回答 1 投票 0

为什么 SparkUI 在“作业”选项卡下仅显示 DAG 中的操作,而不显示任何转换?

我有一个简单的程序 - lines = sc.parallelize(['a','b','c','d']) lines.map(myfunct1).flatMap(flatmapfunc).map(myfunct2).collect() 当我在 Spark 中提交这个程序并查看 ...

回答 1 投票 0

PySpark 应用程序返回“NoClassDefFoundError:com/datastax/spark/connector/util/Logging”

我遇到了这个错误: py4j.protocol.Py4JJavaError:调用 o59.start 时发生错误。 :java.lang.NoClassDefFoundError:com/datastax/spark/connector/util/Logging 在 java.base/java.lang.

回答 1 投票 0

计算 pyspark 中两个不同时间序列列的滚动计数

我有一个包含两列的 pyspark 数据框。到达和离开。这个想法是计算落在基于到达计算的指定窗口内的出发事件的数量...

回答 1 投票 0

PySpark FuzzyWuzzy UDF 在小数据集上导致超时错误/在 PySpark 中过滤具有 Fuzzy Wuzzy 相似度分数的列时出现超时错误

我正在开发一个 PySpark 脚本,以使用 FuzzyWuzzy 计算列之间的相似度分数。我为此定义了一个 UDF,并使用 for 循环来迭代元数据中指定的列...

回答 1 投票 0

Databricks pyspark pandas 与 numpy 发生错误

我在使用 pyspark pandas 时收到以下错误: PandasNotImplementedError:方法 pd.Series.__iter__() 未实现。如果您想将数据收集为 NumPy 数组,请使用 '

回答 1 投票 0

Pyspark:动态扁平化层次结构表

我有一个如下所示的 pyspark 数据框: 层次节点父节点 USREBT2.0.1 USREBT2 USREBT2.1.1 USREBT2.0.1 1004052024.0.1 1004052024 1004052024.1.1 1004052024.0.1

回答 1 投票 0

Pandas 或 pyspark 跨列创建

我有以下形式的样本数据: 周年 flag_1 flag_2 26 2022 0 0 27 2022 1 0 28 2022 0 0 2 2023 0 1 3 2023 1 0 ...

回答 1 投票 0

每个分区文件是否包含Spark DataFrameWriter.partitionBy之后的所有列?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.