pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

如何在 AWS Glue 中获取未通过 CustomSql 数据质量检查的行

根据此文档页面,AWS Glue 现在可以检测未通过 CustomSql 数据质量检查的行。 我尝试过,但没有看到失败的行,而只看到失败数据的 %。 这里...

回答 1 投票 0

AWS Glue 无法访问视图

我在 Glue / Athena 中注册了一个视图,将其命名为 my-db.vm_view。我可以通过 Athena 查询它,一切似乎都正常。 我正在尝试在胶水作业中使用这张桌子

回答 1 投票 0

pyspark.errors.exceptions.base.PySparkTypeError:[CANNOT_INFER_SCHEMA_FOR_TYPE]无法推断类型的架构:`DoubleScalar`

尝试编写一个Python程序,使用指定类型pyarrow.float64()的pyarrow.array创建PySpark DataFrame。 但是,我收到以下错误: pyspark.errors.exceptions.base.

回答 1 投票 0

使用通配符获取文件名而不加载文件

我想加载以“Products”开头的特定文件,但“Products_expired”除外 因为“产品”之后会有日期戳,例如:Products_202...

回答 1 投票 0

在 Databricks Community Edition 的目录部分中看不到 DBFS 选项

当我登录 Databricks Community Edition 时,我不再看到查看 DBFS 文件的选项。我上周才能够访问它们。我已检查设置,但找不到管理控制台...

回答 1 投票 0

PySpark UDF 具有基于输入的返回类型

我正在尝试找到一种方法来编写 PySpark UDF,它可以支持任何输入类型并根据输入类型返回类型。例如,假设我想创建一个简单的钳位函数,wh...

回答 1 投票 0

使用 JDBC 驱动程序从 Apache Ignite 读取会出现 SQLException:获取大小必须大于零

我正在尝试使用 PySpark 从 Apache Ignite 表中读取一些数据。 Spark.read.format("jdbc").option("driver", "org.apache.ignite.IgniteJdbcThinDriver")\ .选项(&q...

回答 1 投票 0

PIVOT 如何将 Dataframe api 转换为 Spark SQL

在将 dataframe api 转换为 Spark SQL 时,我得到了不同的输出。指出我错过了 sql 逻辑的地方。 我有一个名为演示的表,有两列值和标记。值列是 seq

回答 1 投票 0

将一列映射到另一列以修复 pyspark 数据框中的空值

我有一个巨大的数据框将包含多个列。列品牌有多个空值,我想通过使用product_id作为映射来填充尽可能多的空值来修复它们。例如 品牌 产品编号 一个

回答 1 投票 0

如何从 pyspark sql 上的大表中选择除其中 2 列之外的所有列?

在连接两个表时,我想从 databricks 上的 pyspark sql 上有许多列的大表中选择除其中 2 之外的所有列。 我的 pyspark sql: %sql 设置 hive.support.quoted.identifi...

回答 4 投票 0

容器以非零退出代码 143 退出。被外部信号杀死

我使用以下代码将模型的输出保存为来自 dataproc 集群的 google big 查询中的表: 规则.write \ .format(“bigquery”) \ .option("表","...

回答 1 投票 0

如何将 Spark 配置添加到 DatabricksSession

我曾经使用自定义 Spark 对象定义如下: 从 pyspark.sql 导入 SparkSession Spark_builder = SparkSession.builder.appName(settings.project_name) 配置 = {**self.DEFAULT_CONFI...

回答 1 投票 0

如何在 PySpark 中使用正则表达式从 UDF 中获取最后一个特定字符?

我正在尝试使用正则表达式(regex)从 PySpark DataFrame 中提取最后一个字符,以便执行一些数据清理和解析为列。 目前,我正在使用 UDF (U...

回答 1 投票 0

从 databricks 12.2TLS CosmosClientMetadataCachesSnapshots 写入 cosmosdb 时出错

我一直在使用 Databricks 运行时 10.4 LTS 并毫无问题地写入 Azure CosmosDB。 我必须升级到运行时 12.2 LTS 的更新版本,但我在编写时遇到随机错误...

回答 1 投票 0

Pyspark 找不到数据源:kafka

我正在研究 Kafka 流并尝试将其与 Apache Spark 集成。然而,在跑步时我遇到了问题。我收到以下错误。 这是我正在使用的命令。 df_TR =

回答 1 投票 0

如何处理数据框中的特殊字符

我有一个 csv 文件,其中有一些字符串类型的列,其中特殊字符有奇怪的饼干或字母。例如,对于 españa,我有 españa。对于 algodón,我有 algod¿那里...

回答 1 投票 0

Spark 追加输出模式不会关闭之前的翻滚窗口?

我有一个如下所示的文本文件: a.txt ----- 约翰,100 我有以下火花应用程序: 从 pyspark.sql 导入 SparkSession 从 pyspark.sql 将函数导入为 F 来自 pyspark.sql.types 我...

回答 1 投票 0

按值过滤 RDD PySpark

我正在使用 PySpark,我正在寻找一种方法来检查: 对于给定的 check_number = 01 如果我的rdd1中第三个元素的值不包含check_number ==> 获取有关此的所有信息

回答 1 投票 0

在 pyspark 中将大数据集分成相等的桶

我有一个超级大的数据框“df”,有 2000 万成员。 我希望能够将这个数据集分割成每个大小为 20K 的桶。我希望将生成的存储桶重命名为“Group1”、“Grou...

回答 1 投票 0

Pyspark MS Fabric SparkJob 的余弦相似度矩阵

我在计算产品推荐器的一些余弦相似度时遇到一些问题。我有一个文章数据库,其中包含 4 万篇文章,每篇文章都带有描述。我正在努力

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.