pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

如何在 AWS Glue 中获取未通过 CustomSql 数据质量检查的行

根据此文档页面，AWS Glue 现在可以检测未通过 CustomSql 数据质量检查的行。我尝试过，但没有看到失败的行，而只看到失败数据的 %。这里...

pyspark aws-glue data-quality

回答 1 投票 0

AWS Glue 无法访问视图

我在 Glue / Athena 中注册了一个视图，将其命名为 my-db.vm_view。我可以通过 Athena 查询它，一切似乎都正常。我正在尝试在胶水作业中使用这张桌子

amazon-web-services apache-spark pyspark view amazon-athena

回答 1 投票 0

pyspark.errors.exceptions.base.PySparkTypeError：[CANNOT_INFER_SCHEMA_FOR_TYPE]无法推断类型的架构：`DoubleScalar`

尝试编写一个Python程序，使用指定类型pyarrow.float64()的pyarrow.array创建PySpark DataFrame。但是，我收到以下错误： pyspark.errors.exceptions.base.

python pyspark pyarrow

回答 1 投票 0

使用通配符获取文件名而不加载文件

我想加载以“Products”开头的特定文件，但“Products_expired”除外因为“产品”之后会有日期戳，例如：Products_202...

pyspark path azure-synapse read.csv

回答 1 投票 0

在 Databricks Community Edition 的目录部分中看不到 DBFS 选项

当我登录 Databricks Community Edition 时，我不再看到查看 DBFS 文件的选项。我上周才能够访问它们。我已检查设置，但找不到管理控制台...

apache-spark pyspark databricks

回答 1 投票 0

PySpark UDF 具有基于输入的返回类型

我正在尝试找到一种方法来编写 PySpark UDF，它可以支持任何输入类型并根据输入类型返回类型。例如，假设我想创建一个简单的钳位函数，wh...

python pyspark

回答 1 投票 0

使用 JDBC 驱动程序从 Apache Ignite 读取会出现 SQLException：获取大小必须大于零

我正在尝试使用 PySpark 从 Apache Ignite 表中读取一些数据。 Spark.read.format("jdbc").option("driver", "org.apache.ignite.IgniteJdbcThinDriver")\ .选项(&q...

apache-spark pyspark jdbc ignite

回答 1 投票 0

PIVOT 如何将 Dataframe api 转换为 Spark SQL

在将 dataframe api 转换为 Spark SQL 时，我得到了不同的输出。指出我错过了 sql 逻辑的地方。我有一个名为演示的表，有两列值和标记。值列是 seq

apache-spark pyspark apache-spark-sql databricks

回答 1 投票 0

将一列映射到另一列以修复 pyspark 数据框中的空值

我有一个巨大的数据框将包含多个列。列品牌有多个空值，我想通过使用product_id作为映射来填充尽可能多的空值来修复它们。例如品牌产品编号一个

pyspark mapping

回答 1 投票 0

如何从 pyspark sql 上的大表中选择除其中 2 列之外的所有列？

在连接两个表时，我想从 databricks 上的 pyspark sql 上有许多列的大表中选择除其中 2 之外的所有列。我的 pyspark sql： %sql 设置 hive.support.quoted.identifi...

python sql apache-spark pyspark hive

回答 4 投票 0

容器以非零退出代码 143 退出。被外部信号杀死

我使用以下代码将模型的输出保存为来自 dataproc 集群的 google big 查询中的表：规则.write \ .format(“bigquery”) \ .option("表","...

python pyspark google-bigquery google-cloud-dataproc

回答 1 投票 0

如何将 Spark 配置添加到 DatabricksSession

我曾经使用自定义 Spark 对象定义如下：从 pyspark.sql 导入 SparkSession Spark_builder = SparkSession.builder.appName(settings.project_name) 配置 = {**self.DEFAULT_CONFI...

python apache-spark pyspark azure-databricks

回答 1 投票 0

如何在 PySpark 中使用正则表达式从 UDF 中获取最后一个特定字符？

我正在尝试使用正则表达式（regex）从 PySpark DataFrame 中提取最后一个字符，以便执行一些数据清理和解析为列。目前，我正在使用 UDF (U...

regex apache-spark pyspark apache-spark-sql

回答 1 投票 0

从 databricks 12.2TLS CosmosClientMetadataCachesSnapshots 写入 cosmosdb 时出错

我一直在使用 Databricks 运行时 10.4 LTS 并毫无问题地写入 Azure CosmosDB。我必须升级到运行时 12.2 LTS 的更新版本，但我在编写时遇到随机错误...

pyspark azure-cosmosdb azure-databricks

回答 1 投票 0

Pyspark 找不到数据源：kafka

我正在研究 Kafka 流并尝试将其与 Apache Spark 集成。然而，在跑步时我遇到了问题。我收到以下错误。这是我正在使用的命令。 df_TR =

apache-spark pyspark apache-spark-sql spark-kafka-integration

回答 1 投票 0

如何处理数据框中的特殊字符

我有一个 csv 文件，其中有一些字符串类型的列，其中特殊字符有奇怪的饼干或字母。例如，对于 españa，我有 españa。对于 algodón，我有 algod¿那里...

python pyspark data-engineering

回答 1 投票 0

Spark 追加输出模式不会关闭之前的翻滚窗口？

我有一个如下所示的文本文件： a.txt ----- 约翰，100 我有以下火花应用程序：从 pyspark.sql 导入 SparkSession 从 pyspark.sql 将函数导入为 F 来自 pyspark.sql.types 我...

apache-spark pyspark

回答 1 投票 0

按值过滤 RDD PySpark

我正在使用 PySpark，我正在寻找一种方法来检查：对于给定的 check_number = 01 如果我的rdd1中第三个元素的值不包含check_number ==> 获取有关此的所有信息

apache-spark mapreduce pyspark apache-spark-sql rdd

回答 1 投票 0

在 pyspark 中将大数据集分成相等的桶

我有一个超级大的数据框“df”，有 2000 万成员。我希望能够将这个数据集分割成每个大小为 20K 的桶。我希望将生成的存储桶重命名为“Group1”、“Grou...

python pyspark snowflake-cloud-data-platform

回答 1 投票 0

Pyspark MS Fabric SparkJob 的余弦相似度矩阵

我在计算产品推荐器的一些余弦相似度时遇到一些问题。我有一个文章数据库，其中包含 4 万篇文章，每篇文章都带有描述。我正在努力

python pyspark azure-functions cosine-similarity microsoft-fabric

回答 1 投票 0

pyspark 相关问题

最新问题