Spark Python API(PySpark)将apache-spark编程模型暴露给Python。
如何在 AWS Glue 中获取未通过 CustomSql 数据质量检查的行
根据此文档页面,AWS Glue 现在可以检测未通过 CustomSql 数据质量检查的行。 我尝试过,但没有看到失败的行,而只看到失败数据的 %。 这里...
我在 Glue / Athena 中注册了一个视图,将其命名为 my-db.vm_view。我可以通过 Athena 查询它,一切似乎都正常。 我正在尝试在胶水作业中使用这张桌子
尝试编写一个Python程序,使用指定类型pyarrow.float64()的pyarrow.array创建PySpark DataFrame。 但是,我收到以下错误: pyspark.errors.exceptions.base.
我想加载以“Products”开头的特定文件,但“Products_expired”除外 因为“产品”之后会有日期戳,例如:Products_202...
在 Databricks Community Edition 的目录部分中看不到 DBFS 选项
当我登录 Databricks Community Edition 时,我不再看到查看 DBFS 文件的选项。我上周才能够访问它们。我已检查设置,但找不到管理控制台...
我正在尝试找到一种方法来编写 PySpark UDF,它可以支持任何输入类型并根据输入类型返回类型。例如,假设我想创建一个简单的钳位函数,wh...
使用 JDBC 驱动程序从 Apache Ignite 读取会出现 SQLException:获取大小必须大于零
我正在尝试使用 PySpark 从 Apache Ignite 表中读取一些数据。 Spark.read.format("jdbc").option("driver", "org.apache.ignite.IgniteJdbcThinDriver")\ .选项(&q...
PIVOT 如何将 Dataframe api 转换为 Spark SQL
在将 dataframe api 转换为 Spark SQL 时,我得到了不同的输出。指出我错过了 sql 逻辑的地方。 我有一个名为演示的表,有两列值和标记。值列是 seq
我有一个巨大的数据框将包含多个列。列品牌有多个空值,我想通过使用product_id作为映射来填充尽可能多的空值来修复它们。例如 品牌 产品编号 一个
如何从 pyspark sql 上的大表中选择除其中 2 列之外的所有列?
在连接两个表时,我想从 databricks 上的 pyspark sql 上有许多列的大表中选择除其中 2 之外的所有列。 我的 pyspark sql: %sql 设置 hive.support.quoted.identifi...
我使用以下代码将模型的输出保存为来自 dataproc 集群的 google big 查询中的表: 规则.write \ .format(“bigquery”) \ .option("表","...
如何将 Spark 配置添加到 DatabricksSession
我曾经使用自定义 Spark 对象定义如下: 从 pyspark.sql 导入 SparkSession Spark_builder = SparkSession.builder.appName(settings.project_name) 配置 = {**self.DEFAULT_CONFI...
如何在 PySpark 中使用正则表达式从 UDF 中获取最后一个特定字符?
我正在尝试使用正则表达式(regex)从 PySpark DataFrame 中提取最后一个字符,以便执行一些数据清理和解析为列。 目前,我正在使用 UDF (U...
从 databricks 12.2TLS CosmosClientMetadataCachesSnapshots 写入 cosmosdb 时出错
我一直在使用 Databricks 运行时 10.4 LTS 并毫无问题地写入 Azure CosmosDB。 我必须升级到运行时 12.2 LTS 的更新版本,但我在编写时遇到随机错误...
我正在研究 Kafka 流并尝试将其与 Apache Spark 集成。然而,在跑步时我遇到了问题。我收到以下错误。 这是我正在使用的命令。 df_TR =
我有一个 csv 文件,其中有一些字符串类型的列,其中特殊字符有奇怪的饼干或字母。例如,对于 españa,我有 españa。对于 algodón,我有 algod¿那里...
我有一个如下所示的文本文件: a.txt ----- 约翰,100 我有以下火花应用程序: 从 pyspark.sql 导入 SparkSession 从 pyspark.sql 将函数导入为 F 来自 pyspark.sql.types 我...
我正在使用 PySpark,我正在寻找一种方法来检查: 对于给定的 check_number = 01 如果我的rdd1中第三个元素的值不包含check_number ==> 获取有关此的所有信息
我有一个超级大的数据框“df”,有 2000 万成员。 我希望能够将这个数据集分割成每个大小为 20K 的桶。我希望将生成的存储桶重命名为“Group1”、“Grou...
Pyspark MS Fabric SparkJob 的余弦相似度矩阵
我在计算产品推荐器的一些余弦相似度时遇到一些问题。我有一个文章数据库,其中包含 4 万篇文章,每篇文章都带有描述。我正在努力