apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

spark 中的哈希函数

我正在尝试向数据框中添加一列，其中将包含另一列的哈希值。我找到了这篇文档： https://spark.apache.org/docs/2.3.0/api/sql/index.html#hash 并尝试过...

scala apache-spark hash apache-spark-sql

回答 3 投票 0

BloomFilter mergeInPlace() 产生意外行为

下面的 Spark Scala 代码片段重现了我试图理解的行为。在较高的层次上，我们构造两个元组，每个元组包含一个 DF 和一个有关 id 列的布隆过滤器...

apache-spark lazy-evaluation bloom-filter

回答 1 投票 0

使用 Scala/Java 在 Databricks 工作区中保存文件

我的目标是使用 Databricks 运行 Spark 作业，我的挑战是我无法将文件存储在本地文件系统中，因为文件保存在驱动程序中，但是当我的执行程序尝试访问...

scala apache-spark databricks

回答 1 投票 0

Spark 作业继续运行

我已在 ambari-server 中提交了我的 Spark 作业使用以下命令.. ./spark-submit --class customer.core.classname --master 纱线 --numexecutors 2 --driver-内存 2g --executor-内存 2g --exe...

shell apache-spark

回答 4 投票 0

Pyspark Java 白名单类问题

我正在尝试将 hive 元存储迁移到 unity 目录中，以便我必须在现有集群中启用 unity 目录，但我们正在使用下面代码的笔记本之一现在不受支持，

apache-spark pyspark azure-databricks databricks-unity-catalog

回答 1 投票 0

季度最后一天

有没有办法在 PySpark 中本地选择每个季度的最后一天？例如，在包含两列的 df 中 - yyyy_mm_dd 和 sum。我如何返回每个季度最后一天的总和？...

python date apache-spark pyspark apache-spark-sql

回答 2 投票 0

Java Spark 地图为空

java Spark数据集中有一列类型为map，如何使用java Spark检查此映射的列是否为空或具有某些值。我想过滤数据集...

java apache-spark apache-spark-sql

回答 1 投票 0

表分区列的最大值 vs 同表的显示分区结果的最大值

假设我有一个包含客户订单的表，（仅）按 date_transaction 分区。我想找到 date_transaction 的最大值。以前，我只是运行spark.sql("SELE...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

由于 False 作为条目，pyspark 中 json 文件的记录已损坏

我有一个 json 文件，如下所示：测试= {'kpiData': [{'日期': '2020-06-03 10:05', 'a': '最小间隔', “b”：0.0， 'c'：正确}， {'日期': '2020-06-03 10:10', 'a': '最少干预...

json apache-spark pyspark apache-spark-sql rdd

回答 2 投票 0

当我们在spark中有persist MEMORY_ONLY选项时，为什么我们需要cache()函数？这两者之间的确切区别是什么以及何时使用什么

cache()方法默认将其保存到内存（MEMORY_ONLY）。在 persist() 方法中，如果我们将其定义为 persist(StorageLevel.MEMORY_ONLY)，则它与 cache() 相同。那么这些有什么区别...

apache-spark pyspark apache-spark-sql

回答 2 投票 0

Spark RDD 连接后拆包嵌套元组

这方面的资源很稀缺，我不确定这个问题是否有解决方案。假设你有 3 个简单的 RDD。或者更具体地说是 3 个 PairRDD。 val rdd1: RDD[(Int, Int)] = sc.paralleli...

scala apache-spark rdd

回答 1 投票 0

Glue 作业继续运行，同时抛出“ErrorMessage：分区已存在”。错误

我的 PySpark 脚本连接多个表并使用以下代码写入结果：水槽=glueContext.getSink（connection_type =“s3”，路径=“s3：//bucket1234/”， ...

apache-spark amazon-s3 pyspark apache-spark-sql aws-glue

回答 1 投票 0

将hadoop HDFS与Snowflake集成

我正在构建个人项目，但我陷入困境。具体来说，在编写 Spark 作业来处理和转换数据后，我将数据加载到 hadoop HDFS 中。然后我想把hdfs连接到snowflake上，然后...

apache-spark snowflake-cloud-data-platform hdfs

回答 1 投票 0

无法将 Databricks 单用户集群分配给服务主体

从 Databricks UI 中，当我尝试分配单个用户来访问集群时，我似乎只能选择人类用户，而无法选择服务主体：如何分配服务主...

apache-spark databricks cluster-computing service-principal

回答 1 投票 0

DataFrame 逐行写入 Azure-SQL 性能

我们使用azure databricks Spark将数据写入Azure SQL数据库。上周，我们使用 Spark 本机 JDBC 驱动程序从运行时 9.1 (spark 3.1) 切换到更新的 14.3 (spark 3.5)。然而当我们...

apache-spark azure-databricks mssql-jdbc

回答 1 投票 0

在 PySpark 中以可扩展的方式链接多个 WHEN 条件

我有一本字典（变量 pats），其中包含许多 when 参数：条件和值。从 pyspark.sql 将函数导入为 F df = Spark.createDataFrame([("ė",), ("2",), ("&q...

apache-spark dictionary pyspark conditional-statements method-chaining

回答 2 投票 0

Spark SQL 外部表（hive 支持）- 在元存储数据库中查找外部（blob 存储）表的位置“路径”

我已经设置了一个由 postgres 支持的独立 hive-metastore（v3.0.0），并在 Spark sql 中创建了外部表。外部数据位置位于天蓝色 blob 中。我可以使用

apache-spark hive-metastore

回答 1 投票 0

Spark 3.0 无法将非空数据写入iceberg

我有一个 avro 文件，其中有一个名为 timeStamp 的字段，这是一个强制字段，没有任何默认值。这意味着没有机会将该字段设置为空。架构定义如下 ...

apache-spark apache-spark-sql spark-streaming spark-structured-streaming apache-iceberg

回答 1 投票 0

使用窗口函数按组创建下一个和上一个列

我有一个 pyspark 数据框，其中包含 id、日期、组、类 id、日期、组、班级 A, 2023-10-12, 1, 页 A, 2023-10-13, 1, 页 A, 2023-10-14, 2, c A, 2023-10-15, 3, s A, 2023-10-16, 3, s 我想计算...

python apache-spark pyspark

回答 1 投票 0

“startTimestamp”选项如何适用于速率微批量格式？

这是针对Spark 3.5.0的，没有尝试过其他版本。我编写了一个简单的 Spark 流应用程序，使用rate-micro-batch 格式，用于生成测试数据。根据本指南，它...

java apache-spark

回答 2 投票 0

apache-spark 相关问题

最新问题