apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

spark 中的哈希函数

我正在尝试向数据框中添加一列,其中将包含另一列的哈希值。 我找到了这篇文档: https://spark.apache.org/docs/2.3.0/api/sql/index.html#hash 并尝试过...

回答 3 投票 0

BloomFilter mergeInPlace() 产生意外行为

下面的 Spark Scala 代码片段重现了我试图理解的行为。在较高的层次上,我们构造两个元组,每个元组包含一个 DF 和一个有关 id 列的布隆过滤器...

回答 1 投票 0

使用 Scala/Java 在 Databricks 工作区中保存文件

我的目标是使用 Databricks 运行 Spark 作业,我的挑战是我无法将文件存储在本地文件系统中,因为文件保存在驱动程序中,但是当我的执行程序尝试访问...

回答 1 投票 0

Spark 作业继续运行

我已在 ambari-server 中提交了我的 Spark 作业 使用以下命令.. ./spark-submit --class customer.core.classname --master 纱线 --numexecutors 2 --driver-内存 2g --executor-内存 2g --exe...

回答 4 投票 0

Pyspark Java 白名单类问题

我正在尝试将 hive 元存储迁移到 unity 目录中,以便我必须在现有集群中启用 unity 目录,但我们正在使用下面代码的笔记本之一现在不受支持,

回答 1 投票 0

季度最后一天

有没有办法在 PySpark 中本地选择每个季度的最后一天?例如,在包含两列的 df 中 - yyyy_mm_dd 和 sum。我如何返回每个季度最后一天的总和?...

回答 2 投票 0

Java Spark 地图为空

java Spark数据集中有一列类型为map,如何使用java Spark检查此映射的列是否为空或具有某些值。 我想过滤数据集...

回答 1 投票 0

表分区列的最大值 vs 同表的显示分区结果的最大值

假设我有一个包含客户订单的表,(仅)按 date_transaction 分区。我想找到 date_transaction 的最大值。 以前,我只是运行spark.sql("SELE...

回答 1 投票 0

由于 False 作为条目,pyspark 中 json 文件的记录已损坏

我有一个 json 文件,如下所示: 测试= {'kpiData': [{'日期': '2020-06-03 10:05', 'a': '最小间隔', “b”:0.0, 'c':正确}, {'日期': '2020-06-03 10:10', 'a': '最少干预...

回答 2 投票 0

当我们在spark中有persist MEMORY_ONLY选项时,为什么我们需要cache()函数?这两者之间的确切区别是什么以及何时使用什么

cache()方法默认将其保存到内存(MEMORY_ONLY)。在 persist() 方法中,如果我们将其定义为 persist(StorageLevel.MEMORY_ONLY),则它与 cache() 相同。那么这些有什么区别...

回答 2 投票 0

Spark RDD 连接后拆包嵌套元组

这方面的资源很稀缺,我不确定这个问题是否有解决方案。 假设你有 3 个简单的 RDD。或者更具体地说是 3 个 PairRDD。 val rdd1: RDD[(Int, Int)] = sc.paralleli...

回答 1 投票 0

Glue 作业继续运行,同时抛出“ErrorMessage:分区已存在”。错误

我的 PySpark 脚本连接多个表并使用以下代码写入结果: 水槽=glueContext.getSink(connection_type =“s3”,路径=“s3://bucket1234/”, ...

回答 1 投票 0

将hadoop HDFS与Snowflake集成

我正在构建个人项目,但我陷入困境。 具体来说,在编写 Spark 作业来处理和转换数据后,我将数据加载到 hadoop HDFS 中。然后我想把hdfs连接到snowflake上,然后...

回答 1 投票 0

无法将 Databricks 单用户集群分配给服务主体

从 Databricks UI 中,当我尝试分配单个用户来访问集群时,我似乎只能选择人类用户,而无法选择服务主体: 如何分配服务主...

回答 1 投票 0

DataFrame 逐行写入 Azure-SQL 性能

我们使用azure databricks Spark将数据写入Azure SQL数据库。上周,我们使用 Spark 本机 JDBC 驱动程序从运行时 9.1 (spark 3.1) 切换到更新的 14.3 (spark 3.5)。然而当我们...

回答 1 投票 0

在 PySpark 中以可扩展的方式链接多个 WHEN 条件

我有一本字典(变量 pats),其中包含许多 when 参数:条件和值。 从 pyspark.sql 将函数导入为 F df = Spark.createDataFrame([("ė",), ("2",), ("&q...

回答 2 投票 0

Spark SQL 外部表(hive 支持)- 在元存储数据库中查找外部(blob 存储)表的位置“路径”

我已经设置了一个由 postgres 支持的独立 hive-metastore(v3.0.0),并在 Spark sql 中创建了外部表。外部数据位置位于天蓝色 blob 中。我可以使用

回答 1 投票 0

Spark 3.0 无法将非空数据写入iceberg

我有一个 avro 文件,其中有一个名为 timeStamp 的字段,这是一个强制字段,没有任何默认值。这意味着没有机会将该字段设置为空。架构定义如下 ...

回答 1 投票 0

使用窗口函数按组创建下一个和上一个列

我有一个 pyspark 数据框,其中包含 id、日期、组、类 id、日期、组、班级 A, 2023-10-12, 1, 页 A, 2023-10-13, 1, 页 A, 2023-10-14, 2, c A, 2023-10-15, 3, s A, 2023-10-16, 3, s 我想计算...

回答 1 投票 0

“startTimestamp”选项如何适用于速率微批量格式?

这是针对Spark 3.5.0的,没有尝试过其他版本。 我编写了一个简单的 Spark 流应用程序,使用rate-micro-batch 格式,用于生成测试数据。 根据本指南,它...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.