Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
我正在尝试向数据框中添加一列,其中将包含另一列的哈希值。 我找到了这篇文档: https://spark.apache.org/docs/2.3.0/api/sql/index.html#hash 并尝试过...
BloomFilter mergeInPlace() 产生意外行为
下面的 Spark Scala 代码片段重现了我试图理解的行为。在较高的层次上,我们构造两个元组,每个元组包含一个 DF 和一个有关 id 列的布隆过滤器...
使用 Scala/Java 在 Databricks 工作区中保存文件
我的目标是使用 Databricks 运行 Spark 作业,我的挑战是我无法将文件存储在本地文件系统中,因为文件保存在驱动程序中,但是当我的执行程序尝试访问...
我已在 ambari-server 中提交了我的 Spark 作业 使用以下命令.. ./spark-submit --class customer.core.classname --master 纱线 --numexecutors 2 --driver-内存 2g --executor-内存 2g --exe...
我正在尝试将 hive 元存储迁移到 unity 目录中,以便我必须在现有集群中启用 unity 目录,但我们正在使用下面代码的笔记本之一现在不受支持,
有没有办法在 PySpark 中本地选择每个季度的最后一天?例如,在包含两列的 df 中 - yyyy_mm_dd 和 sum。我如何返回每个季度最后一天的总和?...
java Spark数据集中有一列类型为map,如何使用java Spark检查此映射的列是否为空或具有某些值。 我想过滤数据集...
假设我有一个包含客户订单的表,(仅)按 date_transaction 分区。我想找到 date_transaction 的最大值。 以前,我只是运行spark.sql("SELE...
由于 False 作为条目,pyspark 中 json 文件的记录已损坏
我有一个 json 文件,如下所示: 测试= {'kpiData': [{'日期': '2020-06-03 10:05', 'a': '最小间隔', “b”:0.0, 'c':正确}, {'日期': '2020-06-03 10:10', 'a': '最少干预...
当我们在spark中有persist MEMORY_ONLY选项时,为什么我们需要cache()函数?这两者之间的确切区别是什么以及何时使用什么
cache()方法默认将其保存到内存(MEMORY_ONLY)。在 persist() 方法中,如果我们将其定义为 persist(StorageLevel.MEMORY_ONLY),则它与 cache() 相同。那么这些有什么区别...
这方面的资源很稀缺,我不确定这个问题是否有解决方案。 假设你有 3 个简单的 RDD。或者更具体地说是 3 个 PairRDD。 val rdd1: RDD[(Int, Int)] = sc.paralleli...
Glue 作业继续运行,同时抛出“ErrorMessage:分区已存在”。错误
我的 PySpark 脚本连接多个表并使用以下代码写入结果: 水槽=glueContext.getSink(connection_type =“s3”,路径=“s3://bucket1234/”, ...
我正在构建个人项目,但我陷入困境。 具体来说,在编写 Spark 作业来处理和转换数据后,我将数据加载到 hadoop HDFS 中。然后我想把hdfs连接到snowflake上,然后...
从 Databricks UI 中,当我尝试分配单个用户来访问集群时,我似乎只能选择人类用户,而无法选择服务主体: 如何分配服务主...
我们使用azure databricks Spark将数据写入Azure SQL数据库。上周,我们使用 Spark 本机 JDBC 驱动程序从运行时 9.1 (spark 3.1) 切换到更新的 14.3 (spark 3.5)。然而当我们...
在 PySpark 中以可扩展的方式链接多个 WHEN 条件
我有一本字典(变量 pats),其中包含许多 when 参数:条件和值。 从 pyspark.sql 将函数导入为 F df = Spark.createDataFrame([("ė",), ("2",), ("&q...
Spark SQL 外部表(hive 支持)- 在元存储数据库中查找外部(blob 存储)表的位置“路径”
我已经设置了一个由 postgres 支持的独立 hive-metastore(v3.0.0),并在 Spark sql 中创建了外部表。外部数据位置位于天蓝色 blob 中。我可以使用
我有一个 avro 文件,其中有一个名为 timeStamp 的字段,这是一个强制字段,没有任何默认值。这意味着没有机会将该字段设置为空。架构定义如下 ...
我有一个 pyspark 数据框,其中包含 id、日期、组、类 id、日期、组、班级 A, 2023-10-12, 1, 页 A, 2023-10-13, 1, 页 A, 2023-10-14, 2, c A, 2023-10-15, 3, s A, 2023-10-16, 3, s 我想计算...
“startTimestamp”选项如何适用于速率微批量格式?
这是针对Spark 3.5.0的,没有尝试过其他版本。 我编写了一个简单的 Spark 流应用程序,使用rate-micro-batch 格式,用于生成测试数据。 根据本指南,它...