apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

PySpark:使用 .count() 时抛出错误“Column”对象不可调用

我正在使用 PySpark DataFrame 并尝试计算每列中空值的数量。我尝试了以下表达式: [col(c).isNull().count() for c in df.columns] 抛出错误: ---...

回答 1 投票 0

单个小文件的Parquet分区策略及读取优化

我有一个 5 到 100Mb 数据的镶木地板文件。 当我尝试在日期列上创建分区时,会创建多个文件,这会降低读取性能,因为有很多...

回答 1 投票 0

如何在 PySpark 中高效读取多个跳过行和页脚的 CSV 文件?

我有几个 CSV 文件,它们的数据行数量不一致,没有标题行,我想将这些文件读入单个 PySpark DataFrame。 CSV 文件的结构如下: ...

回答 1 投票 0

创建数据框时如何强制字符串格式(JSON)

我正在与 PySpark 战斗。我有一本关于 Python 的字典,名为 data,例如 { "key1": "xx:xx:xx", “key2”:“xxxxxxxxxxx”, “key9”:“

回答 1 投票 0

在 PySpark 中使用 rangeBetween 考虑几个月而不是几天

我正在研究如何将这段 SQL 代码转换为 PySpark 语法。 选择平均值(某个值)超过( 按 yyyy_mm_dd 排序 前一行和当前行 3 个月的间隔范围 ) 一个...

回答 2 投票 0

Spark 从多个 SQL 数据库并行读取

我有一个场景,需要将多个 SQL 数据库(每个数据库都有自己的端点和连接)中的大型数据集加载到 Spark 集群中。考虑到这些数据集的大小(数十亿行......

回答 1 投票 0

spark 中的哈希函数

我正在尝试向数据框中添加一列,其中将包含另一列的哈希值。 我找到了这篇文档: https://spark.apache.org/docs/2.3.0/api/sql/index.html#hash 并尝试过...

回答 3 投票 0

季度最后一天

有没有办法在 PySpark 中本地选择每个季度的最后一天?例如,在包含两列的 df 中 - yyyy_mm_dd 和 sum。我如何返回每个季度最后一天的总和?...

回答 2 投票 0

Java Spark 地图为空

java Spark数据集中有一列类型为map,如何使用java Spark检查此映射的列是否为空或具有某些值。 我想过滤数据集...

回答 1 投票 0

表分区列的最大值 vs 同表的显示分区结果的最大值

假设我有一个包含客户订单的表,(仅)按 date_transaction 分区。我想找到 date_transaction 的最大值。 以前,我只是运行spark.sql("SELE...

回答 1 投票 0

由于 False 作为条目,pyspark 中 json 文件的记录已损坏

我有一个 json 文件,如下所示: 测试= {'kpiData': [{'日期': '2020-06-03 10:05', 'a': '最小间隔', “b”:0.0, 'c':正确}, {'日期': '2020-06-03 10:10', 'a': '最少干预...

回答 2 投票 0

当我们在spark中有persist MEMORY_ONLY选项时,为什么我们需要cache()函数?这两者之间的确切区别是什么以及何时使用什么

cache()方法默认将其保存到内存(MEMORY_ONLY)。在 persist() 方法中,如果我们将其定义为 persist(StorageLevel.MEMORY_ONLY),则它与 cache() 相同。那么这些有什么区别...

回答 2 投票 0

Glue 作业继续运行,同时抛出“ErrorMessage:分区已存在”。错误

我的 PySpark 脚本连接多个表并使用以下代码写入结果: 水槽=glueContext.getSink(connection_type =“s3”,路径=“s3://bucket1234/”, ...

回答 1 投票 0

字符串函数在 Spark sql 中的替换参数中不起作用

我正在尝试将 Spark sql 中字符串的第一个字母大写并小写其余字母。 Spark.sql("选择 regexp_replace('纽约','(\\w)(\\w*)',upper('$1')||lower('$2'))")

回答 1 投票 0

Spark 3.0 无法将非空数据写入iceberg

我有一个 avro 文件,其中有一个名为 timeStamp 的字段,这是一个强制字段,没有任何默认值。这意味着没有机会将该字段设置为空。架构定义如下 ...

回答 1 投票 0

无法从 Pyspark DataFrame 中选择超过 255 列

我正在尝试从 Pyspark DatFrame 中选择 500 列。收到错误“SyntaxError:超过 255 个参数” Df2 = Df\ .select("col1","col2","col3",........................,"col500") 尝试过以下

回答 2 投票 0

在 pySpark 中读/写星云图

我正在尝试从 pySpark 中读写 Nebula Graph,但无法弄清楚为什么它无法连接。 我正在笔记本电脑上本地使用 Spark,并使用 onETL 库连接到数据源

回答 1 投票 0

使用 Spark SQL 生成基于间隔的时间序列

我是 Spark SQL 新手。我想生成以下一系列的开始时间和结束时间,当前日期的间隔为 5 秒。假设我于 2018 年 1 月 1 日开始工作。我...

回答 3 投票 0

Databricks SQL - 如何在第一次运行时获取所有行(超过 1000 行)?

目前,在 Databricks 中,如果我们运行查询,它总是在第一次运行时返回 1000 行。如果我们需要所有行,我们需要再次执行查询。 在我们知道需要的情况下...

回答 2 投票 0

使用 Spark SQL 生成基于间隔的时间序列

我是 Spark sql 新手。我想生成以下一系列的开始时间和结束时间,当前日期的间隔为 5 秒。假设我在 2018 年 1 月 1 日开始工作,我...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.