Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
PySpark:使用 .count() 时抛出错误“Column”对象不可调用
我正在使用 PySpark DataFrame 并尝试计算每列中空值的数量。我尝试了以下表达式: [col(c).isNull().count() for c in df.columns] 抛出错误: ---...
我有一个 5 到 100Mb 数据的镶木地板文件。 当我尝试在日期列上创建分区时,会创建多个文件,这会降低读取性能,因为有很多...
如何在 PySpark 中高效读取多个跳过行和页脚的 CSV 文件?
我有几个 CSV 文件,它们的数据行数量不一致,没有标题行,我想将这些文件读入单个 PySpark DataFrame。 CSV 文件的结构如下: ...
我正在与 PySpark 战斗。我有一本关于 Python 的字典,名为 data,例如 { "key1": "xx:xx:xx", “key2”:“xxxxxxxxxxx”, “key9”:“
在 PySpark 中使用 rangeBetween 考虑几个月而不是几天
我正在研究如何将这段 SQL 代码转换为 PySpark 语法。 选择平均值(某个值)超过( 按 yyyy_mm_dd 排序 前一行和当前行 3 个月的间隔范围 ) 一个...
我有一个场景,需要将多个 SQL 数据库(每个数据库都有自己的端点和连接)中的大型数据集加载到 Spark 集群中。考虑到这些数据集的大小(数十亿行......
我正在尝试向数据框中添加一列,其中将包含另一列的哈希值。 我找到了这篇文档: https://spark.apache.org/docs/2.3.0/api/sql/index.html#hash 并尝试过...
有没有办法在 PySpark 中本地选择每个季度的最后一天?例如,在包含两列的 df 中 - yyyy_mm_dd 和 sum。我如何返回每个季度最后一天的总和?...
java Spark数据集中有一列类型为map,如何使用java Spark检查此映射的列是否为空或具有某些值。 我想过滤数据集...
假设我有一个包含客户订单的表,(仅)按 date_transaction 分区。我想找到 date_transaction 的最大值。 以前,我只是运行spark.sql("SELE...
由于 False 作为条目,pyspark 中 json 文件的记录已损坏
我有一个 json 文件,如下所示: 测试= {'kpiData': [{'日期': '2020-06-03 10:05', 'a': '最小间隔', “b”:0.0, 'c':正确}, {'日期': '2020-06-03 10:10', 'a': '最少干预...
当我们在spark中有persist MEMORY_ONLY选项时,为什么我们需要cache()函数?这两者之间的确切区别是什么以及何时使用什么
cache()方法默认将其保存到内存(MEMORY_ONLY)。在 persist() 方法中,如果我们将其定义为 persist(StorageLevel.MEMORY_ONLY),则它与 cache() 相同。那么这些有什么区别...
Glue 作业继续运行,同时抛出“ErrorMessage:分区已存在”。错误
我的 PySpark 脚本连接多个表并使用以下代码写入结果: 水槽=glueContext.getSink(connection_type =“s3”,路径=“s3://bucket1234/”, ...
我正在尝试将 Spark sql 中字符串的第一个字母大写并小写其余字母。 Spark.sql("选择 regexp_replace('纽约','(\\w)(\\w*)',upper('$1')||lower('$2'))")
我有一个 avro 文件,其中有一个名为 timeStamp 的字段,这是一个强制字段,没有任何默认值。这意味着没有机会将该字段设置为空。架构定义如下 ...
无法从 Pyspark DataFrame 中选择超过 255 列
我正在尝试从 Pyspark DatFrame 中选择 500 列。收到错误“SyntaxError:超过 255 个参数” Df2 = Df\ .select("col1","col2","col3",........................,"col500") 尝试过以下
我正在尝试从 pySpark 中读写 Nebula Graph,但无法弄清楚为什么它无法连接。 我正在笔记本电脑上本地使用 Spark,并使用 onETL 库连接到数据源
我是 Spark SQL 新手。我想生成以下一系列的开始时间和结束时间,当前日期的间隔为 5 秒。假设我于 2018 年 1 月 1 日开始工作。我...
Databricks SQL - 如何在第一次运行时获取所有行(超过 1000 行)?
目前,在 Databricks 中,如果我们运行查询,它总是在第一次运行时返回 1000 行。如果我们需要所有行,我们需要再次执行查询。 在我们知道需要的情况下...
我是 Spark sql 新手。我想生成以下一系列的开始时间和结束时间,当前日期的间隔为 5 秒。假设我在 2018 年 1 月 1 日开始工作,我...