Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
在 Apache Spark SQL (Azure Databricks) 中,我创建了一个如下表: 创建表 t( 一个大整数, b BIGINT 不为空 ) 我已验证我有一个可为空的列和一个不可为空的列...
我有一张融化的桌子,其形式为: +------+---------+--------------+------------+---- ----------+ |时间 |频道 |双值 |长值 |值字符串 | +------+---------+--------------+----...
我正在处理大量日志文件,我想将作业转移到 Spark,但我不知道如何像在 Pandas 中轻松地那样在基于事件的时间窗口上聚合事件。 这就是确切的...
我正在尝试对两个冰山表应用联合,这两个冰山表是通过 pyspark 中的时间旅行获取的。 这是我尝试过的代码: union_query = f""" SELECT * FROM {table_name} FOR
SparkSession.catalog 和 SparkSession.sessionState.catalog 有什么区别?
我正在学习Spark,对Spark的目录感到困惑。 我在SparkSession中找到了一个catalog,它是CatalogImpl的一个实例,如下 /** * 用户可以通过它创建、删除的接口
我是一个 Spark 应用程序,有几个点我想保留当前状态。这通常是在一个大步骤之后,或者缓存我想多次使用的状态之后。它看起来...
我正在尝试创建一个本地管道,用于接收从我的 kafka 代理流式传输的消息,并在写入 MongoDB 之前在 Spark 中对其进行处理。我已经安装了所有必要的 JAR 并包含了
为什么我的 pyspark 应用程序因用户定义的函数而失败? 乘数 = udf(lambda x: float(x) * 100.0, FloatType()) df = df.select(multiplier(df['value']).alias('value_percent'))
为什么我需要使用数据框来处理数据块中的查询? (pyspark、sparksql)
我正在和一个朋友学习databricks,有一件事我真的不明白。 我正在尝试在azure中存储帐户中的json文件中使用pyspark和spark sql进行查询。 丝路...
以下 Databricks SQL 的等效 Py Spark 代码是什么
我有下面的Databricks SQL代码(带有过滤条件)并想转换为Py Spark代码但无法得到任何想法。 我搜索了谷歌,但只得到了 Py Spark 过滤器条件,但我......
我有一个架构,如下所示。如何解析嵌套对象? 根 |-- apps: 数组 (nullable = true) | |-- 元素:结构(containsNull = true) | | |-- appName:字符串(可为空...
我已将 avro 文件读入 Spark RDD,并需要将其转换为 sql 数据帧。我该怎么做。 这就是我到目前为止所做的。 导入 org.apache.avro.generic.GenericRecord 导入 org.apache.a...
Spark skewedPartitionThresholdInBytes 未得到强制执行
对 Spark 比较陌生,对 PySpark 的行为感到好奇,其中, 使用 PySpark 执行内部联接(根据执行计划:SortMergeJoin)时,使用以下参数 e...
我正在尝试在 Microsoft Fabric 的 Spark SQL 中将格式为“2024 年 5 月 30 日”的字符串值转换为日期。 名为 TITLE 的初始列具有以下格式的文本: “是……
我正在尝试将数据插入到 Hive 表中,该表的动态分区值需要是计算日期,但 Hive 的 PARTITION 子句似乎不支持表达式或函数。 我有一个...
我有两个数据帧,分别称为 df1 和 df2。 df1 有 300 M 条记录,df2 有 400 M 条记录。进行简单的内部联接并写入 s3 存储桶。下面是我的示例代码片段 代码: sql =“”&
如何检查namenode返回哪个HDFS datanode ip到spark?
如果我在 PySpark 中读取/写入数据帧并指定 HDFS 名称节点主机名和端口: df.write.parquet("hdfs://namenode:8020/test/go", mode="覆盖") 有什么办法
使用 SQL 或 Spark-SQL - 如何根据大于 1 的聚合记录数更新列值
我有一个涉及客户选择退出促销的数据集。他们将始终拥有唯一的 customer_id,但可以共享居住空间。当两个客户住在同一个地方时就会出现问题
当 pyspark 2.2.0 中缺少日期时,如何计算日期范围内的标准差
我有一个 pyspark df,其中我使用 windows + udf 函数的组合来计算历史业务日期的标准偏差。挑战是我的 df 缺少日期,当...
我有一个包含 2M 行的 PySpark DataFrame,称为 inventory,其中包含以下列: 类别_id 子类别 ID 产品代码 产品名称 1001 A001 X123 小工具A 1001 A002 X456 小工具B 2002年 乙...