apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

如何根据pyspark窗口函数中的动态条件排除行？我正在与Pyspark一起工作，需要创建一个窗口函数，该窗口函数计算列中前5个值的中位数。但是，我想排除在特定列功能的情况下排...

from pyspark.sql import SparkSession from pyspark.sql.functions import col, expr from pyspark.sql.window import Window from pyspark.sql.functions import percentile_approx spark = SparkSession.builder.appName("example").getOrCreate() data = [ (1, 10), (2, 20), (3, 30), (4, 40), (5, 50), (6, 60), (7, 70), (8, 80), (9, 90), (10, 100), (11, 110), (12, 20) ] columns = ["id", "value"] df = spark.createDataFrame(data, columns) window_spec = Window.orderBy("id").rowsBetween(-5, 0) df = df.withColumn( "median_value", expr("percentile_approx(value, 0.5)").over(window_spec) ) df = df.withColumn("feature", median_value > 35)

python apache-spark pyspark apache-spark-sql window-functions

回答 1 投票 0

-privent-Conf在Spark-Submit中，来自Spark-Defaults.conf

I建立了一个捕获SQL查询的JAR，我最初打算让客户在Spark-Defaults.conf中添加此JAR。这样，将自动包含罐子，而无需任何...

apache-spark apache-spark-sql

回答 1 投票 0

如何停止覆盖spark-defaults.conf

apache-spark apache-spark-sql

回答 1 投票 0

在Spark DataFrame

我已经看到（这里：如何将时间戳转换为数据框中的日期格式？）转换数据类型中时间戳的方法，但是至少对我来说，它不起作用。这是我尝试的：＃创建DataFrame

apache-spark date pyspark apache-spark-sql timestamp

回答 7 投票 0

记忆在Spark Job中单调增加我需要在火花内存问题方面提供一些帮助。我的Spark应用程序在单个JVM中运行，作为Kubernetes Pod。工作的性质是它是一份批处理的工作，运行4-5个小时，并且...

ISSUE

java apache-spark memory-management apache-spark-sql memory-leaks

回答 0 投票 0

Sparksql忽略parquet.compression属性tblproperties

apache-spark-sql hiveql parquet

回答 2 投票 0

在共享的研究环境中崩溃 below是我在共享研究服务器上的jupyter笔记本中运行的语法。我试图将熊猫伸入大熊猫的桌子很大，这就是为什么我这样的配置这样：我相信...

我相信桌子是12gb

python scala apache-spark pyspark apache-spark-sql

回答 1 投票 0

MERGE在SparkSQL

apache-spark apache-spark-sql databricks

回答 1 投票 0

未指望的是pyspark滤波器行为

df = df.filter( ~((col('CID') == "-") & (col('CID').isNull()) & col('trait_diff').isNull()) ) df = df.filter( ~((col('CID').isNull()) & col('trait_diff').isNull()) ) df = df.filter( ~((col('CID') == "-") & col('trait_diff').isNull()) )

python pyspark filter apache-spark-sql databricks

回答 1 投票 0

将dateTime转换为databrickssql

sql apache-spark-sql databricks databricks-sql

回答 1 投票 0

获取Apache Spark中格式列表（数据源）

我们需要获取某些配置文件验证的格式列表（读写）。我所谈论的格式是： spark.read.format（'this'） spark.write.format（'this'）有没有办法得到它...

python apache-spark validation pyspark apache-spark-sql

回答 1 投票 0

如何在Spark的DataFrame

我将Python代码“翻译”到Pyspark。我想将现有列用作数据框架的索引。我使用熊猫在python中做到了这一点。下面的一小部分代码解释了我的所作所为。 t ...

pandas dataframe apache-spark pyspark apache-spark-sql