apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

如何根据pyspark窗口函数中的动态条件排除行? 我正在与Pyspark一起工作,需要创建一个窗口函数,该窗口函数计算列中前5个值的中位数。但是,我想排除在特定列功能的情况下排...

from pyspark.sql import SparkSession from pyspark.sql.functions import col, expr from pyspark.sql.window import Window from pyspark.sql.functions import percentile_approx spark = SparkSession.builder.appName("example").getOrCreate() data = [ (1, 10), (2, 20), (3, 30), (4, 40), (5, 50), (6, 60), (7, 70), (8, 80), (9, 90), (10, 100), (11, 110), (12, 20) ] columns = ["id", "value"] df = spark.createDataFrame(data, columns) window_spec = Window.orderBy("id").rowsBetween(-5, 0) df = df.withColumn( "median_value", expr("percentile_approx(value, 0.5)").over(window_spec) ) df = df.withColumn("feature", median_value > 35)

回答 1 投票 0

-privent-Conf在Spark-Submit中,来自Spark-Defaults.conf

I建立了一个捕获SQL查询的JAR,我最初打算让客户在Spark-Defaults.conf中添加此JAR。这样,将自动包含罐子,而无需任何...

回答 1 投票 0


在Spark DataFrame

我已经看到(这里:如何将时间戳转换为数据框中的日期格式?)转换数据类型中时间戳的方法,但是至少对我来说,它不起作用。 这是我尝试的: #创建DataFrame

回答 7 投票 0





未指望的是pyspark滤波器行为

df = df.filter( ~((col('CID') == "-") & (col('CID').isNull()) & col('trait_diff').isNull()) ) df = df.filter( ~((col('CID').isNull()) & col('trait_diff').isNull()) ) df = df.filter( ~((col('CID') == "-") & col('trait_diff').isNull()) )

回答 1 投票 0


获取Apache Spark中格式列表(数据源)

我们需要获取某些配置文件验证的格式列表(读写)。我所谈论的格式是: spark.read.format('this') spark.write.format('this') 有没有办法得到它...

回答 1 投票 0

如何在Spark的DataFrame

我将Python代码“翻译”到Pyspark。我想将现有列用作数据框架的索引。我使用熊猫在python中做到了这一点。下面的一小部分代码解释了我的所作所为。 t ...

回答 2 投票 0

SparkSQL传递变量 - 突触(火花池)

我有以下sparksql(spark池-Spark 3.0)代码,我想传递一个变量。我该怎么做?我尝试了以下内容: #cel 1(切换参数单元): %% pyspark stat ='a' #cel2: S ...

回答 3 投票 0





创建流媒体实时视图-Databricks

如何在更改数据feed的基础上在databricks中创建流媒体实时视图。 我有以下代码不起作用 创建流媒体实时视图vw_tms_shipment_bronze 作为 选择 *,,

回答 1 投票 0


将数据转换为列标题

我有一个具有以下内容的数据框-

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.