apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

在Spark 3.5中使用Mapinpandas的绩效降解。*

升级到Spark 3.5。*，我注意到将MAPINPANDAS用于计算密集型任务时，我注意到了显着的性能下降，在这种情况下，在这种情况下，计算塑造值并行。性能

apache-spark pyspark

回答 0 投票 0

SparkJava结构化流滤波器

java apache-spark dataset spark-structured-streaming

回答 1 投票 0

如何根据pyspark窗口函数中的动态条件排除行？我正在与Pyspark一起工作，需要创建一个窗口函数，该窗口函数计算列中前5个值的中位数。但是，我想排除在特定列功能的情况下排...

from pyspark.sql import SparkSession from pyspark.sql.functions import col, expr from pyspark.sql.window import Window from pyspark.sql.functions import percentile_approx spark = SparkSession.builder.appName("example").getOrCreate() data = [ (1, 10), (2, 20), (3, 30), (4, 40), (5, 50), (6, 60), (7, 70), (8, 80), (9, 90), (10, 100), (11, 110), (12, 20) ] columns = ["id", "value"] df = spark.createDataFrame(data, columns) window_spec = Window.orderBy("id").rowsBetween(-5, 0) df = df.withColumn( "median_value", expr("percentile_approx(value, 0.5)").over(window_spec) ) df = df.withColumn("feature", median_value > 35)

python apache-spark pyspark apache-spark-sql window-functions

回答 1 投票 0

spark connect udf fails with "SparkContext or SparkSession should be created first"

I have a Spark Connect server running. Things are fine when I don't use UDFs (df.show() always works fine). But when I use UDF, it fails with SparkContext or SparkSession should be created first.

apache-spark pyspark spark-connect

回答 1 投票 0

获取spark.rpc.message.maxsize错误带有大文件

python azure apache-spark databricks azure-databricks

回答 0 投票 0

如何防止在groupby.applyinpandas上使用上游数据集上的哈希分区？

apache-spark pyspark partitioning palantir-foundry foundry-code-repositories

回答 0 投票 0

-privent-Conf在Spark-Submit中，来自Spark-Defaults.conf

I建立了一个捕获SQL查询的JAR，我最初打算让客户在Spark-Defaults.conf中添加此JAR。这样，将自动包含罐子，而无需任何...

apache-spark apache-spark-sql

回答 1 投票 0

如何停止覆盖spark-defaults.conf

apache-spark apache-spark-sql

回答 1 投票 0

在Spark DataFrame

我已经看到（这里：如何将时间戳转换为数据框中的日期格式？）转换数据类型中时间戳的方法，但是至少对我来说，它不起作用。这是我尝试的：＃创建DataFrame

apache-spark date pyspark apache-spark-sql timestamp

回答 7 投票 0

我正在使用apache spark

应该启动连接服务器，但没有发生。有什么想法吗？ thx

apache-spark

回答 0 投票 0

单元测试状态流处理功能

python unit-testing apache-spark pyspark spark-structured-streaming

回答 0 投票 0

为什么在流中允许更新模式到静态，但在流中不允许流式流中的流中。当我进行简单的流进行静态加入时，允许使用Update模式。但是，当进行流以简单加入流时，不允许更新模式。我不明白为什么在流中允许更新到S ...

apache-spark pyspark spark-streaming spark-structured-streaming

回答 1 投票 0

记忆在Spark Job中单调增加我需要在火花内存问题方面提供一些帮助。我的Spark应用程序在单个JVM中运行，作为Kubernetes Pod。工作的性质是它是一份批处理的工作，运行4-5个小时，并且...

ISSUE

java apache-spark memory-management apache-spark-sql memory-leaks

回答 0 投票 0

ClassNotFoundException即使JAR TVF显示“丢失”class

java.lang.RuntimeException: java.lang.ClassNotFoundException: org.postgresql.ds.PGSimpleDataSource at com.zaxxer.hikari.util.UtilityElf.createInstance(UtilityElf.java:96) at com.zaxxer.hikari.pool.PoolBase.initializeDataSource(PoolBase.java:314) at com.zaxxer.hikari.pool.PoolBase.<init>(PoolBase.java:108) at com.zaxxer.hikari.pool.HikariPool.<init>(HikariPool.java:105) at com.zaxxer.hikari.HikariDataSource.<init>(HikariDataSource.java:72) at mypackage.SansORMProvider.get(SansORMProvider.java:42) at mypackage.MySansORMProvider.get(MySansORMProvider.scala:15) at mypackage.MyApp$.main(MyApp.scala:63) at mypackage.MyApp.main(MyApp.scala) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$2.run(ApplicationMaster.scala:680) Caused by: java.lang.ClassNotFoundException: org.postgresql.ds.PGSimpleDataSource at java.net.URLClassLoader.findClass(URLClassLoader.java:382) at java.lang.ClassLoader.loadClass(ClassLoader.java:418) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:352) at java.lang.ClassLoader.loadClass(ClassLoader.java:351) at com.zaxxer.hikari.util.UtilityElf.createInstance(UtilityElf.java:83) ... 13 more

java maven apache-spark maven-shade-plugin

回答 1 投票 0

如何在Spark

lag

scala apache-spark

回答 1 投票 0

Spark -TimestampTimeZone

我有一个ETL操作，我正在查询一个SQLServer，其中使用“ America/New_york TimeZone”中的DateTims将数据写入parquet并通过Spark 3.5和Delta 3.1）将数据写入Delta表中。

apache-spark pyspark delta-lake

回答 0 投票 0

does“ java.io.io exception：无法删除火花临时端”影响您的火花结果？我正在使用Spark-Submit运行火花作业。归根结底，我也会收到一些输出，但日志文件显示 WARN SPARKENV：87-删除Spark Temp dir时例外：...... java.io.

Java.io.io.ioexception：无法删除：...