spark-streaming 相关问题

Spark Streaming是核心Apache Spark API的扩展,可实现实时数据流的高吞吐量,容错流处理。从版本1.3.0开始,即使遇到故障,它也支持一次性处理语义。

具有 Spark 结构化流的动态过滤器

我正在开发 Spark Streaming 项目,目标是创建一个简单的应用程序,以便在数据流满足条件时通知用户(例如,当股票价格 > x 时发送通知)。 df =...

回答 1 投票 0

jdbc postgres 在 Spark 3.2.4 中批量写入但不流式传输

出于某种原因,jdbc postgresql 对于接收批处理数据效果很好,但它不适用于我的新版本的 Spark 3.2.4、Scala 2.12.15 和 hadoop 3.3.4 的流数据。 罐子文件: 卡夫卡-客户-3....

回答 1 投票 0

Spark 流 - withWatermark() 具有重复行为

我正在从 Kafka 读取数据(最早开始偏移)并在控制台上写入数据进行一些测试。水印持续时间为 10 秒。遵循 Spark 文档 - https://spark.apache.org/

回答 1 投票 0

Spark Streaming 输出模式仅处理新消息

我使用 nats-spark-connector ( https://github.com/nats-io/nats-spark-connector/tree/main/load_balanced ) 连接到 NATS Jetstream 并使用 Spark 使用消息和进程Java代码。是...

回答 1 投票 0

需要在pysaprk流作业中执行聚合操作

我每隔 1 分钟就将多个传感器的数据流接收到数据块中。如果传感器“ABC”和“DEF”可用于每个 pyspark 流,则需要创建新的传感器名称“PQRS”

回答 1 投票 0

Spark依赖启动失败

我收到依赖项无法启动错误,但容器正在运行且可访问。此外,日志文件没有显示任何错误。我可以从 localhost:9090 访问 UI。我正在运行 docker...

回答 1 投票 0

主机上的 .NET 应用程序与 docker 容器中的 Spark-streaming 应用程序通过套接字建立连接

我需要提交两份申请。 .net应用程序将从主机发送json,docker容器中的spark-streaming应用程序将通过套接字接收该数据并处理它。乙...

回答 1 投票 0

Spark 流 leftOuter 无法与第三个流连接一起使用

我被这个流 leftOuter join 困住了。我能够流连接 2 个数据帧,并且在水印时间到期后可以获得空值。但如果我加入 3 个数据框,我就无法实现。 ...

回答 1 投票 0

流数据帧/数据集不支持非基于时间的窗口,如何解决这个问题?

在我的代码中有一个特定的要求,因此我必须在流数据帧上使用分区。 但给了我以下错误 流式 DataF 不支持非基于时间的窗口...

回答 1 投票 0

Stream-Static Join:如何定期刷新(取消持久化/持久化)静态数据帧

我正在构建一个 Spark 结构化流应用程序,我正在其中进行批处理流连接。并且批量数据的来源会定期更新。 所以,我打算做一个坚持/取消坚持...

回答 2 投票 0

如何加载目录中的某些文件并在 Spark Streaming 中监视该目录中的新文件而不会丢失?

我有一个hdfs目录,其中包含很多文件: /用户/根/1.txt /用户/根/2.txt /用户/根/3.txt /用户/根/4.txt 并且有一个守护进程每分钟向该目录添加一个文件。 (例如...

回答 1 投票 0

Spark UI 的阶段终止是否会导致数据重新处理?

在 Spark UI 中,具有杀死活动运行阶段的功能: 当使用此按钮杀死阶段时,与该阶段关联的任务将被重新处理?或者他们会

回答 1 投票 0

来自 Kafka 源的 Pyspark 结构化流中的异常

环境:Spark 3.5.0、Scala 2.12.18、openjdk 11.0.20.1 我正在尝试从 Kafka 源流式传输数据,但从 Spark 中得到异常。 看来这通常是由于依赖版本所致

回答 1 投票 0

Spark:并行处理多个kafka主题

我使用的是spark 1.5.2。我需要使用 kafka 作为流源来运行 Spark 流作业。我需要读取 kafka 中的多个主题并以不同的方式处理每个主题。 这是个好主意吗...

回答 3 投票 0

spark 流式传输多个 kafka 流非阻塞

在我的 Spark Streaming 工作中,我正在听多个 Kafka 主题,比如 T1、T2 和 T3。基于批次持续时间,spark 将为每个批次持续时间创建 RDD。 RDD 将包含记录...

回答 1 投票 0

并行运行不同DStream的多个Spark Streaming作业

我有一个 Spark Streaming 应用程序,可以从多个 Kafka 主题读取数据。每个主题都有不同类型的数据,因此需要不同的处理管道。 我最初的解决方案是...

回答 1 投票 0

Pyspark java.lang.OutOfMemoryError 与 WholeTextFiles 错误

我在 data_dir 中有 1160 个 XML 文件,每个文件大小 300MB。我想统计整个单词的数量。我有一台具有 256 个内核和 256 GB RAM 的本地计算机。鉴于整个数据大小约为...

回答 1 投票 0

PySpark 数据框转换 pyspark

我有一个下面的数据框,我需要将其转换如下。 我正在使用 PySpark 3.4.1 。 +------------------------+------------------------ -------------------------------------------------- ---------...

回答 1 投票 0

如何优雅地停止运行 Spark Streaming 应用程序?

如何停止 Spark Streaming? 我的 Spark Streaming 作业正在持续运行。我想优雅地停下来。 我看到了以下用于关闭流媒体应用程序的选项。 SparkConf.set(&

回答 1 投票 0

Scala Spark Iceberg writeStream。如何设置桶?

我正在尝试将数据写入Spark流中的Iceberg表(用Scala编写)。 作者代码: val 流结果 = 加入.writeStream .format("冰山") .partitionBy("c...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.