spark-streaming 相关问题

Spark Streaming是核心Apache Spark API的扩展，可实现实时数据流的高吞吐量，容错流处理。从版本1.3.0开始，即使遇到故障，它也支持一次性处理语义。

为什么在流中允许更新模式到静态，但在流中不允许流式流中的流中。当我进行简单的流进行静态加入时，允许使用Update模式。但是，当进行流以简单加入流时，不允许更新模式。我不明白为什么在流中允许更新到S ...

apache-spark pyspark spark-streaming spark-structured-streaming

回答 1 投票 0

没有在Join Keys

我的bewlow代码在我想做流式流左外连接时失败。 @dlt.view def vw_ix_f_activity_gold（）：返回（ spark.Readstream .option（“

spark-streaming azure-databricks delta-live-tables

回答 1 投票 0

如何将RDD数据保存到JSON文件中，而不是文件夹

scala apache-spark spark-streaming

回答 2 投票 0

从delta表auto-refresh读取火花数据框？

特别是，我有一个带有HW信息的表，该表可以通过计划的作业定期更新，例如：

scala databricks spark-streaming azure-databricks

回答 1 投票 0

为什么Stream to Stream内连接不需要强制水印

根据 Spark Structured Streaming 的 Spark 文档，如果 2 个表是流类型，则内连接将在没有任何水印的情况下工作，但是，左外连接强制需要水印....

apache-spark pyspark spark-streaming spark-structured-streaming spark-streaming-kafka

回答 1 投票 0

Spark Streaming 检查点中sources 目录中的文件夹“0”有何意义？

我看到spark结构化流检查点目录有一个sources文件夹，用于跟踪处理数据的文件名和batch_id。但它会创建一个名为“0”的父文件夹，然后

apache-spark pyspark apache-kafka spark-streaming spark-structured-streaming

回答 1 投票 0

即使在重启策略后，Kubernetes 的 Spark 驱动程序 Pod 也不会重新启动：始终

我正在我的 kubernetes 集群中运行 Spark-Submit。根据 Spark 文档，我正在创建一个 Pod 模板并指定“始终”重启策略。下面是我的 Pod 模板。 api版本：v1 种类：

apache-spark kubernetes pyspark spark-streaming

回答 2 投票 0

使用自动加载器数据块过滤目录

我有一个具有这种结构的数据湖。不幸的是，正如您在第二张图片中看到的那样，数据中存在错误，因此我的未来和过去的岁月毫无意义，而且他们有虚拟......

apache-spark pyspark databricks spark-streaming spark-structured-streaming

回答 1 投票 0

Spark 中的 StreamQueryListener 不执行 onQueryProgress() 中的代码

我正在从 Databricks 增量表作为流读取数据并将其写入另一个增量表（使用屏幕截图中的控制台以便于调试），我想使用 StreamingQueryListener(...

apache-spark databricks etl spark-streaming spark-structured-streaming

回答 3 投票 0

Pyspark：通过服务主体向事件中心进行身份验证

我有一个服务主体，它有权读取 Eventhub 上的主题。我想阅读其中的主题并尝试以下操作： # 使用服务主体 (SAS) 的事件中心连接字符串

spark-streaming azure-eventhub

回答 1 投票 0

如何在 Spark 中动态应用数组列类型

我有一个 PySpark DataFrame，其中包含一个字符串列，其中包含结构为对象数组的 JSON 数据。但是，这些 JSON 对象的架构可能因行而异。这是两个例子...

python apache-spark pyspark apache-spark-sql spark-streaming

回答 1 投票 0

如何从 Spark 作业中检索通过 Dataproc 提交的作业的 jobId

我想获取在 Spark 上下文中运行的 Spark 作业的 jobId。 Dataproc 是否将此信息存储在 Spark Context 中？

apache-spark spark-streaming google-cloud-dataproc dataproc

回答 3 投票 0

Spark 3.0 - 从 MQTT 流读取数据

我想将数据流从基于 mosquitto 的 MQTT 主题读取到我的 Spark 3.0 应用程序中。我尝试通过以下方式使用 Bahir 库：数据集 df = SparkSession .

apache-spark apache-spark-sql spark-streaming mqtt mosquitto

回答 1 投票 0

Autoloader 未在流模式下拾取 .text 文件

我正在使用 Databricks Autoloader 以流（微批量）模式处理文件。源文件采用.text 格式。虽然创建了检查点并且流没有失败，但 Delta ta...

databricks spark-streaming azure-databricks spark-structured-streaming databricks-autoloader

回答 1 投票 0

PySpark 流式传输与 AWS Kinesis Datastream 连接

我正在尝试将 AWS Kinesis Data Stream 读入 PySpark sql 数据帧。这是我的Python代码将 pyspark 导入为 ps 火花=（ ps.sql.SparkSession.builder .config(地图= { '火花...

apache-spark pyspark apache-spark-sql spark-streaming amazon-kinesis

回答 1 投票 0

没有记录被处理并且所有检查点文件数据不一致

我正在尝试使用 AWS Glue Streaming ETL 作业使用触发器进行读写。AvailableNow 与 Kinesis Data Streams 一起使用，就像我与 Kafka 一起使用一样，但没有处理任何记录，并且所有检查点文件都有

apache-spark spark-streaming aws-glue amazon-kinesis

回答 1 投票 0

AWS Glue 流 + Kinesis + 触发器现已推出

apache-spark spark-streaming aws-glue amazon-kinesis

回答 1 投票 0

使用事件中心管理 PySpark Streaming 中的数据封装

使用 PySpark 流式传输数据时，我收到的主要消息封装在名为“body”的键中。 Spark.readStream.format("eventhubs").options(**ehConf).load() 难道是……

azure pyspark databricks spark-streaming

回答 1 投票 0

Spark 结构化流：流-流连接与不写入的聚合

平台：Databricks Notebooks|语言：PySpark 上下文：我正在尝试在流数据管道中构建一个节点，该节点评估所有存在的行数（例如 count(*) == Expected_co...

apache-spark pyspark databricks spark-streaming spark-structured-streaming

回答 1 投票 0

PySpark 流代码中的动态键/列重命名

我正在尝试动态重命名流数据中的列，但标准方法似乎不适用于流。我的代码如下。 json_df = Spark.readStream.format("前夕...

pyspark databricks spark-streaming

回答 1 投票 0

spark-streaming 相关问题

最新问题