Spark Streaming是核心Apache Spark API的扩展,可实现实时数据流的高吞吐量,容错流处理。从版本1.3.0开始,即使遇到故障,它也支持一次性处理语义。
为什么spark既需要预写日志又需要检查点? 为什么我们不能只使用检查点?另外使用预写日志有什么好处? 存储的数据有什么区别...
我想编写一个带有重新分区的大型数据帧,所以我想计算源数据帧的重新分区数量。 numberofpartition = {数据帧大小/default_blocksize} 如何
Airflow - GCP Composer 中的 Bashoperator 任务
我正在使用 bash 运算符来运行 shell 脚本,该脚本实际上启动了 dataproc 流作业。这是永无止境的工作。问题是这个 bash 操作员任务自动进入失败状态......
如何修复来自 apache-spark 的对等消息重置连接?
我经常收到以下异常,我想知道为什么会发生这种情况?经过研究,我发现我可以这样做 .set("spark.submit.deployMode", "nio");但这没有用...
我想知道为什么我的 Spark 流应用程序的每第四批都会出现巨大的峰值。 一些细节 这是使用rocksdb状态存储的安全处理 从 Kafka 读取 180 个分区 写...
我的 Spark 工作面临这个问题。这项工作长时间运行良好,但现在我看到了这个问题。我无法找到解决方案,请帮助我。 我们在 Kubernetes 上运行它。 因为...
尝试设置 Spark 在 Jupyter Notebook 中运行。代码运行但没有任何反应
我正在尝试设置 Spark 在我的 ThinkPad 笔记本电脑上运行。我按照下面链接中列出的说明进行操作。 https://medium.com/@ansabiqbal/setting-up-apache-spark-pyspark-on-windows-11-machine-
在我的组织中,我们使用 AWS 和 Azure 来执行各种数据处理任务。数据在 AWS 中收集和聚合,然后传输到 Azure 进行 BI 分析和报告。 传入数据...
从 Postgres 读取数据并写入 Google BigQuery 时架构不匹配
我创建了一个 pyspark 脚本来通过 Dataproc 将数据从 PG DB 迁移到 Google Bigquery,但是在 dataproc 上运行日志时遇到错误 引起的:java.lang.NullPointerExcepti...
写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录
我知道我的 Spark Scala 数据帧的第 n 行存在一些问题(假设数据类型不正确)。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时,它失败了......
PySpark 中的 Union 静态数据帧与 Spark 结构化流数据帧?
有没有其他方法可以在 PySpark 中应用静态数据帧和结构化流数据帧之间的并集?
我想将这个简单的pyspark数据帧发送到kafka,我做了所有事情,但我总是收到错误。我用简单的 python 生产者脚本尝试它,它可以工作,并且 pyspark 读取流可以工作我的...
我正在尝试将用于构建实时数据管道的技术,并且在将内容导出到文件时遇到了一些问题。 我已经设置了一个本地 kafka 集群,并且点头......
使用 Scala 在 Spark 流应用程序中编写优化 UDF 的最佳方式是什么?
我正在使用 Spark Streaming 应用程序,我需要使用来自一个 Kafka 主题的数据并需要推送到另一个 Kafka 主题。 我创建了一个 UDF 函数来执行一些业务逻辑
如何使用 Spark Dataframe 将列行转换为字符串变量
我需要将单列行转换为字符串变量,以便在从数据库表加载时在 where 条件中使用,而不是从表中加载整个数据。 像下面这样的示例数据框...
当我部署 Spark Streaming 作业并通过 Spark2-submit 运行它时,我每秒都会收到这样的日志消息: 21/02/24 21:45:27 INFO yarn.Client: application_1612163470992_382017 ...
Databricks Spark Streaming 停止且没有任何错误消息
向 Lake 写入以下消息后,数据流式传输停止: 流媒体停止 输出[18]: 当我执行单元格时
DeltaFileNotFoundException:在目录 DataBricks 中找不到文件
我想请求您的帮助。 我一直在使用 DataBricks。 我们开发了一些脚本,它们正在流媒体中工作。 假设我们有两个作业正在运行和编写...
NoSuchMethodError:org.apache.kafka.clients.consumer.KafkaConsumer.poll
当我使用 SparkRDD API 从 Kafka 读取数据时遇到 NoSuchMethodError。当有第一个可用记录并且存在异常时,堆栈跟踪看起来像这样
kubernetes 上的 Spark 如何在发生故障/重新启动时恢复驱动程序
我有一个 Spark Streaming 作业,目前在 Kubernetes 中以集群模式运行。驱动程序和执行程序运行良好,我对它们没有任何问题。 然而,当思考失败时,如何才能...