spark-kafka-integration 相关问题


Apache Spark Structured Streaming 中 Spark UI 上的查询和阶段卡住了

我在 EMR 集群 (6.14) 上使用 Apache Spark Structured Streaming (3.1.2)。 Spark 结构化流将数据从 Apache Kafka 流式传输到 Delta Lake 表。当我打开 Spark UI 时,我看到以下内容


在结构化流 API 中跨多个集群使用共享 Kafka 主题执行 Spark 作业

我正在开发一个 Spark 项目,我需要在两个不同的集群上运行作业,两个集群都使用相同的 Kafka 主题。我希望这些作业能够有效地共享负载并平衡


Spring Integration SMB 在 Linux(CentOS 7) 上无效

我使用Spring Integration SMB将本地文件上传到Windows共享文件夹,在本地windows环境和idea中可以正常运行,但是当我将应用程序打成jar包时......


Camel Kafka接收器连接器配置和依赖项

我正在尝试使用“camel-azure-storage-datalake-kafka-connector”从 Kafka 连接到 Azure ADLS Gen2 我有一个运行 Docker 的 Linux 机器,其中包含 debezium/zookeeper、debezium/kafka 和 debe...


机器上未出现 Kafka UI

我是 Kafka 和设置 Kafka UI 的新手,尽管我在最后的 docker 和 docker-compose 上设置了先决条件。 我最后有一个 3 节点 Kafka 集群设置。 下面是 docker-compose...


如何在 Kubernetes multipod 部署中使用 spring kafka 处理 Kafka 容器生命周期

我正在使用 Spring kafka 实现,我需要通过 REST API 启动和停止我的 kafka 消费者。为此,我正在使用 KafkaListenerEndpointRegistry endpointRegistry 端点注册表。


Kafka Java Consumer Client 是单线程的吗

我们正在开始使用 Kafka, 在阅读本文时 - https://docs.confluence.io/kafka-clients/java/current/overview.html - 它似乎暗示客户端是单线程的。 * 由于这个...


Flutter 和 NextJS 中的 SEO

我在 Flutter SEO 上真的很挣扎。 根据这篇文章,Flutter 中的 SEO 不好 https://docs.flutter.dev/platform-integration/web/faq#search-engine-optimization-seo 我在想如果


使用kafka密钥的kafka s3连接器分区

如何使用 kafka msg key 作为 s3 连接器中的分区标准或 我怎样才能获得密钥并将其存储在 s3 对象中 谢谢!


Apache Spark 中的 join 和 cogroup 有什么区别

Apache Spark 中的 join 和 cogroup 有什么区别?每种方法的用例是什么?


kedro ipython,如何访问spark会话

我能够在 kedro ipython 会话中加载 Spark 数据集。 首先,我按照此处所述配置了 Spark 会话。 然后我用 ipython --ext kedro.extras.exten 启动了 kedro ipython 会话...


在 Spark 的作业之间移动执行器的开销?

我正在阅读一篇有关 Spark 作业调度的论文,我对他们对 Spark 的概述感到困惑: Spark作业由一个DAG组成,其节点是作业的执行阶段。每个阶段代表...


通过CMD获取启用SSL的Kafka中的最新偏移量

我一直在使用下面的CMD从打开纯文本端口的Kafka队列中获取最新的偏移量 kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list 服务器:9092 --topic


Kafka Connect S3 Sink 添加元数据

我正在尝试将元数据添加到 kafka 的输出到 S3 存储桶中。 目前,输出只是来自 kafka 主题的消息的值。 我想用下面的东西把它包起来......


即使部署在 kubernetes pod 上,kafka 主题仍然是不可变的吗?

我在 kubernetes pod 上部署了 kafka 主题和模式注册表,我尝试修改/更改 kafka 主题和模式注册表的清单文件,然后模式注册表的行为在


无法使用java sdk连接到kafka代理

我创建了一个只有一个分区且在本地主机上没有复制的 kafka 主题,通过 kafka 控制台消费者和控制台生产者测试了消息传输,它工作正常,但在 tr...


使用 kafka-go 和循环平衡器时,数据始终进入分区 0

我正在使用 kafka-go 库将消息写入 Kafka。我正在使用循环平衡器,但数据始终进入分区 0。我尝试忽略所有消息的分区字段,但是...


我如何在本地运行假kafka主题(内存中)来测试kafka?

我尝试了一些依赖项,它期望安装docker或抛出运行时异常 我想在没有 Docker 设置的情况下在指定端口本地运行一个假 Kafka。 还有我的申请...


将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件,所以我首先将excel文件读入pandas数据帧,然后尝试将pandas数据帧转换为spark数据帧,但我得到了...


Dispatcher 在使用 spring-integation-mail 时没有订阅者

我们有一个多租户应用程序,它允许用户按需创建 IMAP 邮件获取器(也称为邮件接收器)并单独处理它们。为此,我们决定使用:spring-integration-mail (v ...


写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题(假设数据类型不正确)。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时,它失败了......


从 Kafka Consumer 传递数据

我想从Kafka获取数据,此方法成功获取记录但无法传递给变量。这是我的代码 公共无效 subscribeFromKafka() 抛出异常 { 列表结果=新


Spring 集成 JMS 轮询器以在轮询之间保留会话

我在 IBM MQ 系列队列上有一个 Spring Integration JMS 轮询器。当使用 IBM MQ Explorer(IBM 的基于 Eclipse 的队列浏览器应用程序)并查看队列的状态时,我看到了我的应用程序...


依赖更新后构建kafka生产者失败

在我的 SpringBoot Java 项目中,我使用的是 kafka,特别是 ReactiveKafka。我正在更新依赖项,特别是这些依赖项: springboot 2.6.6 -> 3.1.5 弹簧卡夫卡 2.8.0 -> 3.0.11 反应堆-


如何在intellij中设置和运行scala-spark?

我正在尝试运行使用 Intellij 来构建用 scala 编写的 Spark 应用程序。当我执行scala程序时,出现以下错误: 线程“main”java.lang 中出现异常。


Glue Dynamic Frame 比普通 Spark 慢得多

在下图中,我们使用三种不同配置运行相同的胶水作业,以了解如何写入 S3: 我们使用动态帧写入S3 我们用纯spark框架写信给S...


Kafka UI 无法连接到 Broker

我是容器化新手。我正在尝试设置我的本地环境,我的 java 应用程序想要连接到 Kafka。无法使用 Docker,所以决定使用 Podman。我有三个容器在同一个上运行


将 Spark-Submit 的路径传递到 Python 脚本中

我想将我在 Spark-submit 命令行命令中使用的路径传递到我的 Python 脚本中,以便在写出文件时使用。 (注意:不是当前工作目录,也不是


无法将 Spark 数据帧写入 Mongo

使用 mongo-connector 版本 10.0.1 以下是我的配置 .config("spark.mongodb.write.connection.uri","mongodb://127.0.0.1:27017/") .config("spark.mongodb.write.database&


Spring Boot 3.1.X及以上版本的Kafka客户端连接问题

我最近将我的一项 Spring Boot 服务升级到 3.1.x,升级后我遇到了 kafka 问题。它似乎无法连接并不断向我提供以下日志。 2024-01-03T06:18...


有没有办法将AWS Cloudwatch日志输入Kafka主题

我正在努力寻找这方面的任何方向。我有一个内部系统可以处理日志以进行监控。我希望从 Cloudwatch 发送错误并在 kafka 主题上发布,其中...


Kafka:如何使用 Java API 从主题中删除记录?

我正在寻找一种从 Kafka 主题中删除(完全删除)已使用记录的方法。我知道有几种方法可以做到这一点,通过更改主题的保留时间或删除...


从 kafka 连接 API 获取任务 ID 以在日志中打印

我有一个kafka连接接收器代码,下面的json作为curl命令传递来注册任务。 如果有人知道如何获取我的连接的任务 ID,请告诉我。例如在


Kafka 流使用标头过滤消息

我们正在尝试在我们的项目中使用 kafka 流来从一个主题读取数据并写入另一个主题,并且我们有一个使用 KafkaHeaders 作为过滤某些记录的机制的用例。 例如,...


通过全局初始化脚本启用 Databricks 集群日志

我想通过全局初始化脚本为工作区中的所有集群(新的或旧的)设置集群日志传送。 我尝试通过自定义 Spark conf 添加底层 Spark 属性 - /databricks/dri...


Kafka 总是有一个消费者消费一组中的主题消息

我有两个具有相同组ID的消费者服务器订阅了相同的主题。 一台 kafka 服务器仅运行一个分区。 据我所知,消息应该在这两个中随机消耗


具有手动偏移提交功能的 Kafka 消费者客户端一次只允许客户端

我目前正在使用一个Java Kafka消费者,它手动提交偏移量(enable.auto.commit = false),我发现即使我生成了多个实例,我发现这样的设置也是如此


有没有办法将图像的内容(存储在spark Dataframe中)与pyspark并行写入文件?

我有一个 Spark Dataframe,其中每一行都包含两个项目:文件名(带有扩展名,例如 .jpg)和文件的内容(以字节为单位)。 我想写一个过程...


Spark SQL 不支持 JSONPATH 通配符的任何解决方法

spark.sql("""select get_json_object('{"k":{"value":"abc"}}', '$.*.value') as j""").show() 这会导致 null,而它应该返回 'a...


Kafka 消费者在获取相关 ID 为 22 的元数据时出错:{FINSRVC_TOPIC_PROD=UNKNOWN_TOPIC_OR_PARTITION}

我的 springboot kafka 消费者微服务在我第一次在生产中部署并消费消息时工作正常。 我上周重新部署了微服务,做了一些小的更改,然后就可以了


如何仅删除已消费的消息以及如何在kafka主题中显示未消费的消息?

我们将一个项目从ActiveMQ迁移到Kafka。 过去我们向很多队列写入了太多的消息,消费完之后,ActiveMQ会自动删除消费的消息。仅未消耗


Kafka 保留设置 - 如果所有消费者组都消费了一个主题,则从队列中删除

假设我有一个kafka队列和一个名为TOPIC的主题,并且我有两个消费者组CONSUMER1和CONSUMER2。我在 TOPIC 中添加了 1000 条数据。 Consumer1 有消费者 800 条数据,CONSUMER2 有


Spark:来自数组列的新数据框列

我有这个数据框: +---------+ | 数据| +---------+ |[a、b、c]| |[d, e, f]| |[g,h,i]| +---------+ 以及列名称列表 [“第一列”,“第二列”,“第三列...


如何在 Apache Spark scala 中读取 PDF 文件和 xml 文件?

我读取文本文件的示例代码是 val text = sc.hadoopFile(路径, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], sc.defaultMinPartitions) var rddwithPath = text.asInstan...


如何在 Cloud Composer 2 的 KerbenetesPodOperator 中指定非默认计算类

我正在 Cloud Composer 2 中使用 KurbenetesPodOperator 创建 pod 来执行 Spark 作业。 默认情况下,当您使用


在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框,其中有一列,如下所示: +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...


从spark/scala项目代码中资源文件夹中的sql文件读取查询

我在 IntelliJ 中的文件夹结构如下 src-->主-->资源-->sql-->samplequery.sql 我在文件夹 src--> main-->scala-... 中有 scala 对象文件samplequeryexecute


Spark:坚持没有按预期工作

我使用了 PySpark DataFrame,在其中调用了 UDF 函数。此 UDF 函数进行 API 调用并将响应存储回 DataFrame。我的目标是存储 DataFrame 并在...中重用它


pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("


Databricks Spark:java.lang.OutOfMemoryError:GC 开销超出限制 i

我正在 Databricks 集群中执行 Spark 作业。我通过 Azure 数据工厂管道触发作业,它以 15 分钟的间隔执行,因此在成功执行三到四次之后...


© www.soinside.com 2019 - 2024. All rights reserved.