将 AWS 上的 Apache kafka 与 GCP 上的 Spark 连接

问题描述 投票:0回答:1

我已在 GCP 上设置了一个 Dataproc 集群来运行 Spark 作业,并且 Spark 作业驻留在我已配置的 GCS 存储桶上。另外,我通过设置 MSK 集群和下载了 kafka 的 EC2 实例,在 AWS 上设置了 kafka。

这是一个更大架构的一部分,我们希望在该架构中运行多个微服务,并使用 kafka 将文件从这些微服务发送到 GCP 上的 Spark 分析服务进行数据处理,并通过 kafka 将结果发送回。

但是我无法理解如何将kafka与spark连接。我不明白他们如何进行通信,因为他们位于不同的云提供商上。互联网给了我非常模糊的答案,因为这是一个非常具体的情况。

请指导我如何解决此问题。

PS:我是云新手:)

apache-spark apache-kafka
1个回答
0
投票

连接将穿越互联网...您的家庭/办公室网络和“另一个云”之间的主要区别是防火墙设置将是分开的

您将连接到公共 MSK 端口

顺便说一句,您也可以在 GCP 中运行 Kafka...您还可以使用 Dataflow(即 Apache Beam),而不是 Spark

© www.soinside.com 2019 - 2024. All rights reserved.