将 AWS 上的 Apache kafka 与 GCP 上的 Spark 连接

Question

我已在 GCP 上设置了一个 Dataproc 集群来运行 Spark 作业，并且 Spark 作业驻留在我已配置的 GCS 存储桶上。另外，我通过设置 MSK 集群和下载了 kafka 的 EC2 实例，在 AWS 上设置了 kafka。

这是一个更大架构的一部分，我们希望在该架构中运行多个微服务，并使用 kafka 将文件从这些微服务发送到 GCP 上的 Spark 分析服务进行数据处理，并通过 kafka 将结果发送回。

但是我无法理解如何将kafka与spark连接。我不明白他们如何进行通信，因为他们位于不同的云提供商上。互联网给了我非常模糊的答案，因为这是一个非常具体的情况。

请指导我如何解决此问题。

PS：我是云新手:)

Answer 1

连接将穿越互联网...您的家庭/办公室网络和“另一个云”之间的主要区别是防火墙设置将是分开的

您将连接到公共 MSK 端口

顺便说一句，您也可以在 GCP 中运行 Kafka...您还可以使用 Dataflow（即 Apache Beam），而不是 Spark