我已在 GCP 上设置了一个 Dataproc 集群来运行 Spark 作业,并且 Spark 作业驻留在我已配置的 GCS 存储桶上。另外,我通过设置 MSK 集群和下载了 kafka 的 EC2 实例,在 AWS 上设置了 kafka。
这是一个更大架构的一部分,我们希望在该架构中运行多个微服务,并使用 kafka 将文件从这些微服务发送到 GCP 上的 Spark 分析服务进行数据处理,并通过 kafka 将结果发送回。
但是我无法理解如何将kafka与spark连接。我不明白他们如何进行通信,因为他们位于不同的云提供商上。互联网给了我非常模糊的答案,因为这是一个非常具体的情况。
请指导我如何解决此问题。
PS:我是云新手:)
连接将穿越互联网...您的家庭/办公室网络和“另一个云”之间的主要区别是防火墙设置将是分开的
您将连接到公共 MSK 端口
顺便说一句,您也可以在 GCP 中运行 Kafka...您还可以使用 Dataflow(即 Apache Beam),而不是 Spark