从 Kafka 读取数据到 AWS Redshift 的最佳实践

问题描述 投票:0回答:2

将数据从 Kafka 集群移动到 Redshift 表的最佳实践是什么? 我们有连续的数据到达 Kafka,我想将其写入 Redshift 中的表(不必是实时的)。

  • 我应该使用 Lambda 函数吗?
  • 我是否应该编写一个在专用 EC2 实例上运行的 Redshift 连接器(使用者)? (缺点是我需要处理冗余)
  • 有 AWS 管道服务吗?
amazon-web-services apache-kafka aws-lambda amazon-redshift
2个回答
12
投票

Kafka Connect 通常用于将数据从 Kafka 传输到(或从)数据存储。它可以做一些有用的事情,比如自动管理扩展、故障转移、模式、序列化等等。

此博客展示了如何使用开源 JDBC Kafka Connect 连接器流式传输到 Redshift。还有一个社区 Redshift 连接器,但我还没有尝试过。

此博客展示了另一种方法,不使用 Kafka Connect。

免责声明:我为 Confluence 工作,他创建了 JDBC 连接器。


0
投票

作为 Kafka Connect 的替代方案,您可以使用托管服务,例如 Estuary Flow(免责声明:我在那里工作!)。 本文解释了如何通过几次点击在 Kafka 和 Redshift 之间设置数据流,而无需自己管理任何 Connect 服务。

© www.soinside.com 2019 - 2024. All rights reserved.