如何从cassandra表中流式传输数据?

问题描述 投票:5回答:2

我想从一个实时更新的cassandra表中流式传输数据。是的,它是一个数据库但是有办法做到这一点吗?如果是这样,保留偏移或我可以使用哪些CQL查询?

cassandra streaming spark-streaming spring-xd bigdata
2个回答
5
投票

简短的回答是否定的。

很长的答案是有很多困难和智能群集键,你可以做到这一点。基本上,如果使用始终增加的聚类键插入数据,则始终只能在最近的时间间隔内扫描聚类键。这当然会错过窗外的无序插入。对于您的用例,这可能或可能不够好。

未来的最佳答案是变更数据捕获:https://issues.apache.org/jira/browse/CASSANDRA-8844


0
投票

我理解你是专门询问有关Cassandra的流数据,但我想建议像Apache Kafka这样的技术听起来更适合你想要做的事情。它由number of other large companies使用,具有出色的实时性能。

Jay Kreps有一篇名为The Log: What every software engineer should know about real-time data's unifying abstraction的开创性博客文章,很好地解释了Kafka的目的和设计。博客文章的一个重要引用总结了卡夫卡的角色:

获取组织的所有数据并将其放入中央日志中以进行实时订阅。

© www.soinside.com 2019 - 2024. All rights reserved.