从 Google 云存储中移动/流式传输数据的最佳方式是什么?另外,Dataflow 是否提供任何功能将数据从 Google 云存储流式传输到外部 GCP?
将数据移出 Google 云存储的最佳方法可能是他们的 gsutil 工具,或者您可以使用他们为简单起见提供的 python 和 boto 插件,您将在此链接中找到详细信息。 https://cloud.google.com/storage/docs/streaming。 至于问题的第二部分,Kafka 现在可以连接到 Cloud Dataflow,我认为您可以使用它从 GCP 流式传输数据。 Apache Beam 自 2016 年起支持 KafkaIO。我想下面的链接会对您有所帮助。
https://github.com/apache/beam/tree/master/sdks/java/io/kafka