在 Apache Flink 中缓存 HDFS 表

Question

我需要在 HDFS 中读取和缓存 parquet 表（该表在另一个 Spark 作业中每天更新一次）。我想缓存它，以便稍后可以将它与我的 Kafka 主题一起加入（该主题以流模式读取）。在 Spark 中，只需一个命令 .cache() 就可以轻松完成，但我在 Flink 中找不到任何简单的解决方案。也许我错过了什么？

我是 Flink 新手，非常感谢您的帮助！

Answer 1

如果您使用 DataStream API，那么您将为 Parquet 文件创建一个 FileSource，并具有一定的监视间隔（以便在表更新时，您可以获得新的流记录）。然后，您将使用 KeyedProcessFunction 进行有状态连接，在其中以状态保存此流中的记录。

使用 Table API 实现起来会更简单。

在 Apache Flink 中缓存 HDFS 表

问题描述投票：0回答：1

1个回答

最新问题

在 Apache Flink 中缓存 HDFS 表

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1