在 Apache Flink 中缓存 HDFS 表

问题描述 投票:0回答:1

我需要在 HDFS 中读取和缓存 parquet 表(该表在另一个 Spark 作业中每天更新一次)。我想缓存它,以便稍后可以将它与我的 Kafka 主题一起加入(该主题以流模式读取)。在 Spark 中,只需一个命令 .cache() 就可以轻松完成,但我在 Flink 中找不到任何简单的解决方案。也许我错过了什么?

我是 Flink 新手,非常感谢您的帮助!

apache-flink flink-streaming
1个回答
0
投票

如果您使用 DataStream API,那么您将为 Parquet 文件创建一个 FileSource,并具有一定的监视间隔(以便在表更新时,您可以获得新的流记录)。然后,您将使用 KeyedProcessFunction 进行有状态连接,在其中以状态保存此流中的记录。

使用 Table API 实现起来会更简单。

© www.soinside.com 2019 - 2024. All rights reserved.