我在Kafka主题中有2个流数据,我必须加入
Stream1.join(Stream2) 在公共密钥上,我已经在事件时间戳字段中为两个流应用了水印和窗口。我也可以看到合并结果,
但用例场景是,
如果我连接 1 到多条记录(DataFrame),我必须在连接后立即将它们转变成一条记录
第1步:joinedDF = Stream1.join(stream2).on("Name")
步骤2:joinedDF.groupBy("Name").pivot("Subject")
我了解在第2步期间不支持多重聚合
将其实现为有状态 Spark 流(单个)作业的最佳方法是什么。
使用每个键处理多个记录的过程。实现这一目标的一种方法是从窗口开始,应用 UDF,然后将主题旋转到列中。