没有记录被处理并且所有检查点文件数据不一致

问题描述 投票:0回答:1

我正在尝试使用 AWS Glue Streaming ETL 作业使用触发器进行读写。AvailableNow 与 Kinesis Data Streams 一起使用,就像我与 Kafka 一起使用的那样,但没有处理任何记录,并且所有检查点文件都具有与startingPosition 和 iteratorType 相关的不一致数据。

streaming_df: DataFrame = spark \
.readStream \
.format("kinesis") \
.option("streamName", "oxg-cdp-cdc-stream-sbx") \
.option("endpointUrl", "https://kinesis.eu-central-1.amazonaws.com") \
.option("region", "eu-central-1")\
.option("startingPosition", "earliest")\
.load()


streaming_df \
.writeStream \
.option("checkpointLocation", <s3_location>") \
.trigger(availableNow=True) \
.foreachBatch(for_each_batch_funtion) \
.start() \
.awaitTermination()

availableNow 似乎无法与 Kinesis 一起正常工作,但我找不到任何官方文档说明这一点。

apache-spark spark-streaming aws-glue amazon-kinesis
1个回答
0
投票

这里是 Spark github 示例:Spark-Kinesis

我还找到了Spark的官方文档:Spark Streaming + Kinesis

希望这可以帮助你。

© www.soinside.com 2019 - 2024. All rights reserved.