Twitter Streaming API-flink / spark应用程序中的低输入率

问题描述 投票:0回答:1

[我正在使用apache flink和spark和一个twitter连接器(来自apache.bahir的flink-connector-twitter_2.12和spark-streaming-twitter)来接收实时tweet并通过svm进行预测。

Flink

val streamSource: DataStream[String] = strEnv.addSource(new TwitterSource(properties))
...

火花

TwitterUtils.createStream(streamingContext, auth)
...

但是,两个应用程序都使用上述API在群集上运行。

我的问题是Twitter的输入率低。spark应用程序的平均速度为:51.98记录/秒,与真实Twitter数据(每秒6k)相比,非常低。

问题:有什么方法可以提高输入速率?

[感谢您的帮助:)谢谢

scala apache-spark twitter apache-flink
1个回答
3
投票

默认情况下,Flink使用sample api。该API实时返回推文样本。值得注意的是,此API受到限制,就像所有标准的非付费Twitter API一样,速率限制也有详细说明here。最好的主意是切换到没有限制的高级Twitter API。

© www.soinside.com 2019 - 2024. All rights reserved.