[我正在使用apache flink和spark和一个twitter连接器(来自apache.bahir的flink-connector-twitter_2.12和spark-streaming-twitter)来接收实时tweet并通过svm进行预测。
Flink:
val streamSource: DataStream[String] = strEnv.addSource(new TwitterSource(properties))
...
火花:
TwitterUtils.createStream(streamingContext, auth)
...
但是,两个应用程序都使用上述API在群集上运行。
我的问题是Twitter的输入率低。spark应用程序的平均速度为:51.98记录/秒,与真实Twitter数据(每秒6k)相比,非常低。
问题:有什么方法可以提高输入速率?
[感谢您的帮助:)谢谢
默认情况下,Flink使用sample api。该API实时返回推文样本。值得注意的是,此API受到限制,就像所有标准的非付费Twitter API一样,速率限制也有详细说明here。最好的主意是切换到没有限制的高级Twitter API。