在Spark中,ReduceByKey和CombineByKey的性能有什么区别吗?对此的任何帮助表示赞赏。
Reduce by key 内部调用combineBykey。因此,两者执行任务的基本方式是相同的。
选择CombineByKey而不是reduceBykey是当输入Type和输出Type不希望相同时。因此,combineByKey 将有一个将一种类型转换为另一种类型的额外开销。
如果省略类型转换,则完全没有区别。