以下内容:rdd.map(x => xx)与rdd.mapPartions(x => x.map(c => cc))
在这两种情况下生成的转换后的RDD是否具有相同的顺序?
是的,顺序(假设它是确定性的并且上游没有广泛的变换)将是相同的。 map(f)
只是dd.mapPartions(_。map(f))`的快捷方式。
但是在一般情况下,你永远不应该依赖RDD
中值的顺序,除非这明确定义使用明确(如排序唯一值)或作业只包含窄变换,源是确定性输入格式(如textFile
使用的那样) 。