从带有pyspark中嵌套元素的RDD获取平面RDD

Question

我在Pyspark中有两个带有此类嵌套元素的RDD：

a = sc.parallelize(( (1,2), 3,(4,(6,7,(8,9,(11),10)),5,12)))

b = sc.parallelize(1,2,(3,4))

嵌套可以有任何深度。

我想合并它们，然后在任意深度处找到最大元素，因此我尝试将其转换为RDD，而没有这样的嵌套值（1,2,3,4,6,7,8,9,11， 10,5,12,1,2,3,4）并使用其中任何一个（地图，缩小，过滤器，平面地图，拉姆达函数）获得最大值。谁能告诉我如何转换或获取最大元素。

我提供了一个解决方案，但它仅适用于两个深度级别，如

a = sc.parallelize(( (1,2), 3,(4,5)))
b = sc.parallelize((2,(4,6,7),8))

def maxReduce(tup):
    return int(functools.reduce(lambda a,b : a if a>b else b, tup))

maxFunc = lambda x: maxReduce(x) if type(x) == tuple else x

a.union(b).map(lambda x: maxFunc(x)).reduce(lambda a,b : a if a>b else b)

以上代码仅适用于深度2，我需要针对任何给定深度(1,(2,3,(4,5,(6,(7,(8))))))进行操作。

Answer 1

听起来是递归函数的一个很好的用例：

from collections import Iterable

a = sc.parallelize(((1, 2), 3, (4, (6, 7, (8, 9, (11), 10)), 5, 12)))
b = sc.parallelize((1, 2, (3, 4)))

def maxIterOrNum(ele):
    """
    this method finds the maximum value in an iterable otherwise return the value itself
    :param ele: An iterable of numeric values or a numeric value
    :return: a numeric value
    """
    res = -float('inf')
    if isinstance(ele, Iterable):
        for x in ele:
            res = max(res, maxIterOrNum(x))
        return res
    else:
        return ele

a.union(b).reduce(lambda x, y: max(maxIterOrNum(x), maxIterOrNum(y)))

从带有pyspark中嵌套元素的RDD获取平面RDD

问题描述投票：0回答：1

1个回答

最新问题

从带有pyspark中嵌套元素的RDD获取平面RDD

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1