匹配重复的RDD

问题描述 投票:0回答:1

想象有两个表:表1:

起源

美国爱尔兰

美国德国

美国爱尔兰

表2:

起源

美国爱尔兰

英国美国

美国爱尔兰

如果我在SQL中执行此操作,它将类似于此:

SELECT * FROM TABLE1
WHERE EXISTS (SELECT 1 FROM TABLE2
            WHERE TABLE1.dest_country_name = TABLE2.origin_country_name)
AND EXISTS (SELECT 1 FROM TABLE2
            WHERE TABLE1.dest_country_name = TABLE2.origin_country_name)
scala apache-spark rdd
1个回答
0
投票
为两个rdds创建一个成对的rdd OF tuple2(des,origin),它们的原点都为des,并使用join(rdd1.join(rdd2))将两个rdds都加入。您将得到结果。
© www.soinside.com 2019 - 2024. All rights reserved.