具有精确词匹配搜索的RDD过滤器

问题描述 投票:0回答:1

我有一个rdd对象(从文本文件创建),我正在通过使用完全匹配的单词进行过滤来创建另一个rdd对象。

rdd2 = rdd1.filter(lambda x: word in x)

word是在for循环中生成的字符串。因此,我将循环搜索rdd1中的某些单词。例如,如果我的单词值为“ ebook”。因此,当我搜索rdd1时,会得到所有与ebook匹配的行。但是,我也获得了价值“电子书”的支持。

如何使用完全匹配的单词过滤rdd? rdd2应该包含仅具有完全匹配的单词的行,即ebook而不是ebooks

我需要为进一步的流程创建中间rdd。请帮助。

python apache-spark pyspark rdd
1个回答
0
投票

rdd2 = rdd1.filter(lambda x:x.split()中的单词]

x.split()用于精确的单词匹配。

© www.soinside.com 2019 - 2024. All rights reserved.