如何找到两个文件之间的公共 ngram?

问题描述 投票:0回答:0

我有两个非常大的文本文件,我想找到两个文件中出现的 ngram。到目前为止,我尝试过的所有解决方案都只找到了共同点。但我有兴趣找到常见的子字符串/ngram。有什么有效的方法吗?我尝试了在每一行中找到所有可能的 ngram,然后将它们与两个文件进行比较的方法,但事实证明它在计算上非常昂贵。

python string nlp n-gram
© www.soinside.com 2019 - 2024. All rights reserved.