WordNetLemmatizer未在文本数据中进行词形还原

Question

我正在预处理文本数据。当我进行词法限制时，它的词干效果与词干完全相同（文本不变）。我不明白这是什么问题。

def stem_list(row):
    my_list = row['no_stopwords']
    stemmed_list = [stemming.stem(word) for word in my_list]
    return stemmed_list


Japan['stemmed_words'] = Japan.apply(stem_list, axis=1)


def lemma_list(row):
    my_list = row['stemmed_words']
    lemmas_list = [lemma.lemmatize(word) for word in my_list]
    return lemmas_list


Japan['lemma_words'] = Japan.apply(lemma_list, axis=1)

下面是示例输出：

华为安全参与英国评论家网络suffici mitig长期hcsec形成mitig perceiv风险aris涉及华为评论家国家基础设施政府委员会包括英国office英国政府网络安全委员会华为高级执行代表英国电信

我的文字是新闻文章。我正在使用PorterStemmer进行词根提取，并使用WordNetLemmatizer进行词根提取。

谢谢你。

Answer 1

您的文本在定词化过程中可能不会改变的原因是，词干通常不是完全具有词缀的真实词。

这两个过程都试图将单词的词根缩短，但是严格来说词干是严格的，算法和词法化使用词汇表来找到单词的最小词根。通常，您可以根据需要使用一种或两种。

但是，如果您只想查看两个序列的结果，请逆向进行，您的词干将不同于输入到词干的词条。

WordNetLemmatizer未在文本数据中进行词形还原

问题描述投票：2回答：1

1个回答

最新问题

WordNetLemmatizer未在文本数据中进行词形还原

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1