我将 csv 文件读入 pandas 数据框。
我的文本列是 df['story']。
如何对这一列进行词形还原?
我应该之前进行标记化吗?
不,您不一定必须在词形还原之前进行标记化。您可以尝试以下代码:
import stanza
import pandas as pd
nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos,lemma')
def lemmatize_text(text):
doc = nlp(text)
lemmas = [word.lemma for sent in doc.sentences for word in sent.words]
return ' '.join(lemmas)
df['lemmatized_story'] = df['story'].apply(lemmatize_text)