stemming 相关问题

将变形词减少到词干的过程。

如何将国家名称和形容词同根化

我有一个使用波特词干算法来索引文本的应用程序。我很惊讶地发现该算法并没有将一个国家的名称与一个国家的形容词具有相同的词根。对于

回答 1 投票 0

C#而不是Python中的英文文本标记化是可能的吗?

在我们的软件中,我们必须分析纯文本文件。首先,我们应该将文本分成段落,然后分成句子,然后分成标记。最后的步骤(据我所知)是词干和

回答 1 投票 0

为 postgresql 全文搜索添加新语言

有什么方法可以为 postgresq 全文搜索添加新语言吗? 我可以从哪里阅读或从哪里开始?

回答 1 投票 0

非英语语言的词干提取有错误行为?

我正在一个包含西班牙语文本的项目中工作,总结一下,我在西班牙语文档中看到的词干分析器都没有给我带来好的结果(只有 2 个,雪球和正常的),给一个

回答 1 投票 0

在提取词干之前用非拉丁文本调整 ES 文档?

我在这里使用的“文档”一词是指“Lucene 文档”或 LDoc,即放入索引、分析等的内容。 我正在解析然后索引整个负载...

回答 1 投票 0

词干化和词形还原之间的比较

根据多项研究,我发现以下重要的比较分析: 如果我们查看文本,很可能词形还原应该返回更正确的输出,对吗?不仅正确,而且

回答 1 投票 0

在 tm::stemDocument() 之后撤消词干提取?

我有一个 R 中的词干单词列表。现在,我想撤消我的词干提取,以便接收 R 中所有“完整”单词的列表。 这是我用来提取单词列表的代码: 图书馆...

回答 1 投票 0

Rust 的工具 Tantivy 是否支持像 Postgres 全文搜索中那样的 Snowball 词干分析器?

我发现它支持17种语言,但是Tantivy是如何解决这个问题的呢?它在引擎盖下使用什么词干分析器? PostgreSQL 使用 Snowball 实现全文搜索 https://snowballs...

回答 1 投票 0

雪球茎干令牌

以下代码行不适用于 nltk 的 SnowballStemmer 模块 def 乐趣(文本): 词干分析器.stem(文本) 类型错误:SnowballStemmer.stem() 缺少 1 个必需的位置参数:'token'

回答 2 投票 0

为什么这个全文搜索在PostgreSQL中不匹配?

我正在评估PostgreSQL,看看它是否是ElasticSearch的一个可行的替代方案开始(以后迁移也可以)。我一直在阅读PG的全文能力现在已经 "足够好 "了。我...

回答 1 投票 0

如何获得每种语言的逆向词法化?

我找到了spacy lib,可以让我对单词应用词法化(blacks -> black,EN)(bianchi -> bianco,IT)。我的工作是分析实体,而不是动词或形容词。我在寻找一些...

回答 1 投票 0

lemmatize()缺少1个必需的位置参数:'word'

[当我尝试像这样将其传递给lemmatizer时:def lemmatization(token_txt):text = [wn.lemmatize(word)for token_txt中的单词]#text = [[wn.lemmatize(word)for l中的单词] for in in ...

回答 1 投票 0

提蒂尔中的梗塞克分子

我正在尝试用两个词干创建双字母组。但是我的代码只是阻止第二个单词,而第一个单词则不会被阻塞。因此,例如,列出了“担心”和“担心” ...

回答 1 投票 1

基于NLTK的词干和词根化

我正在尝试使用lemmatizer预处理字符串,然后删除标点符号和数字。我正在使用下面的代码来做到这一点。我没有收到任何错误,但文本没有经过预处理...

回答 3 投票 1

带有茎的MySQL全文

我正在为我的站点构建一些搜索功能。我正在接受用户的查询,词干关键字,然后对词干关键字运行全文MySQL搜索。问题是MySQL ...

回答 3 投票 4

NLP:如何结合词干和标记?

我正在尝试编写代码,该代码传递经过标记化的文本,并过滤掉停用词,然后阻止并标记它。但是,我不确定应该以什么顺序进行茎和标记。这个...

回答 2 投票 0

r中的定标函数

Package corpus提供了自定义的词干提取功能。词干功能应在将术语作为输入时返回该词干作为输出。我从词干中选取了以下内容...

回答 1 投票 0

MarkLogic-启用词干还将搜索美式/英式拼写

MarkLogic 9.0.8.2我们有业务需求,如果能够在数据库级别启用词干,则可以在纤维或纤维颜色或颜色SO之类的搜索查询中支持美式/英式单词...

回答 1 投票 1

如何在Python中替换文本数组中的单词?

[我想使用自己的数组来阻止文本:word_list1 = [“ cccc”,“ bbbb”,“ aaa”] def stem_text(text):text = text.split()array = np.array(text)temp = np.where(array == word_list1,...

回答 2 投票 -1

我如何优化R中的词干和拼写检查性能?

我有〜1,4m个文档,每个文档的平均字符数为(Median:250和Mean:470)。在分类之前,我想执行拼写检查和词干分析。模拟文件:句子

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.