stemming 相关问题

将变形词减少到词干的过程。

Skkearn.tfidfvectorizer用户警告：您的stop_words可能与您的预处理不一致

文档群集教程。作为输入，我给出了一个可以下载的txt文件。这是其他3个TXT文件的组合文件，用于使用。创建TF-IDF矩阵后，我收到了此警告：

vectorization text-processing tf-idf stop-words stemming

回答 3 投票 0

如何将国家名称和形容词同根化

我有一个使用波特词干算法来索引文本的应用程序。我很惊讶地发现该算法并没有将一个国家的名称与一个国家的形容词具有相同的词根。对于

nlp information-retrieval stemming

回答 1 投票 0

C#而不是Python中的英文文本标记化是可能的吗？

在我们的软件中，我们必须分析纯文本文件。首先，我们应该将文本分成段落，然后分成句子，然后分成标记。最后的步骤（据我所知）是词干和

c# nlp nltk stemming lemmatization

回答 1 投票 0

为 postgresql 全文搜索添加新语言

有什么方法可以为 postgresq 全文搜索添加新语言吗？我可以从哪里阅读或从哪里开始？

postgresql full-text-search stemming

回答 1 投票 0

非英语语言的词干提取有错误行为？

我正在一个包含西班牙语文本的项目中工作，总结一下，我在西班牙语文档中看到的词干分析器都没有给我带来好的结果（只有 2 个，雪球和正常的），给一个

elasticsearch stemming spanish

回答 1 投票 0

在提取词干之前用非拉丁文本调整 ES 文档？

我在这里使用的“文档”一词是指“Lucene 文档”或 LDoc，即放入索引、分析等的内容。我正在解析然后索引整个负载...

elasticsearch stemming non-english

回答 1 投票 0

词干化和词形还原之间的比较

根据多项研究，我发现以下重要的比较分析：如果我们查看文本，很可能词形还原应该返回更正确的输出，对吗？不仅正确，而且

python nltk stemming lemmatization

回答 1 投票 0

在 tm::stemDocument() 之后撤消词干提取？

我有一个 R 中的词干单词列表。现在，我想撤消我的词干提取，以便接收 R 中所有“完整”单词的列表。这是我用来提取单词列表的代码：图书馆...

r tm stemming

回答 1 投票 0

Rust 的工具 Tantivy 是否支持像 Postgres 全文搜索中那样的 Snowball 词干分析器？

我发现它支持17种语言，但是Tantivy是如何解决这个问题的呢？它在引擎盖下使用什么词干分析器？ PostgreSQL 使用 Snowball 实现全文搜索 https://snowballs...

postgresql rust full-text-search stemming snowball

回答 1 投票 0

雪球茎干令牌

以下代码行不适用于 nltk 的 SnowballStemmer 模块 def 乐趣（文本）：词干分析器.stem(文本) 类型错误：SnowballStemmer.stem() 缺少 1 个必需的位置参数：'token'

python nlp stemming

回答 2 投票 0

为什么这个全文搜索在PostgreSQL中不匹配？

我正在评估PostgreSQL，看看它是否是ElasticSearch的一个可行的替代方案开始（以后迁移也可以）。我一直在阅读PG的全文能力现在已经 "足够好 "了。我...

postgresql full-text-search stemming

回答 1 投票 0

如何获得每种语言的逆向词法化？

我找到了spacy lib，可以让我对单词应用词法化（blacks -> black，EN）（bianchi -> bianco，IT）。我的工作是分析实体，而不是动词或形容词。我在寻找一些...

nlp stemming lemmatization

回答 1 投票 0

lemmatize（）缺少1个必需的位置参数：'word'

[当我尝试像这样将其传递给lemmatizer时：def lemmatization（token_txt）：text = [wn.lemmatize（word）for token_txt中的单词]＃text = [[wn.lemmatize（word）for l中的单词] for in in ...

python nlp nltk stemming lemmatization

回答 1 投票 0

提蒂尔中的梗塞克分子

我正在尝试用两个词干创建双字母组。但是我的代码只是阻止第二个单词，而第一个单词则不会被阻塞。因此，例如，列出了“担心”和“担心” ...

r tidyr stemming

回答 1 投票 1

基于NLTK的词干和词根化

我正在尝试使用lemmatizer预处理字符串，然后删除标点符号和数字。我正在使用下面的代码来做到这一点。我没有收到任何错误，但文本没有经过预处理...

python nltk stemming lemmatization

回答 3 投票 1

带有茎的MySQL全文

我正在为我的站点构建一些搜索功能。我正在接受用户的查询，词干关键字，然后对词干关键字运行全文MySQL搜索。问题是MySQL ...

mysql full-text-search stemming

回答 3 投票 4

NLP：如何结合词干和标记？

我正在尝试编写代码，该代码传递经过标记化的文本，并过滤掉停用词，然后阻止并标记它。但是，我不确定应该以什么顺序进行茎和标记。这个...

python nlp nltk tagging stemming

回答 2 投票 0

r中的定标函数

Package corpus提供了自定义的词干提取功能。词干功能应在将术语作为输入时返回该词干作为输出。我从词干中选取了以下内容...

r text stemming

回答 1 投票 0

MarkLogic-启用词干还将搜索美式/英式拼写

MarkLogic 9.0.8.2我们有业务需求，如果能够在数据库级别启用词干，则可以在纤维或纤维颜色或颜色SO之类的搜索查询中支持美式/英式单词...

search marklogic stemming

回答 1 投票 1

如何在Python中替换文本数组中的单词？

[我想使用自己的数组来阻止文本：word_list1 = [“ cccc”，“ bbbb”，“ aaa”] def stem_text（text）：text = text.split（）array = np.array（text）temp = np.where（array == word_list1，...

python numpy nlp stemming

回答 2 投票 -1

最新问题

© www.soinside.com 2019 - 2025. All rights reserved.