n-gram 相关问题

N-gram是同一类型的N个元素的有序集合,通常以许多其他类似的N-gram的大量集合呈现。单个元素通常是自然语言单词,尽管N-gram已经应用于许多其他数据类型,例如数字,字母,DNA中的遗传蛋白等。统计N-gram分析通常作为自然语言处理的一部分执行,生物信息学和信息论。

如何在python中实现N-gram语言模型?

我是 NLP 新手,想实现 Unigram、Bigram、Trigram 和 Fourgram 语言模型进行分类。我从 SI485i 学习了 NLP:NLP,但还没有找到任何实现 N-gram 的库

回答 0 投票 0

如何使用n-gram标注文本文档?

我目前有一个文档列表,我已经使用无监督主题建模进行分类。 这对我的数据很有效,但我想使用一种监督方法来查看什么有效。 ...

回答 0 投票 0

使用 n-gram 模型 NLTK 预测下一个词

我正在尝试使用 NLTK 运行 N-Gram 语言建模代码,该代码取自 https://www.geeksforgeeks.org/n-gram-language-modelling-with-nltk/。但它抛出一个错误。 # 生成

回答 0 投票 0

使用PhrasesTransformer进行短语检测。

from gensim.sklearn_api.phrases import PhrasesTransformer # 创建模型。m = PhrasesTransformer(min_count=1, threshold=3)...。

回答 1 投票 -1


java.io.IOException: 在使用Combiber的MapReduce中,Spill失败。

我使用HADOOP mapReduce。当运行项目时,没有本地聚合,即组合类,它运行没有问题。当我添加组合器类时,我得到这样的消息:java.lang.Exception: ...

回答 1 投票 0

构建n-grams用于标记级文本分类

我试图使用 scikit-learn 在 token 级别对多类数据进行分类。我已经有一个训练和测试的分割。token以同一类的批次出现,例如前10个token属于......。

回答 1 投票 1

在R中创建文档特征矩阵需要很长时间

我正在尝试使用R中的字符级双字母组来创建文档特征矩阵。我的代码的最后一行永远需要运行,并且永远都无法完成。其他行最多不到一分钟。我是...

回答 1 投票 0

从R中的文本中提取字符级n-gram

我有一个带有文本的数据框,我想提取字符级双字母(n = 2),例如R中的每个文本都为“ st”,“ ac”,“ ck”。数据:df $ text [1]“为什么叫我的名字” [2]“ stackover flow非常好” [...

回答 1 投票 0

使用适用方法在熊猫列上使用gensim短语

我正在尝试在df的列上使用gensim短语。样本df在col1 col2下面给出1“这是test1并用于test1” 2“这是第二行的内容” 3 ...

回答 2 投票 0

用于字段映射的Elasticsearch索引和搜索时间分析器不起作用

我是Elasticsearch的新手,我想提供“键入时搜索”功能。每个字段要搜索的文本不超过50个字符。搜索应找到所有......>

回答 1 投票 1

如何使用NGram过滤器为自动完成功能获取多值字段的Elasticsearch术语聚合?

我正在做我的自动完成项目,这是Elasticsearch的新功能。我已经使用Edge NGram过滤器进行自动补全。我正在尝试获得自动完成的唯一结果,因此我使用了术语聚合...

回答 1 投票 0

有人可以解释一个句子开头单词的概率是如何计算的吗?

[大家好,我正在尝试计算句子“我想要中国菜”的概率,我成功了,但这仅是因为在该表下已将P(I |)记为自己的。我似乎听不懂...

回答 1 投票 0

注释python或bash中短语的开头和结尾

[假设我有以下语料库:狗追着猫,狗吠着猫喵喵声,狗追着鸟,猫追着鸟,鸟吃谷物,狗追着猫,鸟叫声,一排2克追逐...

回答 1 投票 0


如何在Elasticsearch索引中同时使用ngram和Edge ngram标记器?

我有一个包含3个文档的索引。 {“ firstname”:“ Anne”,“ lastname”:“ Borg”,} {“ firstname”:...

回答 1 投票 0

我如何获得Elasticsearch为匹配顺序的令牌字符串分配更高的分数?

我正在建立一个搜索数据库。大多数条目都是专有名词(名称和街道地址)。我设置了一个ngram令牌过滤器来帮助快速模糊搜索。它运作良好。但是,如果我搜索“ ...

回答 1 投票 0

将ngram与elasticsearch一起使用时,带回所有相关结果

我用ngram索引了我的elasticsearch索引,从而可以进行模糊匹配和快速前缀搜索。我注意到,如果我在名称字段中搜索包含“鲍勃”的文档,则仅...

回答 1 投票 0

ngram匹配为不太相关的文档提供相同的分数

我正在我的Elasticsearch索引中搜索Bob Smith。结果鲍勃·史密斯和鲍比·史密斯都以相同的分数返回了响应。我希望鲍勃·史密斯(Bob Smith)得分更高,以便它...

回答 1 投票 1

我们如何使此python代码更有效地运行巨大的文本文件?

我用以下代码创建了一个python文件。我希望代码执行以下操作:从文本文件中提取内容,将其清理为标点,删除非字母,转换为小写...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.