n-gram 相关问题

N-gram是同一类型的N个元素的有序集合,通常以许多其他类似的N-gram的大量集合呈现。单个元素通常是自然语言单词,尽管N-gram已经应用于许多其他数据类型,例如数字,字母,DNA中的遗传蛋白等。统计N-gram分析通常作为自然语言处理的一部分执行,生物信息学和信息论。

实时搜索短语的击键汇总

[通过网站上的实时搜索,我得到了一组字符串,例如:['如何','如何','如何取消我的','如何取消我的帐户', '在哪里','在哪里','在哪里...

回答 1 投票 0

[count()对n-gram的python优化

我正在尝试使用count()函数对字符串列表中的项目进行计数,并将结果从最大到最小排序。尽管该函数在较小的列表上表现良好,但无法缩放...

回答 1 投票 0

如何将文本分割成N-gram并获取它们的偏移量

我想将文本拆分为ngram,但还要在文本中获取它们的偏移量。我目前在Python中使用NLTK库,但没有找到任何本机的方法来获取N-gram的偏移量。我做了...

回答 1 投票 0

Unigram在语言识别方面比Ngram提供更好的结果

我有一个学校项目,其中包括从推文数据集中识别推文的每种语言。数据集包含西班牙语,葡萄牙语,英语,巴斯克语,加利西亚语和加泰罗尼亚语的推文。 ...

回答 1 投票 0

如何从一对输入字符串中创建(双字母组的)组合对?

我有2个输入字符串,我想生成所有成对的字符串组合,其中每个字符串都来自不同的输入字符串。示例:输入字符串:“女士连衣裙”和“女士...

回答 1 投票 0

SOLe eDISMAX产品搜索

我是SOLR的新手,正在实施它以搜索我们的产品目录。我正在品牌名称,显示名称和类别字段上创建ngram和edge ngram。我正在使用edismax并定义了qf ...

回答 3 投票 0

PySpark-删除以n克为单位的空白

我正在尝试生成3个字母的n-gram,但是Spark NGram在每个字母之间插入一个空格。我想删除(或不产生)此空白。我可以分解数组,删除白色...

回答 1 投票 -1

Elasticsearch“ max_ngram_diff”适用于“ edge_ngram”,但不适用于“ ngram_tokenizer”

我有一个Elasticsearch索引,我在其中设置了“ max_ngram_diff”:50,但是不知何故,它似 乎仅适用于edge_ngram令牌生成器,而不适用于ngram令牌生成器。我已经提出了这两个请求...

回答 1 投票 0

带有一个单词的数据集上的NGram

我正在研究SparkML,尝试使用Spark的OOB功能建立模糊匹配。一路上,我正在构建n = 2的NGram。但是,我的数据集中的某些行包含单个单词,其中...

回答 1 投票 0

Python:对列表进行计数操作

我正在尝试计算一大组文本中的双字母组的数量。我已经从标准输入中逐行提取了文本,清理了文本,并由bigrams生成了文本。现在我有一个嵌套循环...

回答 1 投票 -1

Python3:对嵌套字典中字符的出现进行计数

我目前正在编写一小段代码,但似乎遇到了障碍。我想知道是否有可能找到在特定组之后出现的最常见的字符...

回答 1 投票 0

为什么不是在gensim的“短语”工具中创建所有双字母组?

我已经使用gensim创建了一个bigram模型,并尝试获取bigram句子,但是为什么没有选择所有bigram句子呢?从gensim.models.phrases导入短语,短语短语=短语(...

回答 1 投票 0

将ngram转换为Python中的频率字典

有人可以提供将以下ngram转换为以下结果的函数吗?返回值应连接ngram的前N-1个元素,并计算不同后继者(...] >> [[

回答 1 投票 0

Bigram模型来预测文本

我正计划实施二元模型模型来预测搜索文本。如果用户经常搜索“测试搜索词”,然后用户键入“测试”,则希望自动建议“测试搜索...

回答 1 投票 0

在NLTK中找到n-gram的想法或算法是什么?

我正在使用Python NLTK软件包从我的语料库中生成2克和3克。但是我找不到NLTK如何从语料库生成它们。我在这里找到了这个:N-gram简介:什么是...

回答 1 投票 0

sklearn oneclass svm KeyError

[我的数据集是恶意软件和良性软件的系统调用集,我对其进行了预处理,现在看起来像这样NtQueryPerformanceCounter NtProtectVirtualMemory NtProtectVirtualMemory ...

回答 1 投票 0

快速/优化python中的N-gram实现

哪个ngram实现在python中最快?我试图剖析nltk和scott的zip(http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/):从nltk.util导入...] >

回答 3 投票 11

生成N-gram,同时在Apache lucene中保留空格

我正在尝试使用Apache Lucene 5.5.4为给定的一组输入文本生成N-gram。以下是我的Java代码执行的操作。 public static void main(String [] args){分析器...

回答 1 投票 0

如何以标记概率完成我的Unigram标记?

我正在创建一类Unigram Tagger。我相信我已经处于最后阶段,尽管我现在对如何计算标签的概率迷失了方向。到目前为止,我已经完成了对总数标签的计数,...

回答 1 投票 0

如何通过Spark Streaming按ngram进行过滤?

我正在使用Spark Streaming从S3中读取一些CSV文件。文件有3列。其中一列称为movie_plot,我需要做的是过滤掉与某些查询不匹配的记录...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.