n-gram 相关问题

N-gram是同一类型的N个元素的有序集合,通常以许多其他类似的N-gram的大量集合呈现。单个元素通常是自然语言单词,尽管N-gram已经应用于许多其他数据类型,例如数字,字母,DNA中的遗传蛋白等。统计N-gram分析通常作为自然语言处理的一部分执行,生物信息学和信息论。

如何在句子文本中获得bigrams的概率?

我有一个有很多句子的文字。我如何使用nltk.ngrams来处理它?这是我的代码:sequence = nltk.tokenize.word_tokenize(raw)bigram = ngrams(sequence,2)freq_dist = nltk ....

回答 1 投票 3

寻找免费的ngram数据集[关闭]

我正在使用数据挖掘和NLP技术纠正ASR系统输出中的错误,因为我需要一个n-gram字典。我从维基百科ngram开始,它给出了令人鼓舞的结果(...

回答 1 投票 1

fasttext:有没有办法导出ngrams?

我是DL和NLP的新手,最近开始使用预先训练的fastText嵌入模型(cc.en.300.bin)通过gensim。我希望能够计算出词汇外单词的向量...

回答 2 投票 0

LSH - 来自带状疱疹的二进制矩阵表示

我有一个大型新闻文章数据集,准确地说是48000。我已经为n = 3的每篇文章制作了ngram。我的ngrams看起来像这样:[[(tikro,enter,into),(enter,into,research),(into,...

回答 1 投票 0

用ml.net提取Ngrams

我有以下管道:var mlContext = new MLContext(); var data = mlContext.Data.LoadFromEnumerable(new [] {new Input {Message =“one two three one two ...

回答 1 投票 0

在Windows上使用Java进行Kenlm语言模型评分

我正在使用'.arpa'文件来提取n-gram概率的Java项目。理想情况下,我想使用'.klm'文件(使用'.arpa'文件创建),类似于:model = kenlm ....

回答 1 投票 0

n-gram与朴素贝叶斯分类器

我是python新手,需要帮助!我正在练习python NLTK文本分类。这是我在http://www.laurentluce.com/posts/twitter-sentiment-analysis-using -...上练习的代码示例。

回答 1 投票 7

Bag of Words(BOW)vs N-gram(sklearn CountVectorizer) - 文本文档分类

据我所知,在Bag Of Words方法中,功能是一组单词及其在文档中的频率计数。另一方面,N-gram,例如unigrams完全相同,但它没有......

回答 1 投票 0

将ngrams计数文件转换为ARPA格式

我想将所有n-gram文件转换为一个ARPA文件。它将用作语音识别的语言模型。我有不同的n-gram文件,2克,3克和4克。服用2克......

回答 1 投票 -1

Unigram vs Bigram vs Posgram in Natural Language Processing

我想知道unigram,bigram和posgram之间的含义和区别。我搜索过互联网,但找不到全面的答案。任何帮助将非常感谢....

回答 1 投票 1

N克用于情感分析

我正在对各种零售商的产品评论进行情绪分析。我想知道是否有一个API使用n克进行情绪分析,将评论分类为正面或负面....

回答 1 投票 0

在python代码中实现n-gram,用于多类文本分类

我是python的新手,正致力于建筑行业合同文件的多级文本分类。我在代码中实现n-gram时遇到问题我...

回答 1 投票 1

用一个项目替换列表中的两个连续项目

为了分析文本,我们将其转换为单词列表P1。然后我们应用Bigram方法并得到一对单词(ai,bi)的列表X,这样ai和bi在P1中一个接一个地出现......

回答 1 投票 0

在NLP中使用tf-idf如何在python中查找语料库(包含大量文档)中特定单词的频率

如何使用Tf-idf从语料库中找到单个单词的频率。下面是我的示例代码,现在我想打印一个单词的频率。我怎样才能做到这一点?来自sklearn ....

回答 1 投票 1

用于生成具有平滑的n-gram语言模型的包? (NLTK的替代品)

我想找一些类型的包或模块(最好是Python或Perl,但其他人会这样做)从输入文本自动生成n-gram概率,并且可以自动应用一个或...

回答 3 投票 4

快速实现字符n-gram for word

我编写了以下用于计算字符双字母的代码,输出就在下面。我的问题是,如何获得排除最后一个字符(即t)的输出?并且有更快......

回答 3 投票 19

基于NGram的语言检测William B. Cavnar和John M. Trenkle

我正在尝试使用https://github.com/z0mbiehunt3r/ngrambased-textcategorizer/blob/master/ngramfreq.py来实施William B. Cavnar和John M. Trenkle的基于NGram的Langauage检测论文...

回答 1 投票 1

如何解释Python NLTK双字母似然比?

我试图弄清楚如何正确解释nltk的“似然比”给出下面的代码(取自这个问题)。 import nltk.collocations import nltk.corpus import collections bgm = ...

回答 1 投票 0

如何结合PCFG(句子结构)和n-gram模型(词汇共现)的优势?

如何结合PCFG(句子结构)和n-gram模型(词汇共现)的优势?

回答 1 投票 0

NLTK包估计(unigram)困惑

我试图计算我所拥有的数据的困惑。我使用的代码是:从nltk.corpus import导入sys sys.path.append(“/ usr / local / anaconda / lib / python2.7 / site-packages / nltk”)...

回答 2 投票 5

© www.soinside.com 2019 - 2024. All rights reserved.