n-gram 相关问题

N-gram是同一类型的N个元素的有序集合,通常以许多其他类似的N-gram的大量集合呈现。单个元素通常是自然语言单词,尽管N-gram已经应用于许多其他数据类型,例如数字,字母,DNA中的遗传蛋白等。统计N-gram分析通常作为自然语言处理的一部分执行,生物信息学和信息论。

如何使用spacy / nltk生成bi / tri-gram

输入文字总是菜名列表,其中有1~3个形容词和名词输入泰国冰茶辣鸡肉甜辣椒猪肉泰国鸡肉咖喱输出:泰国茶,冰茶......

回答 3 投票 7

使用Keras Tokenizer生成n-gram

可以在Keras中使用n-gram吗?例如,句子在X_train数据框中包含“句子”列。我以下列方式使用Keras的tokenizer:tokenizer = Tokenizer(lower = True,...

回答 2 投票 5

做Tri-gram文档时的问题是相互混淆的

问题陈述计算三克文本文件时彼此混淆。我正在尝试获取dataframe行的每个单独值并仅应用trigram ...

回答 1 投票 3

Elasticsearch Auto使用ngram完成

我是Elasticsearch的新手,我有一个关于使用NGram实现自动完成功能的问题。从互联网上,我了解NGram实现允许灵活的解决方案,如...

回答 1 投票 0

nltk中pos_tag和UnigramTagger以及BigramTagger有什么区别?

我试图弄脏我的手nltk。我指的是http://victoria.lviv.ua/../NaturalLanguageProcessingWithPython.pdf。它声明nltk.pos_tag函数为每个单词指定词性...

回答 1 投票 1

如何使用NLTK替换bigrams?

假设我有一个元组列表,top_n,在文本语料库中找到的前n个最常见的双字母组合:从nltk导入bigrams从nltk import导入nltk FreqDist bi_grams = bigrams(文本)#text是...

回答 2 投票 1

当术语超过ngram长度时,Elasticsearch查询返回false结果

要求是搜索文本块中的部分短语。大多数单词都是标准长度。我想将max_gram值保持为10.但可能偶尔会出现id / code ...

回答 1 投票 0

选择适当的min_gram和max_gram ngram值

使用带有min_gram的ngram分析器有什么好处:3 max_gram:10 mingram的ngram分析器:3和max_gram:3?当min_gram等于max_gram时,数据库大小将小得多...

回答 1 投票 0

如何从文件中读取ngrams,然后将它们与令牌进行匹配

我想读取保存在文件中的ngrams。然后将这些ngram中的每个单词与我的语料库中的单个标记匹配,如果它与之匹配,则将其替换为ngram.let说我有这些...

回答 1 投票 0

如何从文本语料库中删除特定的单字组,但仍保留该单词的双字组?

我有这样的情况,我必须从文本语料库中删除特定单词unigram,同时保持该单词的双字符以及该单词的单词。我想传递一个文本地址......

回答 1 投票 0

如何从python中的文本文件中获取所有3克?

我从文本文件中获取了一行,结果它生成了3克的一行,但在行尾,它的输出是2克。例如输入行是cswisceduwwt输出是csw swi wis isc sce ...

回答 1 投票 0

从python中的推文中提取n-gram

假设我有100条推文。在这些推文中,我需要提取:1)食品名称,以及2)饮料名称。推文的例子:“昨天我吃了可口可乐,午餐吃了热狗,还有一些bana分开......

回答 2 投票 0

来自python中的文本的n-gram

我之前的帖子的更新,有一些变化:说我有100条推文。在这些推文中,我需要提取:1)食品名称,以及2)饮料名称。我还需要附上类型(饮料或食物)和......

回答 3 投票 2

hive ngram使用什么分隔符来标记化?

我正在进行一些情绪分析。我需要在文本中计算词汇(不同的单词)。 ngram UDF似乎在确定unigrams方面做得很好。我想知道...

回答 1 投票 0

查询elasticsearch以使所有分析的ngram标记匹配

我使用nGram分析器(仅发出三克)来索引一些数据,以完全按照ES指南中的描述解决复合词问题。然而,这并不像预期的那样有效:根据......

回答 1 投票 0

仅获取ElasticSearch中的匹配值和相应字段

在弹性搜索中,假设我有{{name':“John”,“department”:“Biology”,“address”:“445 Mount Eden Road”},{“name”:“Jane”,“department”等文档:“化学”,“地址”:“......

回答 1 投票 0

使用Python计算N Grams

我需要计算Unigrams,BiGrams和Trigrams的文本文件,其中包含以下文字:“囊性纤维化仅影响美国30,000名儿童和年轻人,吸入盐雾......

回答 8 投票 20

© www.soinside.com 2019 - 2024. All rights reserved.