n-gram 相关问题

N-gram是同一类型的N个元素的有序集合，通常以许多其他类似的N-gram的大量集合呈现。单个元素通常是自然语言单词，尽管N-gram已经应用于许多其他数据类型，例如数字，字母，DNA中的遗传蛋白等。统计N-gram分析通常作为自然语言处理的一部分执行，生物信息学和信息论。

我可以保护短词免受 Solr 中的 n-gram 过滤器的影响吗？

我看到过这个关于在 Solr 中搜索短单词的问题。我想知道是否有另一种可能的解决方案来解决类似的问题。我使用的 EdgeNGramFilter 的 minGramSize 为 ...

search solr lucene n-gram

回答 2 投票 0

N-gram 语言模型中<BOS>标签的理想数量

让我们假设有一个句子“有一只猴子”。现在，让我们尝试在将字符串开始、字符串结束 (, ) 标签附加到字符串后创建 Trigrams....

n-gram

回答 1 投票 0

如何保存n-gram输出

一个希望很简单的问题。如何保存以下代码的 ngram 输出？ \ 图书馆（“量子”） ## 软件包版本：2.1.2 数据（data_corpus_inaugural）托克斯 <-

save n-gram quanteda

回答 1 投票 0

如何处理 search_as_you_type 字段和拼写错误

我想在电子商务网站中进行搜索，以查找具有良好查询的产品来管理拼写错误。我正在学习 elasticsearch 和 search_as_you_type 字段。但在文档中，你...

elasticsearch fuzzy-search n-gram

回答 2 投票 0

数据框中每个单词的字母和二元组组成

我有一个包含单词的数据框，我想提取每个单词的字母和二元组合。数据： df$文本 [1]《表》 [2]《奔跑吧》 [3]“杯子”` 最后我...

r nlp n-gram

回答 1 投票 0

如何确定重量？取决于什么？

我正在尝试使用Python计算n--gram。我用于一克、二克、三克和四克的权重是 (0.25, 0.25, 0, 0)。当我运行脚本作为第一个参考时，它给了我......

python n-gram machine-translation

回答 1 投票 0

Perl 段落 n-gram

假设我有一段文字： $body = '敏捷的棕色狐狸跳过了懒狗'; 我想将该句子放入“关键字”的哈希值中，但我想允许使用多个单词的关键字；我...

regex perl n-gram

回答 5 投票 0

如何让我的Python代码更有效？

我正在构建我的单词 n-gram 训练向量，稍后供 SVM 使用。我运行了我的代码，但是花了我太多时间，超过 10 个小时。你有什么方法可以让它更快吗？ def wordNgrams(s,n):...

python nlp n-gram

回答 1 投票 0

如何在弹性搜索中获取整个索引的术语向量信息？而不是在文档级别

根据弹性搜索文档，https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html，术语向量只能应用于文档。有什么办法可以吗

elasticsearch n-gram term-vectors

回答 2 投票 0

将电话号码匹配纳入现有基于字符串的姓名匹配功能

我有一个 Python 函数 match_strings，它旨在匹配来自两个不同数据源的名称。这是函数定义： Python def match_strings(strings1, strings2, ngram_n=2,

python string-matching n-gram record-linkage

回答 1 投票 0

如何在 PHP 中高效计算字符元组

我需要在 PHP 项目（文件分类器）中快速计算巨大文件/字符串（从 10MB+ 到 1GB+）中的字符元组（或 N-gram）。当前的实现是针对单个字符计数...

php performance n-gram

回答 1 投票 0

如何在 PHP 中有效地计算 n 元语法

我需要在 PHP 项目中快速计算大型文件/字符串（从 10MB+ 到 1GB+）中的 N 元语法。当前的实现是针对单个字符计数（N=1），并且在 0.5 秒内运行速度非常快......

php performance n-gram

回答 1 投票 0

elasticsearch如何统计tf-idf？看起来很奇怪

我有一个索引，其中包含存储系统信息的文档和复制到 searchable_keys 字段中的可搜索字段。在这种情况下，只有一个这样的字段 - name。这是定义...

elasticsearch nlp tokenize tf-idf n-gram

回答 1 投票 0

Python IntelliJ 风格的“到处搜索”算法

我有一个Python文件名列表，如下所示： HelloWorld.csv 你好_温莎.pdf 一些_文件_我_需要.jpg san_fransisco.png 另一个.file.txt 文件名.rar 我正在寻找 IntelliJ 风格的搜索

python intellij-idea n-gram file-search

回答 2 投票 0

bigram计算-内存错误、大文件问题

以下是文本语料库中二元组计算的代码：导入系统导入 csv 导入字符串导入nltk 从 nltk 导入 word_tokenize 从 nltk.tokenize 导入 RegexpTokenizer 来自 nltk.util ...

python nltk n-gram

回答 1 投票 0

在大数据上用Python有效地总结n-grams

我有一个非常大的数据集，大约有 600 万条记录，它看起来确实像这个片段：数据 = pd.DataFrame({ 'ID': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], '文本'： [ &...

python pandas dataframe nlp n-gram

回答 1 投票 0

以有效的方式将字符串拆分为 R 中大小为 n 的连续子串

# 输入 <- 2 "abcd" # Output c("ab", "bc", "cd") I don't want to use a for loop or sapply

r string n-gram

回答 1 投票 0

仅根据 rstudio 中的第一个单词选择 ngrams

我目前正在研究一个 nlp 项目。我使用圣经作为训练数据集。如果您想自己尝试一下，您可以轻松创建随机语料库： rcorpus(nwords = 50, 字母表 = letter...

r nlp n-gram

回答 1 投票 0

在 Python 中计算 n-gram 重叠矩阵的最快方法

我有大量文档，如果它们有明显的 n-gram 重叠（在我的例子中，我正在考虑二元语法），我想合并这些文档。考虑集合列表： corpus = [{'example', 'bigram'}, {'an...

python python-3.x numpy set n-gram

回答 2 投票 0

如何找到两个文件之间的公共 ngram？

我有两个非常大的文本文件，我想找到这两个文件中出现的 ngram。到目前为止，我尝试过的所有解决方案都只找到了共同点。但我有兴趣找到共同的替代品......

python string nlp n-gram

回答 0 投票 0

n-gram 相关问题

最新问题