tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

Elasticsearch“ max_ngram_diff”适用于“ edge_ngram”，但不适用于“ ngram_tokenizer”

我有一个Elasticsearch索引，我在其中设置了“ max_ngram_diff”：50，但是不知何故，它似乎仅适用于edge_ngram令牌生成器，而不适用于ngram令牌生成器。我已经提出了这两个请求...

elasticsearch tokenize n-gram elasticsearch-analyzers

回答 1 投票 0

如何在ElasticSearch中标记罗马数字术语？

[通过以下方式注册令牌字符来创建令牌生成器时，无法注册罗马字母'X'。（测试ES版本：ES6.7，ES5.6）“ tokenizer”：{“ autocomplete”：{“ type”：“。。

elasticsearch lucene tokenize elasticsearch-analyzers

回答 1 投票 1

标记字符串并以数组形式返回

我正在尝试标记通过的字符串，将标记存储在数组中并返回它。 for循环仅用于验证字符串是否实际上已被拆分为标记，可以随意忽略。示例...

c token tokenize c-strings strtok

回答 2 投票 0

将字符串转换为Java中的令牌数组

[我正在尝试将字符串转换为令牌数组，尽管我一直在互联网上发现与此类似的问题，但没有人在解释如何将单词专门转换为...

java arraylist split token tokenize

回答 1 投票 0

将字符串转换为令牌数组（Java）

[我正在尝试将字符串转换为令牌数组，尽管我一直在互联网上发现与此类似的问题，但没有人在解释如何将单词专门转换为...

java arraylist split token tokenize

回答 2 投票 0

用引号引起来的逗号分隔字符串

我看到有几个类似的问题，但是我没有找到满意的答案。我有一个逗号分隔的文件，其中的每一行看起来都像这样：4477,52544 ,,, P，S，,, ...

java regex split tokenize

回答 2 投票 1

令牌生成器并打印它

在分词器之后，我的字符串列表会试图获取单词的值及其编号的关联。 f.e：= 3我该怎么做？（python）这是代码：strains_train，snifes_test，...

python printing tokenize

回答 1 投票 -1

如何标记单词并将其输入到另一个文件中？

我只能获取停用词以在文档中实现，然后创建一个新文件，并删除停用词。我无法获得单词标记化，搬运工或发送标记化处理的信息。 import io ...

python nltk tokenize

回答 2 投票 0

函数'strtok_r'的隐式声明[-Wimplicit-function-declaration]包括

c string tokenize strtok gcc-warning

回答 5 投票 6

我如何获得Spacy停止将带连字符的数字和单词拆分为单独的标记？

感谢您的光临。我正在使用spaCy对一块文本执行命名实体识别，并且遇到了一个我似乎无法克服的特殊问题。这是一个示例代码：来自spacy.tokenizer ...

python regex tokenize spacy

回答 1 投票 2

我如何获得Spacy停止将带连字符的数字拆分为单独的标记？

感谢您的光临。我正在使用spaCy对一块文本执行命名实体识别，并且遇到了一个我似乎无法克服的特殊问题。这是一个示例代码：来自spacy.tokenizer ...

python regex tokenize spacy

回答 1 投票 0

如何根据c中的位置打印字符串？

我正在研究一个问题，要求我在该位置打印一个给出了字段编号的字符串。字符串应从文件中读取。 file.txt C是一种语言。 lex词法分析器（空白...

c string file tokenize

回答 1 投票 0

输出文件中的文本被覆盖

来自redditscore.tokenizer的urllib导入请求CrazyTokenizer的tokenizer = CrazyTokenizer（）url =“ http://www.site.uottawa.ca/~diana/csi5386/A1_2020/microblog2011.txt”，用于请求中的行... 。

python nlp tokenize

回答 2 投票 0

如何将列表输出打印到文件中

来自redditscore.tokenizer的urllib导入请求CrazyTokenizer的tokenizer = CrazyTokenizer（）url =“ http://www.site.uottawa.ca/~diana/csi5386/A1_2020/microblog2011.txt”，用于请求中的行... 。

nlp tokenize

回答 1 投票 0

Analyzer既可以执行简单的分析器，也可以标记数字

我正在使用Elasticsearch内置的简单分析器https://www.elastic.co/guide/en/elasticsearch/reference/1.7/analysis-simple-analyzer.html，其中使用了小写标记器。和文本苹果8 IS ...

elasticsearch tokenize analyzer elasticsearch-analyzers

回答 1 投票 1

将列拆分为多行

我有一个表，该表的列包含用逗号（，）分隔的多个值，并希望将其拆分，因此我将earch Site放在其自己的行上，但前面具有相同的Number。所以我的选择是...

sql oracle oracle10g tokenize

回答 5 投票 4

如何将字符串分成单词和数字？ [关闭]

我需要用JavaScript标记表示库存中项目的字符串，以获取单词和数字，例如：给定字符串'Plane Engine 50x60'，标记应为['Plane'，'Engine'，'50'，'。 ..

javascript regex tokenize

回答 1 投票 -1

令牌生成器是否可在Elasticsearch中用于索引或查询，或两者都起作用？

我正在查看Elasticsearch 6.8中的令牌生成器。我知道它定义了我们在建立索引时如何将文本标记为单词。例如，它将转换为“ Quick brown fox！”。文字变成术语...

elasticsearch tokenize elasticsearch-analyzers

回答 2 投票 0

js中的Regexp或算法，用于从字符串中获取令牌[closed]

javascript regex tokenize

回答 1 投票 -1

Tfidf Vectorizer

我从文本审阅中获取了一个用于预测情感的数据集，最初，我清理数据（删除标点符号，删除停用词，标记化）。当我尝试将标记化数据提供为...

machine-learning data-mining tokenize tfidfvectorizer

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.