tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

Elasticsearch“ max_ngram_diff”适用于“ edge_ngram”,但不适用于“ ngram_tokenizer”

我有一个Elasticsearch索引,我在其中设置了“ max_ngram_diff”:50,但是不知何故,它似 乎仅适用于edge_ngram令牌生成器,而不适用于ngram令牌生成器。我已经提出了这两个请求...

回答 1 投票 0

如何在ElasticSearch中标记罗马数字术语?

[通过以下方式注册令牌字符来创建令牌生成器时,无法注册罗马字母'X'。(测试ES版本:ES6.7,ES5.6)“ tokenizer”:{“ autocomplete”:{“ type”:“。 。

回答 1 投票 1

标记字符串并以数组形式返回

我正在尝试标记通过的字符串,将标记存储在数组中并返回它。 for循环仅用于验证字符串是否实际上已被拆分为标记,可以随意忽略。示例...

回答 2 投票 0

将字符串转换为Java中的令牌数组

[我正在尝试将字符串转换为令牌数组,尽管我一直在互联网上发现与此类似的问题,但没有人在解释如何将单词专门转换为...

回答 1 投票 0

将字符串转换为令牌数组(Java)

[我正在尝试将字符串转换为令牌数组,尽管我一直在互联网上发现与此类似的问题,但没有人在解释如何将单词专门转换为...

回答 2 投票 0

用引号引起来的逗号分隔字符串

我看到有几个类似的问题,但是我没有找到满意的答案。我有一个逗号分隔的文件,其中的每一行看起来都像这样:4477,52544 ,,, P,S,,, ...

回答 2 投票 1

令牌生成器并打印它

在分词器之后,我的字符串列表会试图获取单词的值及其编号的关联。 f.e:= 3我该怎么做? (python)这是代码:strains_train,snifes_test,...

回答 1 投票 -1

如何标记单词并将其输入到另一个文件中?

我只能获取停用词以在文档中实现,然后创建一个新文件,并删除停用词。我无法获得单词标记化,搬运工或发送标记化处理的信息。 import io ...

回答 2 投票 0


我如何获得Spacy停止将带连字符的数字和单词拆分为单独的标记?

感谢您的光临。我正在使用spaCy对一块文本执行命名实体识别,并且遇到了一个我似乎无法克服的特殊问题。这是一个示例代码:来自spacy.tokenizer ...

回答 1 投票 2

我如何获得Spacy停止将带连字符的数字拆分为单独的标记?

感谢您的光临。我正在使用spaCy对一块文本执行命名实体识别,并且遇到了一个我似乎无法克服的特殊问题。这是一个示例代码:来自spacy.tokenizer ...

回答 1 投票 0

如何根据c中的位置打印字符串?

我正在研究一个问题,要求我在该位置打印一个给出了字段编号的字符串。字符串应从文件中读取。 file.txt C是一种语言。 lex词法分析器(空白...

回答 1 投票 0

输出文件中的文本被覆盖

来自redditscore.tokenizer的urllib导入请求CrazyTokenizer的tokenizer = CrazyTokenizer()url =“ http://www.site.uottawa.ca/~diana/csi5386/A1_2020/microblog2011.txt”,用于请求中的行... 。

回答 2 投票 0

如何将列表输出打印到文件中

来自redditscore.tokenizer的urllib导入请求CrazyTokenizer的tokenizer = CrazyTokenizer()url =“ http://www.site.uottawa.ca/~diana/csi5386/A1_2020/microblog2011.txt”,用于请求中的行... 。

回答 1 投票 0

Analyzer既可以执行简单的分析器,也可以标记数字

我正在使用Elasticsearch内置的简单分析器https://www.elastic.co/guide/en/elasticsearch/reference/1.7/analysis-simple-analyzer.html,其中使用了小写标记器。和文本苹果8 IS ...

回答 1 投票 1

将列拆分为多行

我有一个表,该表的列包含用逗号(,)分隔的多个值,并希望将其拆分,因此我将earch Site放在其自己的行上,但前面具有相同的Number。所以我的选择是...

回答 5 投票 4

如何将字符串分成单词和数字? [关闭]

我需要用JavaScript标记表示库存中项目的字符串,以获取单词和数字,例如:给定字符串'Plane Engine 50x60',标记应为['Plane','Engine','50','。 ..

回答 1 投票 -1

令牌生成器是否可在Elasticsearch中用于索引或查询,或两者都起作用?

我正在查看Elasticsearch 6.8中的令牌生成器。我知道它定义了我们在建立索引时如何将文本标记为单词。例如,它将转换为“ Quick brown fox!”。文字变成术语...

回答 2 投票 0


Tfidf Vectorizer

我从文本审阅中获取了一个用于预测情感的数据集,最初,我清理数据(删除标点符号,删除停用词,标记化)。当我尝试将标记化数据提供为...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.