tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

nltk.TweetTokenizer与nltk.word_tokenize有何不同？

我无法理解两者之间的区别。虽然，我知道word_tokenize使用Penn-Treebank进行令牌化。但是TweetTokenizer上没有任何可用。为此...

python nlp artificial-intelligence nltk tokenize

回答 1 投票 0

[请查看下面的代码，这些文件来自Transformers import GPT2Tokenizer，GPT2Model text =“这是我要嵌入的句子。” #marked_text =“ [CLS]” +文本+“ [SEP]”＃标记化我们的...

python nlp tokenize transformer

回答 1 投票 1

不使用内置函数分割数组

下面的代码旨在接受一个输入字符串，例如“我的名字是史密斯”，输出“我的名字是史密斯”，并且还必须排除以下内容：、、。和空间，只有这三个，但输出却是I'...

c loops tokenize c-strings

回答 2 投票 1

如何在NLTK中使用word_tokenize忽略单词之间的标点符号？

我正在使用NLTK word_tokenize忽略单词之间的字符。如果我有一句话：test ='我应该在标准普尔交易吗？这适用于电话号码333-445-6635和电子邮件test @ ...

python nlp nltk tokenize multi-word-expression

回答 2 投票 2

如何为keras Tokenizer选择num_words参数？

tokenizer = Tokenizer（num_words = my_max）我正在使用keras预处理令牌生成器来处理机器学习模型的文本语料库。分词器的参数之一是num_words ...

tensorflow machine-learning keras nlp tokenize

回答 1 投票 0

String标记生成器过滤器，例如Elasticsearch中的Shingle

我正在一个购物电子商务网站上工作，要求从产品名称生成有意义的字符串令牌以实现自动完成功能。例如：如果产品名称是：“ Red Beryl Striped Cotton ...

string elasticsearch text nlp tokenize

回答 1 投票 0

Tkinter显示类别列表文本

我有以下代码：我正在尝试从showText函数获取文本，以使其真正从tkinter import出现在窗口中*从nltk.tokenize import导入Wikipedia ...

python-3.x tkinter tokenize

回答 1 投票 0

关于拥抱脸型变形金刚中的get_special_tokens_mask

我使用变形器标记器，并使用API ：get_special_tokens_mask创建了掩码。我的代码在RoBERTa Doc中，此API的返回结果是“范围为[0，1]的整数列表：0表示特殊令牌，1表示...

tokenize huggingface-transformers

回答 1 投票 0

为什么我在PySpark中进行RegexTokenizer转换会得到与所需模式相反的内容？

[当我使用pyspark.ml.feature中的RegexTokenizer对数据框中的句子列进行标记化以查找所有单词字符时，我得到的含义与python re包为...时的结果相反]] >> < [

regex pyspark tokenize

回答 1 投票 0

C＃：从CSV创建2D数组并获得指定列的字数

我有一个看起来像这样的CSV文件：，位置代码，位置_Desc，类型代码，故障类型，产品编号，型号，Causer，审核员，Prio，捕获日期，转向，发动机，国家/地区，当前班次编号，VIN，注释，...

c# string multidimensional-array tokenize word-count

回答 1 投票 1

如何使用Keras令牌生成器处理字符？

对于序列标记任务，我的训练数据和标签如下所示：train_data = [['p'，'l'，'a'，'y'，'s'] train_labels = [[' '，' '，'',' ',' ']] ...

keras tokenize

回答 1 投票 0

如何在类似于AST树的方式下转换js字符串？

我需要将类似于以下的字符串表达式：“ SALARY（'@ JohnSmith'）= {USER.workingHours} * {USER.hourlyRate}”转换为类似于AST的形式。例如：const result = [{{...

javascript tokenize abstract-syntax-tree

回答 1 投票 0

使用encode_plus方法时令牌索引序列长度错误

当尝试使用Transformers库中提供的encode_plus方法为BERT编码问答对时，出现了一个奇怪的错误。我正在使用来自Kaggle比赛的数据。给定一个...

nlp tokenize huggingface-transformers bert

回答 1 投票 0

将字符串加引号括起来

我有以下字符串：“'string'4'[''RP0'，'LC0']''[3，4]''[3，'4']'”我正在使用shlex.split标记化字符串，如下所示：用于shlex.split（“'string'4'['RP0'，'LC0']''[...

python python-3.x tokenize

回答 1 投票 0

R：带有标记化功能的自创建函数，％like％仅在第一个标记上起作用

我有两列的数据帧，第二列（单元）主要包含第一列（str）的第一个单词。请在下面查看：> df

r function dataframe comparison tokenize

回答 1 投票 0

Huggingface的BERT令牌生成器未添加填充令牌

从文档中还不清楚，但是我可以看到BertTokenizer是使用pad_token ='[PAD]'初始化的，所以我假设当您使用add_special_tokens = True进行编码时，... ...>

tokenize huggingface-transformers bert

回答 1 投票 0

Python NLTK从CSV准备数据以进行标记化

我是Python和NLTK的新手。从CSV导入文本后，我正在尝试使用NLTK在Python中准备用于标记化的文本。文件中只有一栏包含自由文本。我想隔离...

python csv nltk tokenize

回答 1 投票 0

没有定界符的输入字符串的标记化

我有这样的字符串（“ Customer.Activity” ==“汽车贷款”），我正在使用以下代码在java import java.util.ArrayList中使用StringTokenizer拆分String；导入java.util.StringTokenizer; ...

java regex string split tokenize

回答 2 投票 0

全文中的标记化，用与号表示

我当前正在使用tidytext包中的unnest_tokens（）函数。它完全按照我的需要工作，但是，它从文本中删除了“＆”号。我希望它不这样做，但是...

r tokenize tidytext unnest

回答 1 投票 0

在C ++中标记字符串[关闭]

描述：在C ++中构建基本代码以标记字符串（包括空格）。主要思想：调用一个局部函数，该函数使用......>

c++ tokenize

回答 1 投票 -1

tokenize 相关问题

最新问题