tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

如何在类似于AST树的方式下转换js字符串?

我需要将类似于以下的字符串表达式:“ SALARY('@ JohnSmith')= {USER.workingHours} * {USER.hourlyRate}”转换为类似于AST的形式。例如:const result = [{{...

回答 1 投票 0

使用encode_plus方法时令牌索引序列长度错误

当尝试使用Transformers库中提供的encode_plus方法为BERT编码问答对时,出现了一个奇怪的错误。我正在使用来自Kaggle比赛的数据。给定一个...

回答 1 投票 0

将字符串加引号括起来

我有以下字符串:“'string'4'[''RP0','LC0']''[3,4]''[3,'4']'”我正在使用shlex.split标记化字符串,如下所示:用于shlex.split(“'string'4'['RP0','LC0']''[...

回答 1 投票 0

R:带有标记化功能的自创建函数,%like%仅在第一个标记上起作用

我有两列的数据帧,第二列(单元)主要包含第一列(str)的第一个单词。请在下面查看:> df

回答 1 投票 0

Huggingface的BERT令牌生成器未添加填充令牌

从文档中还不清楚,但是我可以看到BertTokenizer是使用pad_token ='[PAD]'初始化的,所以我假设当您使用add_special_tokens = True进行编码时,... ...>

回答 1 投票 0

Python NLTK从CSV准备数据以进行标记化

我是Python和NLTK的新手。从CSV导入文本后,我正在尝试使用NLTK在Python中准备用于标记化的文本。文件中只有一栏包含自由文本。我想隔离...

回答 1 投票 0

没有定界符的输入字符串的标记化

我有这样的字符串(“ Customer.Activity” ==“汽车贷款”),我正在使用以下代码在java import java.util.ArrayList中使用StringTokenizer拆分String;导入java.util.StringTokenizer; ...

回答 2 投票 0

全文中的标记化,用与号表示

我当前正在使用tidytext包中的unnest_tokens()函数。它完全按照我的需要工作,但是,它从文本中删除了“&”号。我希望它不这样做,但是...

回答 1 投票 0

在C ++中标记字符串[关闭]

描述:在C ++中构建基本代码以标记字符串(包括空格)。主要思想:调用一个局部函数,该函数使用......>

回答 1 投票 -1

如何在numpy.ndarray中标记?

我有以下ndarray:X_train:[[,]] array([['Boots new','Boots 46 size new'],['iPhone 7 plus 128GB Red','\ xa0 / \ n / \ n此价格仅适用于Instagram ...

回答 1 投票 0

找不到资源点。但是,它已下载并安装

我在数据框中有以下几列。未命名:0,标题,出版物,作者,年份,月份,title.1,内容,len_article,gensim_summary,split_words,first_100_words我正在尝试运行此...

回答 1 投票 0

无法从存储在csv中的URL获取NetLock

我有一个带有4k行url的csv文件。我想获取每个URL的NetLoc并绘制一个条形图,显示该URL中排名前5位的Netloc。 #i已使用此代码!pip install wget link_to_data ='...

回答 1 投票 0

将可能是元组或其他名称的字符串标记化

我正在为基本的编程语言构建词法分析器(令牌生成器),而我正在考虑的语言功能之一就是可以将字符串解析为元组或表达式。 ...

回答 1 投票 0

'CountVectorizer()'在空格而不是逗号处分割

因此,在我的数据框中,我有一个“演员”列,其中包含多个演员的“名字的姓氏”。例如:当我使用CountVectorizer(...

回答 2 投票 0

使用Word2Vec对字符串列表进行向量化,以提供给keras顺序层

我正在尝试使用fastText构建定制的单词嵌入模型,该模型将我的数据(句子列表)表示为矢量,因此我可以将其“馈送”到Keras CNN进行滥用语言检测。我的...

回答 1 投票 -1

在将函数传递给令牌https://github.com/allenai/scispacy时使用unnest_tokens()时出错,

unnest_tokens.data.frame(。,实体,文本,令牌= tokenize_scispacy_entities,中的错误::令牌化函数的预期输出为长度为100的列表。unnest_tokens()对于...非常有效。

回答 1 投票 1

AttributeError:'spacy.tokens.doc.Doc'对象没有属性'lower'

我正在将文本添加到列表中,然后将文本更改为嵌入单词,然后进行机器学习。 “文章”中的“插入项”是通过使用spacy收集的,但随后我遇到了...

回答 1 投票 1

将字符串中的单词提取到动态2D char数组中

我有一个包含字符串的动态char数组。我正在尝试从该字符串中提取所有单词到动态2d char数组中。这是我的代码:int rows = 1;字符* input_words = malloc((行)* ...

回答 1 投票 1

尝试标记字符串并将每个部分插入数组时出错

while(fgets(buff,sizeof(char *)* 100,文件)){如果(line == 0){fgets(buff,sizeof(char *)* 100,文件);线++; } int i = 0; char * p = strtok(buff,“,”);字符* ...

回答 1 投票 0

如何使用python从列表中删除空引号?

我有一个Python脚本,可以对文本进行预处理,然后再进行文本分析。清除文本的一些功能是:删除少于两个字符的字符串。标记化...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.