tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

通过Python用段落对书进行标记

我正在研究一个NLP项目,并试图按段落标记“大期望”,然后存储到列表中。为了执行一些无监督的学习主题模型,我需要这样做。 #...

回答 1 投票 -2

如何在抽象语法树之前编辑语法树?

我想了解如何有效地使用stdlib解析器模块,因为有时ast.parse会丢失太多信息(它会吃掉空格,注释,多余的括号等-详情为...

回答 1 投票 0

ParserError:标记数据出错。 C错误:第4行中预期有7个字段,在读取csv文件熊猫时看到10个错误

我正在尝试使用pandas df1 = pd.read_csv('panda_error.csv',header = None,sep =',')读取csv文件,但出现此错误:ParserError:对数据进行标记时出错。 C错误:预期7个字段...

回答 2 投票 0

我如何在C#中拆分字符串以获取以下结果?

输入:高级业务开发人员输出:高级业务开发人员业务开发人员有人可以建议使用C#进行此操作的有效方法。我认为可以使用拆分功能进行某些操作,但是...

回答 1 投票 -3

如何在Elasticsearch中将某些单词组合成令牌?

对于像“这是美好的一天”这样的字符串,我想将该字符串标记为记号:“这是一个美好的一天,美好的一天”,在这里我可以指定一组要组合的词。在这种情况下...

回答 1 投票 0

如何根据Elasticsearch中的最大单词数对句子进行标记?

我有一个字符串,例如“这是美好的一天”,我应该使用什么标记器或标记器与标记过滤器的组合来产生最多包含2个单词的术语? ...

回答 2 投票 1

我如何编写一个字符串标记器,将每个新字符串放入向量中?

如何分割字符串,以便使用strtok_s将每个单词作为元素放入字符串向量中?

回答 1 投票 -2

如何设置注释以将标签视为spaCy库中的名词,Python

[我有这个标记的句子:[x]在[z]中移至[y]。如何设置[x],[y]作为名词,[z]作为日期时间的注释?我指的是https://spacy.io/usage/linguistic-features#native-tokenizer -...

回答 1 投票 0

Python-自然语言处理NLTK / RE删除单词之间的空格

我正在尝试规范化文本,并且代码删除了单词之间的空格。当运行代码时,将pandas pd作为pd导入nltk,作为nltk nltk.download('stopwords')nltk.download('punkt')import ...

回答 1 投票 -1

BertTokenizer-当编码和解码序列出现额外的空格时

使用HuggingFace的Transformers时,我面临编码和解码方法的问题。我有以下字符串:test_string ='text with percent%'然后我正在运行...

回答 1 投票 5

尝试使用Elasticsearch 7.4搜索“ a-test”

我已实现搜索功能,并且我正在尝试搜索包含“。”的字符串。或“-”,例如a-test或a.test,因为我现有的查询无济于事,请问该怎么做:{“ query”:{“ ...

回答 1 投票 -1

Python中的分割字符串和捕获组

我有以下字符串:'Cc1cc([N +](= O)[O-])ccc1OCC(C)(O)CN1CCN(Cc2ccccc2)CC1'并想捕获[N +]和[O-],是,拆分并恢复它们。我似乎无法恢复...

回答 1 投票 0

分割char数组并存储到向量中

我已经在网上搜索过,但是找不到一种方法来通过空格(“”)分割char数组并将每个单词存储为一个向量。 int main(){字符串输入;向量 splitInput; getline(cin,...

回答 1 投票 0

尝试对数组进行切片会导致“数组索引过多”。我可以填充阵列来解决此问题吗?

我已经看到许多有关此特定错误的问题。我相信我的问题与众不同,足以保证自己的职位。我的目标:我正在构建一个生成新闻头条的RNN。...

回答 1 投票 0

在预先标记的文本上使用空格

我想使用spacy处理已经预先加标记的文本。将令牌列表解析为spacy无效。 import spacy nlp = spacy.load(“ en_core_web_sm”)nlp([“ This”,“ is”,“ a”,“ sentence”])...

回答 1 投票 0

Elasticsearch标准令牌生成器的行为和单词边界

我不确定在这种情况下标准令牌生成器(由默认标准分析器使用)为什么会像这样:-如果使用单词system.exe,它将生成令牌system.exe。我明白 。 ...

回答 1 投票 0

瑞典词条化

我正在尝试为瑞典语找到一个词消句器,但没有成功。有人对这个有了解吗?我知道ntlk软件包中的WordNet,但这仅适用于英语。

回答 1 投票 0

我可以使用高棉语言的标记化输入文件和自定义词汇文件从头开始对BERT模型进行预训练吗?]

我想知道是否可以将我自己的标记化/分段文档(以及我自己的vocab文件)用作create_pretraining_data.py脚本的输入文件(git源:https:/ ...) >

回答 1 投票 2

Python标记化文本:如何将标记化列表转换为字符串?

[我正在尝试从nltk.tokenize import send_tokenize,word_tokenize text ='''标记文本='''该团队使用了2016年和2017年的档案“数据” ...由ESA / NASA哈勃太空望远镜捕获,... ...] >

回答 2 投票 0

有了spacy,如何确保字母序列永远不会分割成令牌

我正在寻找一种方法来确保序列“#*”出现在文本中的任何时间,spacy给了我令牌“#*”。我尝试了使用add_special_case添加特殊情况的所有可能方法,构建了...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.