标记化是将字符串拆分为称为标记的离散元素的行为。
我需要标记文本。我决定使用 pymorphy2 库,但是当试图创建一个 MorphAnalyzer() 对象时,它抛出一个错误:TypeError: super(type, obj): obj must be an instance or
pip install nnsplit 不起作用,如何解决?
nnsplit 看起来很有前途,我想开始在我的电脑上使用它,但是当我运行 pip install nnsplit 时出现以下错误 错误:找不到满足 nn...
我在IntelliJ中查看XSLT 2风格的XML文件时遇到了一个问题。我已经添加了Saxon HE的依赖性,我知道它可以工作,因为构建成功(没有这个依赖性是不行的)。
我正在使用一个字符串regex来拆分下面的字符串 String input = "( Customer.browse == \"Car Loan\" ) AND ( Campaign.period BETWEEN 2400 AND 600 ) AND ( Customer.eligibity == TRUE ) AND ( ....
我正在尝试编写一个tokenizer程序,输入一个字符串,例如:" 34 56 7899 ",并编辑 "34"、"56 "和 "7899 "这几个单一的标记。此外,我不允许使用标准的 ...
如何将keras tokenizer. texts_to_matrix(一热编码矩阵)的单词转换成文本。
我参考了这个帖子,其中讨论了如何使用 reverse_map 策略从 keras 中 tokenizer 的 text_to_sequences 函数获取文本。我想知道是否有一个函数可以获取文本......
我正试图使用基于堆栈的方法来解析一个编码字符串。这个链接描述了Bencoding:https:/www.bittorrent.orgbepsbep_0003.html 我的psuedocode不能处理有 ...
我有一个CSV文件,看起来像这样。地点代码,地点描述,类型代码,故障类型,产品编号,型号,起因,审核员,日期,方向盘,发动机,国家,当前班次号,VIN,评论,... ...
像Elasticsearch中的Shingle一样的字符串tokenizer过滤器。
我在一个购物网站上工作,要求从产品名称中生成有意义的字符串标记,以实现自动完成功能。例如:如果产品名称是。"Red Beryl Striped Cotton ..."。
像Elasticsearch中的Shingle一样的字符串tokenizer过滤器。
我在一个购物网站上工作,要求从产品名称中生成有意义的字符串标记,以实现自动完成功能。例如:如果产品名称是。"Red Beryl Striped Cotton ..."。
在数据框架中使用RegexpTokenizer拆分句子 [重复] 。
我试图将数据框输入到我的文字处理器中,先分割成句子,再分割成单词。一个示例文本。当打击被重复时,再加上幼稚的句子告诫,... ...
我正在使用一个预先训练好的BERT模型 将一个文本标记成有意义的标记。然而,文本中有许多特定的单词,我不想让 BERT 模型将它们分解成单词片段。有没有什么...
Bert Tokenizer在导入所有包后仍无法工作。是否有新的语法变化?
试图运行 Bert 的 tokenizer,但我一直收到错误。谁能帮帮我,我到底哪里出错了。FullTokenizer = bert.bert_tokenization.FullTokenizer bert_layer = hub.KerasLayer("https:/tfhub...")
NLTK单词标记化除了带破折号的单词之外的所有单词,例如('hi-there','me-you')。
我不知道如何使用nltk.word_tokenize方法来标记除了带破折号的词以外的所有词(即排除所有中间有破折号的词)。我试过使用 ...
BPE Tokenizer 对一些 html 文本进行编码需要很长时间。
我正在使用BPE tokenizer对HTML文本进行编码以解决分类问题。大多数情况下,它都能正常工作,但有几个网页的编码器需要花费很长的时间来编码HTML。诸如...
[tokenizer中的令牌到单词的映射,解码步骤在拥抱面?
是否有一种方法可以知道从令牌到tokenizer.decode()函数中原始单词的映射?例如:从transformers.tokenization_roberta导入RobertaTokenizer ...
考虑到我有一个包含python代码的字符串。输入=“从nltk.stem导入nltk导入PorterStemmer porter_stemmer = PorterStemmer()words = [” connect“,” connected“,” connection“,” ...
Java-如何搜索特定的字符串,组合两个字符串并用另一个单词替换一个单词?
我是JAVA的新手。您将如何处理这种情况:假设我有一串这样的文字:Firs Line Angel:我的工作是程序员。自工作起的第二线日期:13.05.2020 ...
我只是想知道,如何识别或获取单词列表以及keras标记器考虑的单词袋频率。考虑下面来自tensorflow.keras ....]的示例
我正在编写一个程序,该程序将读取文本文件,并且输入与此类似。我编写的读取输入文件的代码将其存储为字符串数组,每个元素都代表一行……