tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

TypeError是什么原因？

我需要标记文本。我决定使用 pymorphy2 库，但是当试图创建一个 MorphAnalyzer() 对象时，它抛出一个错误：TypeError: super(type, obj): obj must be an instance or

python-3.x nlp tokenize

回答 0 投票 0

pip install nnsplit 不起作用，如何解决？

nnsplit 看起来很有前途，我想开始在我的电脑上使用它，但是当我运行 pip install nnsplit 时出现以下错误错误：找不到满足 nn...

python nlp tokenize

回答 1 投票 0

IntelliJ IDEA中的XSLT 2支持

我在IntelliJ中查看XSLT 2风格的XML文件时遇到了一个问题。我已经添加了Saxon HE的依赖性，我知道它可以工作，因为构建成功（没有这个依赖性是不行的）。

xml xslt-2.0 tokenize

回答 1 投票 0

字符串regex无法分割封闭括号内的单词

我正在使用一个字符串regex来拆分下面的字符串 String input = "( Customer.browse == \"Car Loan\" ) AND ( Campaign.period BETWEEN 2400 AND 600 ) AND ( Customer.eligibity == TRUE ) AND ( ....

java regex string split tokenize

回答 1 投票 0

试图编程

我正在尝试编写一个tokenizer程序，输入一个字符串，例如：" 34 56 7899 "，并编辑 "34"、"56 "和 "7899 "这几个单一的标记。此外，我不允许使用标准的 ...

java token tokenize stringtokenizer

回答 2 投票 -1

如何将keras tokenizer. texts_to_matrix（一热编码矩阵）的单词转换成文本。

我参考了这个帖子，其中讨论了如何使用 reverse_map 策略从 keras 中 tokenizer 的 text_to_sequences 函数获取文本。我想知道是否有一个函数可以获取文本......

python-3.x text keras tokenize one-hot-encoding

回答 1 投票 0

使用堆栈的Bencode解析器

我正试图使用基于堆栈的方法来解析一个编码字符串。这个链接描述了Bencoding：https:/www.bittorrent.orgbepsbep_0003.html 我的psuedocode不能处理有 ...

algorithm parsing recursion stack tokenize

回答 1 投票 0

从CSV中创建二维数组，并获得指定列的字数。

我有一个CSV文件，看起来像这样。地点代码,地点描述,类型代码,故障类型,产品编号,型号,起因,审核员,日期,方向盘,发动机,国家,当前班次号,VIN,评论,... ...

c# string multidimensional-array tokenize word-count

回答 1 投票 1

像Elasticsearch中的Shingle一样的字符串tokenizer过滤器。

我在一个购物网站上工作，要求从产品名称中生成有意义的字符串标记，以实现自动完成功能。例如：如果产品名称是。"Red Beryl Striped Cotton ..."。

string elasticsearch text nlp tokenize

回答 1 投票 0

像Elasticsearch中的Shingle一样的字符串tokenizer过滤器。

我在一个购物网站上工作，要求从产品名称中生成有意义的字符串标记，以实现自动完成功能。例如：如果产品名称是。"Red Beryl Striped Cotton ..."。

string elasticsearch text nlp tokenize

回答 1 投票 0

在数据框架中使用RegexpTokenizer拆分句子 [重复] 。

我试图将数据框输入到我的文字处理器中，先分割成句子，再分割成单词。一个示例文本。当打击被重复时，再加上幼稚的句子告诫，... ...

python pandas dataframe nltk tokenize

回答 1 投票 1

如何阻止 BERT 将特定的单词拆成单词片断？

我正在使用一个预先训练好的BERT模型将一个文本标记成有意义的标记。然而，文本中有许多特定的单词，我不想让 BERT 模型将它们分解成单词片段。有没有什么...

python text nlp tokenize bert

回答 2 投票 0

Bert Tokenizer在导入所有包后仍无法工作。是否有新的语法变化？

试图运行 Bert 的 tokenizer，但我一直收到错误。谁能帮帮我，我到底哪里出错了。FullTokenizer = bert.bert_tokenization.FullTokenizer bert_layer = hub.KerasLayer("https:/tfhub...")

python tokenize sentiment-analysis bert

回答 1 投票 0

NLTK单词标记化除了带破折号的单词之外的所有单词，例如（'hi-there'，'me-you'）。

我不知道如何使用nltk.word_tokenize方法来标记除了带破折号的词以外的所有词（即排除所有中间有破折号的词）。我试过使用 ...

python machine-learning nltk tokenize

回答 1 投票 0

BPE Tokenizer 对一些 html 文本进行编码需要很长时间。

我正在使用BPE tokenizer对HTML文本进行编码以解决分类问题。大多数情况下，它都能正常工作，但有几个网页的编码器需要花费很长的时间来编码HTML。诸如...

machine-learning random-forest tokenize

回答 0 投票 -1

[tokenizer中的令牌到单词的映射，解码步骤在拥抱面？

是否有一种方法可以知道从令牌到tokenizer.decode（）函数中原始单词的映射？例如：从transformers.tokenization_roberta导入RobertaTokenizer ...

pytorch tokenize huggingface-transformers

回答 1 投票 0

如何使用Tokenize模块对python代码进行令牌化？

考虑到我有一个包含python代码的字符串。输入=“从nltk.stem导入nltk导入PorterStemmer porter_stemmer = PorterStemmer（）words = [” connect“，” connected“，” connection“，” ...

python-3.x tokenize

回答 1 投票 0

Java-如何搜索特定的字符串，组合两个字符串并用另一个单词替换一个单词？

我是JAVA的新手。您将如何处理这种情况：假设我有一串这样的文字：Firs Line Angel：我的工作是程序员。自工作起的第二线日期：13.05.2020 ...

java regex tokenize

回答 1 投票 -4

单词袋中使用的单词以及keras标记器中的频率

我只是想知道，如何识别或获取单词列表以及keras标记器考虑的单词袋频率。考虑下面来自tensorflow.keras ....]的示例

tensorflow keras tokenize

回答 1 投票 0

在C ++中标记字符串

我正在编写一个程序，该程序将读取文本文件，并且输入与此类似。我编写的读取输入文件的代码将其存储为字符串数组，每个元素都代表一行……

c++ string input tokenize

回答 1 投票 0

tokenize 相关问题

最新问题