tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

WOOL 语言允许以下结构： [[ 文字 |节点名称]] [[ 节点名称 ]] [[ 文字 |节点名称 |文本 ]] 文本应按键入的方式标记化的位置，包括空格和其他内容（

antlr4 tokenize

回答 0 投票 0

Libretranslate（+ Huggingface Transformers）-无法翻译文本：为 Tokenizer 加载 state_dict 时出错：state_dict 中缺少键：

Python 3.10.6，Libretranslate 1.3.10，在 Ubuntu 22.04 上使用 pip install libretranslate 安装 libretranslate，使用 libretranslate --host 0.0.0.0 --port 5001 运行它。一切都按预期工作....

tokenize huggingface

回答 0 投票 0

微调 GPT2 - 注意掩码和 pad 令牌 id 错误

我一直在尝试在 wikitext-2 数据集上微调 GPT2（只是为了帮助自己学习这个过程），但我遇到了一条我以前从未见过的警告消息： “注意力面具......

machine-learning tokenize training-data gpt-2 fine-tune

回答 1 投票 0

在 ANSI C 中使用指针标记字符串

这是在 Ansi C 中。我得到了一个字符串。我应该创建一个方法，该方法返回指向所述字符串的每个单词开头的字符指针数组。我不允许使用

c string tokenize ansi-c

回答 2 投票 0

ChatGPT：如何在提示中使用未知内容的长文本？

我非常喜欢网站 chatpdf.com。您可以上传 PDF 文件，然后将文件的文本内容与文件“本身”进行讨论。它使用 ChatGPT。我想编程一些东西

token chatbot tokenize openai-api chatgpt-api

回答 0 投票 0

在 Racket 中构建解析器

我是 Racket 的新手，我正在尝试使用 Beautiful Racket 库解析语法。我在一个单独的文件中定义了语法，它似乎完全没问题。我的代币化也是 w...

parsing racket tokenize lexer beautiful-racket

回答 0 投票 0

大多数字节已被使用时的字节对编码

字节对编码显然有时用于在运行机器学习算法之前压缩/标记文本。根据 https://en.wikipedia.org/wiki/Byte_pair_encoding 的基本...

text nlp compression tokenize

回答 1 投票 0

使用 strcat() 时出现段错误

调用 strcat() 时出现分段错误；但是，我已经 malloc 了目标字符串并初始化了前一个字符串。这是在 C 中制作 shell 的任务，我是 ...

c segmentation-fault tokenize

回答 1 投票 0

如何修复 pymorphy 库中的“TypeError: super(type, obj): obj must be an instance or subtype of type”？

我需要标记文本。我决定使用 pymorphy2 库，但是在尝试创建 MorphAnalyzer() 对象时，它会抛出错误 TypeError: super(type, obj): obj 必须是实例或

python-3.x nlp tokenize

回答 0 投票 0

TypeError是什么原因？

我需要标记文本。我决定使用 pymorphy2 库，但是当试图创建一个 MorphAnalyzer() 对象时，它抛出一个错误：TypeError: super(type, obj): obj must be an instance or

python-3.x nlp tokenize

回答 0 投票 0

pip install nnsplit 不起作用，如何解决？

nnsplit 看起来很有前途，我想开始在我的电脑上使用它，但是当我运行 pip install nnsplit 时出现以下错误错误：找不到满足 nn...

python nlp tokenize

回答 1 投票 0

IntelliJ IDEA中的XSLT 2支持

我在IntelliJ中查看XSLT 2风格的XML文件时遇到了一个问题。我已经添加了Saxon HE的依赖性，我知道它可以工作，因为构建成功（没有这个依赖性是不行的）。

xml xslt-2.0 tokenize

回答 1 投票 0

字符串regex无法分割封闭括号内的单词

我正在使用一个字符串regex来拆分下面的字符串 String input = "( Customer.browse == \"Car Loan\" ) AND ( Campaign.period BETWEEN 2400 AND 600 ) AND ( Customer.eligibity == TRUE ) AND ( ....

java regex string split tokenize

回答 1 投票 0

试图编程

我正在尝试编写一个tokenizer程序，输入一个字符串，例如：" 34 56 7899 "，并编辑 "34"、"56 "和 "7899 "这几个单一的标记。此外，我不允许使用标准的 ...

java token tokenize stringtokenizer

回答 2 投票 -1

如何将keras tokenizer. texts_to_matrix（一热编码矩阵）的单词转换成文本。

我参考了这个帖子，其中讨论了如何使用 reverse_map 策略从 keras 中 tokenizer 的 text_to_sequences 函数获取文本。我想知道是否有一个函数可以获取文本......

python-3.x text keras tokenize one-hot-encoding

回答 1 投票 0

使用堆栈的Bencode解析器

我正试图使用基于堆栈的方法来解析一个编码字符串。这个链接描述了Bencoding：https:/www.bittorrent.orgbepsbep_0003.html 我的psuedocode不能处理有 ...

algorithm parsing recursion stack tokenize

回答 1 投票 0

从CSV中创建二维数组，并获得指定列的字数。

我有一个CSV文件，看起来像这样。地点代码,地点描述,类型代码,故障类型,产品编号,型号,起因,审核员,日期,方向盘,发动机,国家,当前班次号,VIN,评论,... ...

c# string multidimensional-array tokenize word-count

回答 1 投票 1

像Elasticsearch中的Shingle一样的字符串tokenizer过滤器。

我在一个购物网站上工作，要求从产品名称中生成有意义的字符串标记，以实现自动完成功能。例如：如果产品名称是。"Red Beryl Striped Cotton ..."。

string elasticsearch text nlp tokenize

回答 1 投票 0

像Elasticsearch中的Shingle一样的字符串tokenizer过滤器。

我在一个购物网站上工作，要求从产品名称中生成有意义的字符串标记，以实现自动完成功能。例如：如果产品名称是。"Red Beryl Striped Cotton ..."。

string elasticsearch text nlp tokenize

回答 1 投票 0

在数据框架中使用RegexpTokenizer拆分句子 [重复] 。

我试图将数据框输入到我的文字处理器中，先分割成句子，再分割成单词。一个示例文本。当打击被重复时，再加上幼稚的句子告诫，... ...

python pandas dataframe nltk tokenize

回答 1 投票 1

tokenize 相关问题

最新问题