tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

对于 antlr4 解析器来说,这是一个严重的词法上下文问题吗?

WOOL 语言允许以下结构: [[ 文字 |节点名称]] [[ 节点名称 ]] [[ 文字 |节点名称 |文本 ]] 文本应按键入的方式标记化的位置,包括空格和其他内容(

回答 0 投票 0

Libretranslate(+ Huggingface Transformers)-无法翻译文本:为 Tokenizer 加载 state_dict 时出错:state_dict 中缺少键:

Python 3.10.6,Libretranslate 1.3.10,在 Ubuntu 22.04 上 使用 pip install libretranslate 安装 libretranslate,使用 libretranslate --host 0.0.0.0 --port 5001 运行它。一切都按预期工作....

回答 0 投票 0

微调 GPT2 - 注意掩码和 pad 令牌 id 错误

我一直在尝试在 wikitext-2 数据集上微调 GPT2(只是为了帮助自己学习这个过程),但我遇到了一条我以前从未见过的警告消息: “注意力面具......

回答 1 投票 0

在 ANSI C 中使用指针标记字符串

这是在 Ansi C 中。我得到了一个字符串。我应该创建一个方法,该方法返回指向所述字符串的每个单词开头的字符指针数组。我不允许使用

回答 2 投票 0

ChatGPT:如何在提示中使用未知内容的长文本?

我非常喜欢网站 chatpdf.com。您可以上传 PDF 文件,然后将文件的文本内容与文件“本身”进行讨论。它使用 ChatGPT。 我想编程一些东西

回答 0 投票 0

在 Racket 中构建解析器

我是 Racket 的新手,我正在尝试使用 Beautiful Racket 库解析语法。我在一个单独的文件中定义了语法,它似乎完全没问题。我的代币化也是 w...

回答 0 投票 0

大多数字节已被使用时的字节对编码

字节对编码显然有时用于在运行机器学习算法之前压缩/标记文本。 根据 https://en.wikipedia.org/wiki/Byte_pair_encoding 的基本...

回答 1 投票 0

使用 strcat() 时出现段错误

调用 strcat() 时出现分段错误;但是,我已经 malloc 了目标字符串并初始化了前一个字符串。这是在 C 中制作 shell 的任务,我是 ...

回答 1 投票 0

如何修复 pymorphy 库中的“TypeError: super(type, obj): obj must be an instance or subtype of type”?

我需要标记文本。我决定使用 pymorphy2 库,但是在尝试创建 MorphAnalyzer() 对象时,它会抛出错误 TypeError: super(type, obj): obj 必须是实例或

回答 0 投票 0

TypeError是什么原因?

我需要标记文本。我决定使用 pymorphy2 库,但是当试图创建一个 MorphAnalyzer() 对象时,它抛出一个错误:TypeError: super(type, obj): obj must be an instance or

回答 0 投票 0

pip install nnsplit 不起作用,如何解决?

nnsplit 看起来很有前途,我想开始在我的电脑上使用它,但是当我运行 pip install nnsplit 时出现以下错误 错误:找不到满足 nn...

回答 1 投票 0

IntelliJ IDEA中的XSLT 2支持

我在IntelliJ中查看XSLT 2风格的XML文件时遇到了一个问题。我已经添加了Saxon HE的依赖性,我知道它可以工作,因为构建成功(没有这个依赖性是不行的)。

回答 1 投票 0

字符串regex无法分割封闭括号内的单词

我正在使用一个字符串regex来拆分下面的字符串 String input = "( Customer.browse == \"Car Loan\" ) AND ( Campaign.period BETWEEN 2400 AND 600 ) AND ( Customer.eligibity == TRUE ) AND ( ....

回答 1 投票 0

试图编程

我正在尝试编写一个tokenizer程序,输入一个字符串,例如:" 34 56 7899 ",并编辑 "34"、"56 "和 "7899 "这几个单一的标记。此外,我不允许使用标准的 ...

回答 2 投票 -1

如何将keras tokenizer. texts_to_matrix(一热编码矩阵)的单词转换成文本。

我参考了这个帖子,其中讨论了如何使用 reverse_map 策略从 keras 中 tokenizer 的 text_to_sequences 函数获取文本。我想知道是否有一个函数可以获取文本......

回答 1 投票 0

使用堆栈的Bencode解析器

我正试图使用基于堆栈的方法来解析一个编码字符串。这个链接描述了Bencoding:https:/www.bittorrent.orgbepsbep_0003.html 我的psuedocode不能处理有 ...

回答 1 投票 0

从CSV中创建二维数组,并获得指定列的字数。

我有一个CSV文件,看起来像这样。地点代码,地点描述,类型代码,故障类型,产品编号,型号,起因,审核员,日期,方向盘,发动机,国家,当前班次号,VIN,评论,... ...

回答 1 投票 1

像Elasticsearch中的Shingle一样的字符串tokenizer过滤器。

我在一个购物网站上工作,要求从产品名称中生成有意义的字符串标记,以实现自动完成功能。例如:如果产品名称是。"Red Beryl Striped Cotton ..."。

回答 1 投票 0

像Elasticsearch中的Shingle一样的字符串tokenizer过滤器。

我在一个购物网站上工作,要求从产品名称中生成有意义的字符串标记,以实现自动完成功能。例如:如果产品名称是。"Red Beryl Striped Cotton ..."。

回答 1 投票 0

在数据框架中使用RegexpTokenizer拆分句子 [重复] 。

我试图将数据框输入到我的文字处理器中,先分割成句子,再分割成单词。一个示例文本。当打击被重复时,再加上幼稚的句子告诫,... ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.