tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

导入tiktoken tokenizer = tiktoken.get_encoding("cl100k_base") tokenizer = tiktoken.encoding_for_model("gpt-3.5-turbo") text = "你好，很高兴认识你" 分词器。

python tokenize gpt-3

回答 1 投票 0

将 JSON/dict 转换为带有指示符标记的扁平字符串

给出如下输入： {'example_id': 0, '查询'：'revent 80 cfm'， 'query_id'：0， 'product_id': 'B000MOO21W', 'product_locale'：'我们'， 'esci_label': '我', '小版本'：0， 'large_version'：1 ...

python json tokenize huggingface-tokenizers json-flattener

回答 0 投票 0

在文本标记化函数或模型中添加特殊标记

我正在尝试使用 Tensorflow Javascript 制作聊天机器人模型，我想对文本进行标记化，以便我可以分离上下文、过去的消息和当前提示以输出回复。所以我...

javascript tensorflow chatbot tokenize encoder

回答 1 投票 0

为什么会出现 TypeError: expected string or bytes-like object is occurring?

token_ids = [] 对于推文中的推文： # 删除不需要的字符和符号 tweet = re.sub(r'[^\w\s]', '', tweet) # 标记推文 tokens = bert_tokenizer.tokenize([tweet]) ...

python string byte tokenize tweets

回答 0 投票 0

bert_vocab.bert_vocab_from_dataset 返回错误的词汇

我正在尝试按照 tf 的教程 https://www.tensorflow.org/text/guide/subwords_tokenizer 构建一个分词器。我基本上只是用不同的数据集做同样的事情。

python tensorflow deep-learning tokenize bert-language-model

回答 0 投票 0

TorchText Vocab TypeError: Vocab.__init__() got an unexpected keyword argument 'min_freq'

我正在研究 CNN 情感分析机器学习模型，该模型使用 Torchtext 库提供的 IMDb 数据集。在我的一行代码中 vocab = Vocab(counter, min_freq = 1, specia...

python conv-neural-network tokenize imdb torchtext

回答 3 投票 0

是否有 cl100k_base tokenizer 的 JavaScript 实现？

OpenAI 的新嵌入 API 使用 cl100k_base 分词器。我从 Node.js 客户端调用它，但我没有看到任何简单的方法来切片我的字符串，所以它们不会超过 8192 的 OpenAI 限制......

node.js machine-learning nlp tokenize openai-api

回答 1 投票 0

变形金刚：要求填充但分词器没有填充令牌

尝试使用相同的数据集依次评估一堆变形金刚模型，以检查哪个模型表现更好。模型列表是这个：模型 = [ ('xlm-mlm-enfr-1024' ,...

python tensorflow pytorch tokenize huggingface-transformers

回答 3 投票 0

无法使用 Keras 初始化两个不同的分词器

对于拼写纠正任务，我构建了一个包含 LSTM 和注意力机制的 seq2seq 模型。我使用 Keras 进行字符级标记化。我初始化了两个不同的分词器，一个用于拼写错误的句子......

python keras deep-learning tokenize seq2seq

回答 0 投票 0

获取字符串中包含的所有标记

我需要你的帮助，我收到了一个 URL，它将包含我需要为其他事情计算的令牌。所以基本上我需要提取列表或另一个字符串中的所有标记。 IE 串你...

java algorithm substring token tokenize

回答 0 投票 0

如何在 SAP HANA 全文搜索索引中自定义标记化

借助 SAP HANA，您可以进行文本分析、全文搜索甚至情感分析。在 SAP HANA 中自定义标记化有哪些选项？我知道我可以创建一个自定义词典...

customization tokenize hana

回答 1 投票 0

对于 antlr4 解析器来说，这是一个严重的词法上下文问题吗？

WOOL 语言允许以下结构： [[ 文字 |节点名称]] [[ 节点名称 ]] [[ 文字 |节点名称 |文本 ]] 文本应按键入的方式标记化的位置，包括空格和其他内容（

antlr4 tokenize

回答 0 投票 0

Libretranslate（+ Huggingface Transformers）-无法翻译文本：为 Tokenizer 加载 state_dict 时出错：state_dict 中缺少键：

Python 3.10.6，Libretranslate 1.3.10，在 Ubuntu 22.04 上使用 pip install libretranslate 安装 libretranslate，使用 libretranslate --host 0.0.0.0 --port 5001 运行它。一切都按预期工作....

tokenize huggingface

回答 0 投票 0

微调 GPT2 - 注意掩码和 pad 令牌 id 错误

我一直在尝试在 wikitext-2 数据集上微调 GPT2（只是为了帮助自己学习这个过程），但我遇到了一条我以前从未见过的警告消息： “注意力面具......

machine-learning tokenize training-data gpt-2 fine-tune

回答 1 投票 0

在 ANSI C 中使用指针标记字符串

这是在 Ansi C 中。我得到了一个字符串。我应该创建一个方法，该方法返回指向所述字符串的每个单词开头的字符指针数组。我不允许使用

c string tokenize ansi-c

回答 2 投票 0

ChatGPT：如何在提示中使用未知内容的长文本？

我非常喜欢网站 chatpdf.com。您可以上传 PDF 文件，然后将文件的文本内容与文件“本身”进行讨论。它使用 ChatGPT。我想编程一些东西