tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

将 BERT 代币索引映射到 Spacy 代币索引

我正在尝试将 Bert 的（bert-base-uncased）标记化标记索引（不是 ids，标记索引）映射到 Spacy 的标记化标记索引。在下面的例子中，我的方法不起作用，因为......

python mapping spacy tokenize bert-language-model

回答 1 投票 0

OpenAI GPT-3 API：如何计算不同语言的令牌？

我们都知道GPT-3模型可以接受并生成英语、法语、中文、日语等各种语言。在传统的NLP中，不同的语言有不同的token制作

nlp tokenize openai-api gpt-3

回答 2 投票 0

Transformer 在现有的基础上训练新的分词器

在下面的代码中从 Transformer 导入 AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese") tokenizer_new = tokenizer.train_new_from_iterator(training_corp...

python nlp tokenize transformer-model huggingface-tokenizers

回答 1 投票 0

如何循环遍历多行并标记化，返回包含所有标记的数组？

我之前发布了一个（格式糟糕且乏善可陈）问题，询问如何将数组作为输入参数传递并返回修改后的数组。经过一番折腾后我发现...

c tokenize

回答 1 投票 0

如何从包含 5000 条记录的列表中提取 DistilBERT 嵌入..？

对数据集进行标记后，我们尝试在数据集上提取 DistiBert 嵌入（数据框中包含 5000 条文本记录），以下代码发生内存错误：输出=模型（**

list extract tokenize embedding distilbert

回答 1 投票 0

如何使用 NLTK 分词器去除标点符号？

我刚刚开始使用NLTK，不太明白如何从文本中获取单词列表。如果我使用 nltk.word_tokenize()，我会得到单词和标点符号的列表。我只需要文字......

python nlp tokenize nltk

回答 13 投票 0

将 Hugging Face Transformer 文本嵌入转换回文本

有没有一种方法可以将 Hugging Face Transformer 嵌入转换回文本？假设我使用 Hugging Face 的 ClipTextModel 使用以下方法创建了文本嵌入：导入...

python pipeline tokenize huggingface-transformers

回答 1 投票 0

pySpark 将列表或 RDD 元素转换为值（int）

我正在使用 pySpark 来计算标记化 RDD 中的元素数量。这是要素之一： ('b00004tkvy', ['诺亚', '方舟', '活动', '中心', '宝石', '案例', '年龄', '3', '8', '胜利', '多媒体'. ..

python apache-spark tokenize rdd pyspark

回答 1 投票 0

为什么我的 Streamlit 应用程序无法正确总结我的 mp3 转录？

我正在开发一个处理 MP3 文件的 Streamlit 应用程序。主要步骤包括：上传 MP3 文件。使用 pydub 将音频分割成更小的块。使用 OpenAI 转录这些块。

tokenize streamlit gpt-2 openai-whisper whisper

回答 1 投票 0

使用 spaCy 将一个单词拆分为两个单词

我面临一个问题，由于收到的文本中缺少空格或新行，我需要将单个“单词”拆分为两个单词。我的目的是为此任务建立一个管道（spaCy 3.5.4）...

python nlp spacy tokenize

回答 1 投票 0

如何使用 spaCy Matcher 为仅解释为单个标记的序列创建基于规则的匹配模式

我是 nlp 和 spaCy 的新手，但我正在我的项目中使用它。我正在尝试使用 spaCy 的 Matcher 类创建一个模式来从临床摘要中提取信息，特别是提到 IQ ...

regex nlp pattern-matching spacy tokenize

回答 1 投票 0

找不到型号“en_core_web_lg”。它似乎不是 Python 包或数据目录的有效路径。即使它们在同一目录中

我正在尝试不同的文本处理模型。我正在尝试使用 spacy，它的模型是 en_core_web_lg。导入spacy 导入 spacy. 语言从 spacy_langDetect 导入 LanguageDetector 来自 spacy.lang...

python nlp spacy tokenize text-processing

回答 1 投票 0

如何使用 python 将 tokenize 应用于数据框中的特定列？

我有一个包含三列的数据框。数据框中的一列需要应用标记化。我收到 TypeError : Expected string or bytes-like object, got 'float' 。进口熊猫...

python regex nltk tokenize

回答 1 投票 0

CS50 AI 项目 6b 问题：代码无法正确处理所有标记化

到目前为止，我已提交该项目 4 次，但总是被拒绝并显示相同的消息：您的代码无法正确处理所有标记化，这可能会导致解析和解释

python artificial-intelligence cs50 tokenize

回答 0 投票 0

最好的数据加密和标记化公司？ [已关闭]

我们目前正在计划构建一个应用程序，安全可靠地存储消费者的付款方式。有哪些只处理数据加密和标记化的最佳公司...

encryption tokenize tde

回答 0 投票 0

如何在维护构成每个句子的字符串的信息的同时对字符串列表进行句子标记？

我有如下字符串列表（从 pdf 上的 OCR 找到），对于列表中的每个字符串，我也有它们在 pdf 中的位置坐标 [“新加坡的大部分基础设施......

python nlp spacy tokenize

回答 1 投票 0

bert-base-uncased tokenizer 在句子中丢失了单词

这是我的代码。我想得到句子中每个单词的嵌入。如果这个词被分成几个子词，我会嵌入第一个子词。所以嵌入的数量应该是...

pytorch tokenize

回答 1 投票 0

正则表达式以识别缺少前导 $

我正在尝试匹配某些缺少前导美元符号的 PHP 代码中的变量，以此作为修复代码的方法。示例输入： foo = “酒吧” $酒吧=富富（） $foo = 酒吧; 酒吧=富（...

php regex concatenation tokenize text-parsing

回答 2 投票 0

AttributeError：模块'keras.preprocessing.sequence'没有属性'pad_sequences'

我收到这个错误：AttributeError: module 'keras.preprocessing.sequence' has no attribute 'pad_sequences' 导入keras 从 keras 导入预处理从 keras.utils 导入 pad_sequences

keras nlp data-science tokenize data-preprocessing

回答 0 投票 0

使用'padding=True''truncation=True'截断和/或填充的问题

我想从头开始训练我的模型，我在 file.txt 中有我的文本，然后是 train.txt 和 validation.txt，我从 file.txt 分成 90% 和 10%，我有 merges.txt 和 vocab .json，这一切都在 Se...

python machine-learning padding tokenize

回答 0 投票 0

tokenize 相关问题

最新问题