tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

如果我想将 Cstring 中的下一个标记用作 int，如何获取它？ (c++)

我的目标是从用户那里获取指示，并最终通过文本文件来移动机器人。问题是我必须使用 C 风格的字符串（例如 char word[];）而不是 std::string 类，并且...

c++ tokenize c-strings

回答 4 投票 0

如何通过解析将内联元素追加到其父元素

我想制作markdown解析器，有些元素无法附加。在解析中，我看到了标记化=>解析=>渲染的步骤。我的问题是如何在 Abst 中将子项附加到父项...

javascript typescript parsing token tokenize

回答 1 投票 0

如何让 HuggingFace 标记器识别换行符？

我一直在使用 HuggingFace 分词器，似乎当我处理带有换行符的字符串时，它会忽略它并将其视为空格字符。我想创建自己的语言模式...

python tokenize huggingface

回答 1 投票 0

使用 Spacy 拆分单词内的多个标点符号

我如何修改 Spacy English tokenizer，以便它能够分割并分割特定的标点符号对：导入spacy nlp = spacy.load('en_core_web_md') doc = nlp("正在运行。(到...

python spacy tokenize

回答 1 投票 0

需要 Pythonic 重构建议

我正在为忽略前导码的文件编写一个标记器。这些文件是用 Markdown 编写的，H1 标题中有一个关键字列表，可以更改解析器的状态。当 EOF 为

python refactoring tokenize

回答 1 投票 0

如何防止 benepar 解析器在解析字符串时分割特定的子字符串？

我使用 benepar 解析器将句子解析成树。如何防止 benepar 解析器在解析字符串时分割特定的子字符串？例如，令牌将被 benepar int 分割...

python nlp tokenize parse-tree benepar

回答 1 投票 0

匹配标点符号或行尾

我想改进 NLTK 句子标记器。不幸的是，当文本在句号和下一个句子之间没有留下任何空格时，它的效果就不太好。从 nltk.tokenize 导入

python regex nltk tokenize

回答 1 投票 0

Elasticsearch 实现现成的语言分析器，但使用自定义标记器

这可能是重复的，但我做了一些搜索，但没有找到答案。我有一个简单的要求：我想使用法语（例如）分析器，我只是想稍微调整它......

elasticsearch tokenize elasticsearch-analyzers

回答 1 投票 0

如何在没有 IOB 标签的情况下使用 Hugging Face 的转换器管道重建文本实体？

我一直在寻找使用 Hugging Face 的管道进行 NER（命名实体识别）。但是，它以内部-外部-开始 (IOB) 格式返回实体标签，但没有 IOB 标签....

nlp tokenize transformer-model named-entity-recognition huggingface-transformers

回答 4 投票 0

XSLT：如何同时拆分多个字段的字符串

我看过很多关于使用 tokenize() 分割字符串的帖子，但它们都涉及单个字段。我的情况略有不同，我不知道如何处理它。我的 XML 可以重新设置...

xml xslt xslt-1.0 xslt-2.0 tokenize

回答 1 投票 0

按频率重新排序 GPT2Tokenizer 令牌会导致无法识别的令牌

我正在尝试通过根据频率对现有标记生成器中的标记 ID 重新排序来创建新的标记生成器。理论上，token id 的顺序对性能或可用性没有影响，但它...

huggingface-transformers tokenize huggingface-tokenizers gpt-2

回答 1 投票 0

elasticsearch 如何在 token 中分割文档

假设我有网页，并且将它们作为文档存储在弹性搜索中。现在我想了解弹性搜索是否会将每个单词标题和内容标记化？或者我们应该在

elasticsearch tokenize

回答 1 投票 0

如何配置 OpenSearch 以允许查找带引号的精确匹配项

我正在尝试解决如何配置 OpenSearch 索引及其映射以允许使用引号进行搜索以找到搜索词的精确匹配。目前，所有字段都是文本类型，没有

tokenize matching opensearch

回答 1 投票 0

什么东西负责显式的线路连接？

Python 分词器似乎不负责显式行连接。我的意思是，如果我们在 script.py 文件中编写以下代码： “一 \ 二” 然后输入 python -m tokenize ...

python language-lawyer tokenize

回答 1 投票 0

如何使用节对 pandas 数据框中的文本列进行词形还原？

我将 csv 文件读入 pandas 数据框。我的文本列是 df['story']。我如何使该列词形还原？我应该之前标记化吗？

pandas nlp tokenize lemmatization stanza

回答 1 投票 0

如何使用节对 pandas 数据框中的字符串列进行词形还原？

我将 csv 文件读入 pandas 数据框。我的文本列是 df['story']。我如何使该列词形还原？我应该之前标记化吗？

pandas tokenize lemmatization stanza

回答 1 投票 0

运行时错误：CUDA 错误：设备端断言已触发

我一直在尝试重现这个repo的结果- https://github.com/sefcom/VarBERT/tree/main 我能够为传销目标训练 BERT 模型。但在受限蒙面语言中...

machine-learning pytorch tokenize bert-language-model

回答 1 投票 0

Apache Camel 使用新行标记进行拆分并使用聚合策略

我有以下路线： from("文件:/home/tmp/test?move=.done") .routeId("文件") .split(body().tokenize(" "),new GroupedBodyAggregationStrategy()) .亲...

file split apache-camel aggregation tokenize

回答 1 投票 0

如何调整 spaCy 分词器，以便在德国模型中分割行尾的数字和点

我在 spacy 有一个用例，我想在德语句子中查找电话号码。不幸的是，分词器没有按预期进行分词。当数字位于句子末尾时...

python spacy tokenize

回答 1 投票 0

如何从 Hugging Face 标记器中知道哪些标记是 unk 标记？

我想向预训练的 Tokenizer 的 tokenizer 添加一些新的 token，以便对我的下游任务进行微调。但我不想通过查看每个样本来检查哪个标记不在

huggingface-transformers tokenize

回答 1 投票 0

tokenize 相关问题

最新问题