BertTokenizer-当编码和解码序列出现额外的空格时

Question

当使用HuggingFace的Transformers时，我面临编码和解码方法的问题。

我有以下字符串：

test_string = 'text with percentage%'

然后我正在运行以下代码：

import torch
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-cased')

test_string = 'text with percentage%'

# encode Converts a string in a sequence of ids (integer), using the tokenizer and vocabulary.
input_ids = tokenizer.encode(test_string)
output = tokenizer.decode(input_ids)

输出看起来像这样：

'text with percentage %'

％之前有多余的空格。我已经尝试过像clean_up_tokenization_spaces这样的额外参数，但这是不同的东西。

我应该如何使用解码和编码来获得前后完全相同的文本。其他特殊标志也会发生这种情况。

Answer 1

根据https://github.com/huggingface/transformers/pull/1274，他们正在研究它。希望下周某个时候有解决方案。

BertTokenizer-当编码和解码序列出现额外的空格时

问题描述投票：5回答：1

1个回答

最新问题

BertTokenizer-当编码和解码序列出现额外的空格时

问题描述 投票：5回答：1

1个回答

最新问题

问题描述投票：5回答：1