Pytorch交叉熵输入尺寸

Question

我正在尝试使用Huggingface的BertModel和Pytorch开发一个二进制分类器。分类器模块如下所示：

class SSTClassifierModel(nn.Module):

  def __init__(self, num_classes = 2, hidden_size = 768):
    super(SSTClassifierModel, self).__init__()
    self.number_of_classes = num_classes
    self.dropout = nn.Dropout(0.01)
    self.hidden_size = hidden_size
    self.bert = BertModel.from_pretrained('bert-base-uncased')
    self.classifier = nn.Linear(hidden_size, num_classes)

  def forward(self, input_ids, att_masks,token_type_ids,  labels):
    _, embedding = self.bert(input_ids, token_type_ids, att_masks)
    output = self.classifier(self.dropout(embedding))
    return output

我训练模型的方式如下：

loss_function = BCELoss()
model.train()
for epoch in range(NO_OF_EPOCHS):
  for step, batch in enumerate(train_dataloader):
        input_ids = batch[0].to(device)
        input_mask = batch[1].to(device)
        token_type_ids = batch[2].to(device)
        labels = batch[3].to(device)
        # assuming batch size = 3, labels is something like:
        # tensor([[0],[1],[1]])
        model.zero_grad()        
        model_output = model(input_ids,  
                             input_mask, 
                             token_type_ids,
                             labels)
        # model output is something like: (with batch size = 3) 
        # tensor([[ 0.3566, -0.0333],
                 #[ 0.1154,  0.2842],
                 #[-0.0016,  0.3767]], grad_fn=<AddmmBackward>)

        loss = loss_function(model_output.view(-1,2) , labels.view(-1))

我正在执行.view()，因为Huggingface的BertForSequenceClassification here源代码使用完全相同的方法来计算损失。但是我得到这个错误：

/usr/local/lib/python3.6/dist-packages/torch/nn/functional.py in binary_cross_entropy(input, target, weight, size_average, reduce, reduction)
   2068     if input.numel() != target.numel():
   2069         raise ValueError("Target and input must have the same number of elements. target nelement ({}) "
-> 2070                          "!= input nelement ({})".format(target.numel(), input.numel()))
   2071 
   2072     if weight is not None:

ValueError: Target and input must have the same number of elements. target nelement (3) != input nelement (6)

我的标签有问题吗？还是我模型的输出？我真的被困在这里。 Pytorch的BCELoss的文档说：

输入：（N，∗），其中∗表示任意数量的附加尺寸目标：（N，∗），形状与输入相同

我应该如何使我的标签与模型输出具有相同的形状？我觉得我缺少一些巨大的东西，但找不到。

Answer 1

很少观察到：

您引用的代码使用CrossEntropyLoss，但您正在使用BCELoss。
[CrossEntropyLoss取预测对数（大小：（N，D））和目标标签（大小：（N，）），而BCELoss取p（y = 1 | x）（大小：（N，））和目标标签（大小：（N，））为p（y = 0 | x）可以通过p（y = 1 | x）
[CrossEntropyLoss期望对数，即，BCELoss期望概率值

解决方案：

由于传递了（N，2）张量，因此会产生错误。您只需要传递p（y = 1 | x），因此可以执行

loss = loss_function(model_output.view(-1,2)[:,1] , labels.view(-1))

以上，我假设第二个值是p（y = 1 | x）。

一种更简洁的方法是使模型仅输出一个值，即p（y = 1 | x）并将其传递给损失函数。从代码看来，您传递的是logit值，而不是概率值，因此，如果要使用sigmoid (model_output)，或者也可以使用BCELoss，则可能还需要计算BCEWithLogitsLoss。

[另一种选择是将损耗更改为CrossEntropyLoss，因为它也适用于二进制标签，因此也应该适用。

Pytorch交叉熵输入尺寸

问题描述投票：0回答：1

1个回答

最新问题

Pytorch交叉熵输入尺寸

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1