大型语言模型困惑

问题描述 投票:0回答:1

我目前正在使用 GPT-3,我正在尝试将其功能与我的硕士论文的相关语言模型进行比较。 不幸的是,GPT-3 是一个基于 API 的应用程序,因此我无法真正提取诸如困惑度之类的指标。

通过 API,我可以访问这三个指标,当然还有模型输出:

  • training_loss:训练批次的损失

  • training_sequence_accuracy:训练批次中模型的预测标记与真实完成标记完全匹配的完成百分比。例如,batch_size 为 3 时,如果您的数据包含补全 [[1, 2], [0, 5], [4, 2]] 和模型预测 [[1, 1], [0, 5] , [4, 2]],这个精度将为 2/3 = 0.67

  • training_token_accuracy:训练批次中模型正确预测的标记的百分比。例如,batch_size 为 3 时,如果您的数据包含补全 [[1, 2], [0, 5], [4, 2]] 和模型预测 [[1, 1], [0, 5] , [4, 2]],这个准确度将为 5/6 = 0.83

是否有可能使用 python 计算我的模型的困惑度?

谢谢你。

python nlp nltk gpt-3 perplexity
1个回答
0
投票

模型的困惑度可以通过其交叉熵损失的指数来实现: pp = 2^(-损失)

© www.soinside.com 2019 - 2024. All rights reserved.