我正在使用法学硕士将产品分类为特定类别。多类别。
一种方法是询问特定类别是否是/否,然后循环遍历类别。
另一种方法是询问该特定产品属于这些类别之一的概率。
第二个选项允许我调整“后”中的预测阈值并对某些类别进行过度/不足分类。
然而,坊间流传的说法是,经过 RLHF 训练的 OpenAI 模型(如
gpt-3.5-turbo
和 gpt-4
)相对于文本补全模型(如 text-davinci-003
)而言,在猜测概率方面较弱,因为 RLHF 训练使模型“思考”更像是人类(不擅长猜测概率)。
有什么我可以阅读/应该了解的文献吗?在我继续进行 100 次测试之前。
鉴于测试是时间/成本密集型的,我还没有尝试过任何东西。并希望在开始之前对如何解决问题有一个基本了解。
我也面临这个问题。我的意见是将提示转化为是/否问题,并使用是/否标记的概率作为输出概率。现在你有问题的答案了吗?谢谢!