如何统一公平地评价不同预训练语言模型在同一任务上的性能指标？

问题描述投票：0回答：0

不同的预训练语言模型对不同任务的不同提示敏感。如果我用同样的提示来提示，也许模型A在某些任务上比模型B或者模型A的0.1版本表现得更好，但这可能是因为模型A因为它的训练数据或者对我使用的提示更敏感其他关系，所以认为A优于B和A的0.1版本似乎是不公平的。在这种情况下，我们应该如何统一、公正地评价其效果指标呢？

我们可能会使用模型学习来生成提示，而不是手动编写和选择，比如P-tuning，期望每个参与评估的预训练模型都能通过这种方式找到自己最强的提示，然后在同一个任务一决胜负，不过这个方法好像太想当然了，不够严谨