为什么添加非相关文档能提高系统性能?以及如何评估新的结果?

问题描述 投票:-1回答:1

假设一个IR系统针对来自10000个文档集合的查询,返回一个20个文档的排序列表。如果将5000个非相关文档添加到集合中,我们发现,对查询返回的是同样的排序列表。这意味着新的设置,即将集合大小改为15000,并没有改变20个结果的召回率和精度。然而,在新的设置下,系统似乎表现得更好,因为需要处理更多的非相关文档。

ranking evaluation information-retrieval
1个回答
0
投票

我不知道为什么有人给了反对票,lol,但我会根据我的思路试着回答这个问题。

<table border="1">
<tr>
  <td> </td>
  <td>relevant</td>
  <td>nonrelevant</td>
  <td> </td>
</tr>
<tr>
  <td>retrieved</td>
  <td>tp</td>
  <td>fp</td>
  <td>fix</td>
</tr>
<tr>
  <td>not retrieved</td>
  <td>fn</td>
  <td>tn</td>
</tr>
<tr>
  <td></td>
  <td></td>
  <td>increase tn</td>
</tr>

</table>
增加非相关文档相当于增加tn,因此新的衡量标准可以是fn(fn+tn)
© www.soinside.com 2019 - 2024. All rights reserved.