假设一个IR系统针对来自10000个文档集合的查询,返回一个20个文档的排序列表。如果将5000个非相关文档添加到集合中,我们发现,对查询返回的是同样的排序列表。这意味着新的设置,即将集合大小改为15000,并没有改变20个结果的召回率和精度。然而,在新的设置下,系统似乎表现得更好,因为需要处理更多的非相关文档。
我不知道为什么有人给了反对票,lol,但我会根据我的思路试着回答这个问题。
<table border="1">
<tr>
<td> </td>
<td>relevant</td>
<td>nonrelevant</td>
<td> </td>
</tr>
<tr>
<td>retrieved</td>
<td>tp</td>
<td>fp</td>
<td>fix</td>
</tr>
<tr>
<td>not retrieved</td>
<td>fn</td>
<td>tn</td>
</tr>
<tr>
<td></td>
<td></td>
<td>increase tn</td>
</tr>
</table>