信息检索是一个研究领域,涉及从非结构化或半结构化数据集合中检索文档,信息或元数据。
给出可以由一个,两个或什至三个词组成的预定义术语的列表。问题在于用一组免费词汇(即,很多单词)来统计一组文档中它们的出现次数。我有...
如何检索使用从IMDB imdbpy特定影片ID“用户列表”
我使用IMDbPY检索“用户列表”的电影。是有可能访问“用户列表”使用IMDbPY电影吗?
是使用imdbpy可以检索IMDB用户评论?是否有另一种方式,请帮助我。
假设NDCG得分为我的检索系统是0.8。我该如何解读这个分数。我如何告诉读者,这个分数是显著?
我正在尝试构建一个智能搜索引擎应用程序,它可以获取问题和查询我的数据库中的单词的同义词,每个生成的同义词都是我正在搜索的问题...
尽管使用了StopAnalyzer和StopFilter,Apache Lucene也不会过滤停用词
我有一个基于Apache Lucene 5.5 / 6.0的模块,用于检索关键字。一切都很好,除了一件事 - Lucene没有过滤停止词。我尝试用...启用停用词过滤
首先,除了解析Google发送给您的电子邮件的文本之外,您如何将Google Alerts信息发送到数据库?似乎没有Google Alerts API。如果你 ...
我很好奇以下自动化是否可行:搜索谷歌搜索UCP / EAN代码(例如8710103703631)从第一个中搜索和解析数据(取决于可用的数据)...
平均精度在k处计算(对于答案中的前k个元素),根据wiki,在kaggle的ml度量,这个答案:关于(平均)平均精度的混淆应该计算为平均值...
我想知道,如何使用邻近搜索与飞快移动。我已经阅读了飞快移动的文档。它是通过使用类whoosh.query.Phrase(fieldname,words,...)写在文档中的。
我在IR工作。任何人都可以指导我,我怎样才能在嗖嗖声中实现语言模式。我已经申请了TD-IDF和BM25。我是IR新手。举个例子,最简单的语言模型......
我正在使用弹性搜索进行研究。我打算使用余弦相似度,但我注意到它不可用,而是我们将BM25作为默认评分函数。是否有理由......
我想抓取特定的东西。特别是正在发生的事件,如音乐会,电影,艺术画廊开放等等。任何可能花时间去的东西。我该如何实现......
我正在阅读分类器,尤其是多类分类器。我的问题是,当我使用精确度和召回来评估分类器时,我不明白假阳性的意义和......
如何在Lucene 5.3.x中使用BooleanQuery构建器?
我几乎是lucene的新手,并尝试和一些查询并显示它们。我已经google了整个网络,但找不到解决这个问题的正确方法。布尔查询搜索的解决方案......
评估python中搜索查询的结果:排名列表与一个手动标记的正确文档
给定以下预测的文档排名列表:query1_predicted = [1381,1637,646,1623,774,1764,92,12,642,463,613,...]并且这个手动标记的最佳选择:query1_manual = 646。 ..
如果我用例如训练深度排名模型,我该如何选择我的批次。我有每个查询1个正面文件和2个负样本的对比损失?所以,它是关于排名(损失)适用于例如....
我在Solr中使用“edismax”和“function-query”解析器,并且很难理解“function-query”所花费的查询时间是否有意义。我正在尝试优化的查询...
向量空间模型 - 计算查询向量[0,0.707,0.707]
我正在阅读“信息检索简介”(Christopher Manning)这本书,当我引入查询“嫉妒的八卦”时,我被困在第6章,它表示该向量...
我在哪里可以找到要导入和使用的类“org.terrier.realtime.memory.MemoryIndex”?
我正在关注快速入门指南:将搜索集成到Terrier Information Retrieval平台网站上的应用程序:Terrier IR平台主页,使用以下代码,...