我已经找到了数十篇有关使用Imdb数据制作推荐引擎的人的Towards Data Science / medium /等文章(基于用户对电影的评分,我们应该向那些用户推荐什么电影)。这些文章从基于用户的内容过滤和基于项目的内容过滤的“基于内存的方法”开始。我一直受命制作一个推荐引擎,并且由于没有一套关心或对此一无所知,所以我想做最少的工作(这似乎是基于用户的内容过滤)。问题是,我所有的数据都是二进制的(没有评级,仅基于其他用户购买的商品,我们应该向相似的用户推荐这些商品吗?这实际上类似于所有中型文章相互窃取的卡通片,但所有中型文章都没有提供如何执行此操作的示例)。
所有文章都使用Pearson Correlation或余弦相似度来确定用户相似度,我是否可以将这些方法用于二进制尺寸(是否购买),如果可以,如何,如果没有,则可以使用其他方法来测量用户相似度?
我正在使用python btw。而且我正在考虑也许使用汉明距离(是否有不好的原因)我已经找到了数十篇有关使用Imdb数据制作推荐引擎的人的Towards Data Science / medium /等文章(基于用户对电影的评分,电影的评级...