我已经使用nltk清理了我的数据,并且我的数据非常干净,我仍然无法获得更高的相似度分数,我正在制作一个食谱推荐系统,该系统获取成分并返回我们可以烹饪的食谱
https://colab.research.google.com/drive/1YnM0tUyWhhTQIXZipWdzIFfZGJHViFpi?usp=sharing
帮忙
我试图获得更高的相似度分数,但我仍然停留在 0.62,数据集有超过 6000 行
如果您的目标是获得更高的相似度分数,那么您需要了解,这意味着什么,例如:
相似性可以是逻辑的、词汇的和语义的。 如果您想关注语义相似性(推荐系统就是这种情况),您可能还想尝试更好的文本表示,例如嵌入(例如 word2vec、BERT 等)。