由于数据量太大,我一直在使用sklearn TfidfVectorizer查找余弦相似度,我一直在遇到内存错误
tf = TfidfVectorizer(analyzer='word', ngram_range=(1, 3),max_df=1.0, min_df=0, stop_words='english')
tfidf_matrix = tf.fit_transform(ds['description'])
> cosine_similarities = linear_kernel(tfidf_matrix, tfidf_matrix) <-- Memory Error
请帮助我解决该错误。非常感谢
如果出现意外的MemoryError
,并且您认为应该有足够的可用RAM,可能是因为您使用的是32位python安装。