在Python中获取文本和集合文本之间的相似性

问题描述 投票:0回答:1

我正在为Twitter构建一个事件检测器,它受到垃圾邮件的极大影响,所以我打算用文本相似度算法过滤一下推文。

我想到的方法是有一组推文,我将存储不同的推文。首先,我将从推文中清除链接和提及,并检查我正在处理的推文是否与该集的任何推文的相似度值大于阈值(例如0.7-0.8)。如果是这种情况,我将继续迭代并忽略该推文;否则我会将该推文添加到该集合并使用它。

我一直在阅读相关问题的不同答案,但它们只适用于文本的小型语料库,而这将适用于或多或少至少15.000条推文的数据集,因此算法将在每条推文和推文集之间进行比较。倍。

其他问题也有点旧,可能已经创建了新算法,或者可能出现了更好的旧算法。

总之,您认为解决此垃圾邮件问题的最佳方法是什么?它是Python原生的还是外部的?

python string text twitter similarity
1个回答
2
投票

要找到相似性,你可以使用tf-idf向量然后计算它们之间的余弦相似度,但是要比较大量的向量,这样你就可以对数据进行聚类并找到每个聚类的中心向量,所以你只需要将你的新推文与中心向量不是全部。

© www.soinside.com 2019 - 2024. All rights reserved.