数据挖掘是分析大量数据以查找模式和共性的过程。
我正在编写一段代码来评估我的聚类算法,我发现每种评估方法都需要来自m * n矩阵的基本数据,如A = {aij},其中aij是数据的数量......
我对检测类似文件的技术有一个合理的理解,首先计算他们的minhash签名(来自他们的带状疱疹或n-gram),然后使用基于LSH的...
我有大的postgresql数据库,包含文件。每个文档表示为表中的一行。当新文档添加到数据库时,我需要检查重复项。但我不能只使用......
我有一个半结构化的数据集,每一行都属于一个用户:id,技能0,“java,python,sql”1,“java,python,spark,html”2,“业务管理,沟通”为什么半结构化是......
我在很多文章和书中都观察到模型选择是在模型调整之前完成的。模型选择通常使用某种形式的交叉验证,如k-fold,其中多个模型'...
更新:最后,我选择用于聚类我的大型数据集的解决方案是Anony-Mousse在下面提出的解决方案。也就是说,使用ELKI的DBSCAN实现我的聚类而不是......
对于与给定元组属于同一类的所有样本,通过属性均值处理python中的缺失值?
我有一个大型住房数据数据库,我需要通过同一个类填写缺失值。例如,在“卧室”列中,缺失的数据需要由平均值填充...
亚马逊推荐技术的屏幕背后有什么技术?我相信亚马逊的推荐目前是市场上最好的,但他们如何为我们提供这样的相关...
我已经获得了2个数据集,并希望使用KNIME对集合进行聚类分析。一旦我完成了聚类,我希望进行2种不同的性能比较......
我有一个具有这种结构的数据帧(按user_id排序,事件的时间):user_id事件的时间(以毫秒为单位)每个user_id的前一个事件和当前事件之间的时间差(在......中)
我最近开始学习R,而不是开始用Matlab编写代码,主要是因为它是开源的。我目前在数据挖掘和机器学习领域工作。我发现很多机器学习......
我正在使用apiori算法实现从事务集生成关联规则,我得到以下关联规则。但我得到一个关联规则1-> 8我可以假设8 - > ...
我希望绘制一个直方图来检查用于数据挖掘的IP地址的出现频率。我的片段: - 导入pandas为pd import matplotlib.pyplot为plt p1 = r'small_set.csv'd = pd ....
什么是更好的Orange.data.Table或Pandas在python中进行数据管理?
我正在进行数据挖掘,我不知道是否要使用Table或Pandas?用于选择最适合管理我的数据集的库的任何信息都将受到欢迎。感谢任何有帮助的答案......
我遇到过这些术语的多个定义,无法得到究竟是什么的实际含义。来自有经验的人,究竟是什么数据分析,数据科学,数据......
我可以将k-means算法用于单个属性吗?属性和集群数量之间是否存在任何关系?我有一个属性的性能,我想对数据进行分类......
我学会了训练和分层。但什么是分层引导?它是如何工作的?假设我们有一个n个实例(观察)的数据集,m是类的数量。怎么样 ...
我正在使用完整数据集的一些分类器进行逻辑回归。它工作正常,我得到了一个很好的混淆矩阵,但我无法让情节工作。我正在使用Python 3.6 ...
我正在寻找在Python中使用OPTICS算法的一个不错的实现。我将用它来形成基于密度的点((x,y)对)。我正在寻找接受(x,y)对的东西......
我想计算两个单词列表之间的相似度,例如:['email','user','this','email','address','customer']与此列表类似:['email' ,'邮件','地址','netmail']我......