数据挖掘是分析大量数据以查找模式和共性的过程。
我目前正试图将一个csv文件的信息隐蔽到Weka的ARFF文件中...... 问题是弹出3384行有问题......但我看不出有什么问题......。
我有两本字典,我想把两本字典合并,但由于某些原因没有成功。这是代码: dict1= {"Player":["Virat Kohli", "Jasprit Bumrah", "Saurabh Netravalkar"], "Role":[...
我有这个巨大的python列表,我得到了一个K手段聚类算法的输出。clusterlist = [] for i in range(true_k): clusterlist.append('\nCluster %d:' % i), for ind in ...。
我正在处理一个数据集,我想遍历每个值以根据存款找到工作和婚姻状况的计数:
我想在此pdf的第一页和第二页中抓取信息:https://www2.census.gov/programs-surveys/popest/tables/2010-2018/state/asrh/PEPSR6H.pdf我设法取得(混乱)...
我正在探索一个主要由二进制(0,1)和一些连续变量组成的数据集。我想制作多个表1,比较具有p值的binary / binary,binary / cont和cont / cont变量,...
我只是想知道是否有办法仅显示“支持”和“信心”列?我不需要显示前一列,后续列或提升列。这是我下面的代码:import numpy ...
我正在使用属性数据集,并且正在尝试处理Land Square Feet Column中的缺失值。数据集中几乎有160000条记录。其中70000条记录丢失...
我正在为Aggregatemative Hierarchical集群工作。我找到了输出图。但是我不明白从该图中可以接受多少聚类。如何计算群集数?我的...
我想确定> 2个时间序列数据共享的频繁区域。例如,考虑下图,其中包含三个时间序列。由两个以上时间序列共享的频繁区域是...
我想删除前任重复项。 test_data = [['H','A','L','L','G','A','T','O'],['A','V','O', 'K','A','D','O'],['O','K','T','A','T','A','S'],['P ','O','H','...
推荐使用python库/模型/数据挖掘工具以数字顺序查找模式
我在pandas数据框中有一个长的,干净的(按出现顺序没有重复的)整数序列,我正在寻找一种在其中查找模式的方法。我正在寻找的模式可能是...
Kimball方法学中的数据集市位于数据仓库中还是完全独立的数据库?
根据Kimball方法,数据集市是否以相关星型模式组合的形式位于DW内,或者它们(数据集市)与主要数据是分开的(不同数据库,而不是DW内...)>
有没有一种方法可以将带有分隔符或类似于正则表达式的文本文件上传到Google表格,以填充单元格
我现在不是Google表格专家。我想知道是否有一种方法可以上传文本文件并按照某种正则表达式或规则集填充单元格,以控制哪些数据...
我对OPTICS算法感到困惑。如果一组点是密度连接的,则可以将它们视为一个群集。如果存在对象o,使得...
我有一个HTML文件,其中感兴趣的参数出现在方括号[]之间,但是此范围在后续方括号内不断重复相同的名称,例如:var ...
我想提取一个网站并将数据存储在excel文件网站中:-https://www.mygov.in/corona-data/covid19-statewise-status在该网站中存储的是州明智的covid-19数据,想要在那里...
Java:针对字符串的k均值的实现,并探讨了选择最佳k的方法
例如,我想使用Java(Netbeans)实现K-means算法来聚类字符串数据类型(Names):如果之后有{apple,app,jara,java,appia,jaoa ...}之类的数据, ...