使用分类变量的均值

Question

我有一个大型数据集45421 * 12（行*列），其中包含所有分类变量。我的数据集中没有数值变量。我想使用此数据集构建无监督的聚类模型，但是在建模之前，我想知道此数据集的最佳特征选择模型。而且我无法将肘部曲线绘制到该数据集。我用k均值弯头法给出范围k = 1-1000，但它没有给出任何最佳的聚类图，需要8-10个小时来执行。如果有人建议对这个问题有更好的解决方案，那将是很大的帮助。

代码：

data = {'UserName':['infuk_tof', 'infus_llk', 'infaus_kkn', 'infin_mdx'], 
       'UserClass':['high','low','low','medium','high'], 
       'UserCountry':['unitedkingdom','unitedstates','australia','india'], 
       'UserRegion':['EMEA','EMEA','APAC','APAC'], 
       'UserOrganization':['INFBLRPR','INFBLRHC','INFBLRPR','INFBLRHC'], 
       'UserAccesstype':['Region','country','country','region']} 

df = pd.DataFrame(data)

Answer 1

为了能够运行Kmeans或任何其他模型，您需要首先将分类变量转换为数值。

使用OneHotEncoder的示例：

from sklearn.preprocessing import OneHotEncoder
import pandas as pd

data={'UserAccesstype': ['Region', 'country', 'country', 'region'],
 'UserCountry': ['unitedkingdom', 'unitedstates', 'australia', 'india'],
 'UserOrganization': ['INFBLRPR', 'INFBLRHC', 'INFBLRPR', 'INFBLRHC'],
 'UserRegion': ['EMEA', 'EMEA', 'APAC', 'APAC']}

df = pd.DataFrame(data)

  UserAccesstype    UserCountry UserOrganization UserRegion
0         Region  unitedkingdom         INFBLRPR       EMEA
1        country   unitedstates         INFBLRHC       EMEA
2        country      australia         INFBLRPR       APAC
3         region          india         INFBLRHC       APAC

enc = OneHotEncoder(handle_unknown='ignore')
enc.fit(df.values)

X_for_Kmeans = enc.transform(df.values).toarray()

X_for_Kmeans
array([[1., 0., 0., 0., 0., 1., 0., 0., 1., 0., 1.],
       [0., 1., 0., 0., 0., 0., 1., 1., 0., 0., 1.],
       [0., 1., 0., 1., 0., 0., 0., 0., 1., 1., 0.],
       [0., 0., 1., 0., 1., 0., 0., 1., 0., 1., 0.]])

将X_for_Kmeans用于Kmeans拟合。干杯

Answer 2

对于这样的分类数据，K均值不是适当的聚类算法。您可能需要寻找一种K模式方法，但很遗憾，该方法当前未包含在scikit-learn软件包中。您可能需要查看此软件包，以获取github上可用的kmode：https://github.com/nicodv/kmodes，它遵循了您从scikit-learn惯用的许多语法。

有关更多信息，请参见此处的讨论：https://datascience.stackexchange.com/questions/22/k-means-clustering-for-mixed-numeric-and-categorical-data

使用分类变量的均值

问题描述投票：1回答：2

2个回答

最新问题

使用分类变量的均值

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2