OneHotEncoding 2500个不同类别变量

问题描述 投票:-2回答:1

我正在进行一个航班推荐项目,该项目将给出每个来源的机场代码以及一些数据。为此,我必须预测飞机可以到达的目的地。

我必须处理6+百万行。所以我在使用oneHotEncoding机场代码(在当前数据集中有3000多个)时遇到了一个问题。在将其拟合到模型之前。任何人都可以建议如何onehotencode或处理这种问题吗?

from sklearn.preprocessing import OneHotEncoder
onehotencoder1 = OneHotEncoder()
onehotencoder1.fit(X)
X = onehotencoder1.transform(X)

我将无法分配11.3 Gib。

我尝试了较少的数据,并且可以正常工作。

machine-learning bigdata classification one-hot-encoding multilabel-classification
1个回答
0
投票

您是否尝试过pandas?它具有类似的get_dummies功能,可能会起作用。

© www.soinside.com 2019 - 2024. All rights reserved.