OneHotEncoding 2500个不同类别变量

问题描述投票：-2回答：1

我正在进行一个航班推荐项目，该项目将给出每个来源的机场代码以及一些数据。为此，我必须预测飞机可以到达的目的地。

我必须处理6+百万行。所以我在使用oneHotEncoding机场代码（在当前数据集中有3000多个）时遇到了一个问题。在将其拟合到模型之前。任何人都可以建议如何onehotencode或处理这种问题吗？

from sklearn.preprocessing import OneHotEncoder
onehotencoder1 = OneHotEncoder()
onehotencoder1.fit(X)
X = onehotencoder1.transform(X)

我将无法分配11.3 Gib。

我尝试了较少的数据，并且可以正常工作。

machine-learning bigdata classification one-hot-encoding multilabel-classification

1个回答

0
投票

您是否尝试过pandas？它具有类似的get_dummies功能，可能会起作用。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.