我正在进行一个航班推荐项目,该项目将给出每个来源的机场代码以及一些数据。为此,我必须预测飞机可以到达的目的地。
我必须处理6+百万行。所以我在使用oneHotEncoding机场代码(在当前数据集中有3000多个)时遇到了一个问题。在将其拟合到模型之前。任何人都可以建议如何onehotencode或处理这种问题吗?
from sklearn.preprocessing import OneHotEncoder
onehotencoder1 = OneHotEncoder()
onehotencoder1.fit(X)
X = onehotencoder1.transform(X)
我将无法分配11.3 Gib。
我尝试了较少的数据,并且可以正常工作。
您是否尝试过pandas
?它具有类似的get_dummies
功能,可能会起作用。