scikit-learn,线性回归中的分类(但数值)特征

问题描述 投票:0回答:1

我正在scikit-learn中使用线性回归,并且我的数据集包含一些分类但数值的特征。我的意思是说,有一些功能,例如房屋所在的地区的价值,由1到7之间的整数表示:这个数字越高,房屋的价值就越高。我是否应该在使用诸如OneHotEncoder之类的编码器进行线性回归之前,对使用数字表示类别(城市地区)的特征进行预处理?还是仅当类别用字符表示时才是强制性的?预先谢谢您。.

python machine-learning scikit-learn linear-regression
1个回答
0
投票

[如果我的理解正确,您就无需对它们进行热编码,因为它们是顺序的,即顺序中有含义。例如,如果数字是产品代码,并且没有7表示“大于”或“大于” 4的感觉,那么您可能希望对这些变量进行一次热编码,但是在这种情况下,您将丢失信息通过一键编码。

© www.soinside.com 2019 - 2024. All rights reserved.