我对如何预处理基于范围的类别(例如年龄,肿瘤大小和inv节点)感到困惑。我应该采用极限的平均值,如-14.5、24.5等,还是对共域范围进行一次热编码。采用一种热编码将增加编号。功能明显。因为,每个属性都具有以下共同域:
我会选择每个范围的中点,这样您的定量变量很少,定性变量也不多。对于ML和alfo进行任何变量值的makig预测要好得多。