机器学习模型的数据预处理

Question

我对如何预处理基于范围的类别（例如年龄，肿瘤大小和inv节点）感到困惑。我应该采用极限的平均值，如-14.5、24.5等，还是对共域范围进行一次热编码。采用一种热编码将增加编号。功能明显。因为，每个属性都具有以下共同域：

Answer 1

我会选择每个范围的中点，这样您的定量变量很少，定性变量也不多。对于ML和alfo进行任何变量值的makig预测要好得多。