机器学习模型的数据预处理

问题描述 投票:-1回答:1

enter image description here

我对如何预处理基于范围的类别(例如年龄,肿瘤大小和inv节点)感到困惑。我应该采用极限的平均值,如-14.5、24.5等,还是对共域范围进行一次热编码。采用一种热编码将增加编号。功能明显。因为,每个属性都具有以下共同域:

  1. 年龄:10-19、20-29、30-39、40-49、50-59、60-69、70-79、80-89、90-99。
  2. 肿瘤大小:0-4、5-9、10-14、15-19、20-24、25-29、30-34、35-39、40-44、45-49、50-54, 55-59。
  3. 邀请节点:0-2、3-5、6-8、9-11、12-14、15-17、18-20、21-23、24-26、27-29、30-32, 33-35,36-39。
python dataframe machine-learning svm data-processing
1个回答
0
投票

我会选择每个范围的中点,这样您的定量变量很少,定性变量也不多。对于ML和alfo进行任何变量值的makig预测要好得多。

© www.soinside.com 2019 - 2024. All rights reserved.