我在使用SHAP值解释基于树的模型时遇到问题。(https://github.com/slundberg/shapsd)首先,我输入了大约30个要素,并且我有2个要素之间具有高度正相关。之后,我训练了XGBoost模型(python),并查看了SHAP值具有负相关的2个特征的SHAP值。
你们都可以向我解释一下,为什么两个要素之间的输出SHAP值没有与输入相关性相同的相关性?我可以相信SHAP的输出吗?
输入之间的相关性:0.91788SHAP值之间的相关性:-0.661088
2个功能是1)省内的人口2)全省家庭数。
模型性能火车AUC:0.73测试AUC:0.71
散点图Input scatter plot (x: Number of family in province, y: Pupulation in province)SHAP values output scatter plot (x: Number of family in province, y: Pupulation in province)
我在使用SHAP值解释基于树的模型时遇到问题。 (https://github.com/slundberg/shapsd)首先,我输入了大约30个特征,并且我有2个特征具有较高的正值...
您可以具有对模型输出有相反影响的相关变量。