我已经训练了一个 XGBoost 模型,并使用plot_importance() 来绘制训练模型中最重要的特征。尽管如此,图中的数字有几个小数值,这些值淹没了绘图并且不适合绘图。
我已经搜索了绘图格式化选项,但我只找到了如何格式化轴(尝试格式化X轴,希望它也能格式化相应的轴)
我在 Jupyter Notebook 中工作(如果这有什么区别的话)。代码如下:
xg_reg = xgb.XGBClassifier(
objective = 'binary:logistic',
colsample_bytree = 0.4,
learning_rate = 0.01,
max_depth = 15,
alpha = 0.1,
n_estimators = 5,
subsample = 0.5,
scale_pos_weight = 4
)
xg_reg.fit(X_train, y_train)
preds = xg_reg.predict(X_test)
ax = xgb.plot_importance(xg_reg, max_num_features=3, importance_type='gain', show_values=True)
fig = ax.figure
fig.set_size_inches(10, 3)
我有什么遗漏的吗?有没有格式化函数或者参数要传递?
我希望能够格式化特征重要性分数,或者至少删除小数部分(例如“25”而不是“25.66521”)。 下面附上当前的图。
无需编辑 xgboost 绘图函数即可获得您想要的结果。绘图函数可以将重要性字典作为其第一个参数,您可以直接从 xgboost 模型创建该字典,然后进行编辑。如果您想为功能名称制作更友好的标签,这也很方便。
# Get the booster from the xgbmodel
booster = xg_reg.get_booster()
# Get the importance dictionary (by gain) from the booster
importance = booster.get_score(importance_type="gain")
# make your changes
for key in importance.keys():
importance[key] = round(importance[key],2)
# provide the importance dictionary to the plotting function
ax = plot_importance(importance, max_num_features=3, importance_type='gain', show_values=True)
我在这里遇到了同样的问题,我刚刚解决了。
发生这种情况只是因为对于“增益”或“覆盖”,数字包含太多与“重量”选项相反的浮点数。不幸的是,据我所知,没有选项可以指定位数。因此我自己修改了函数来指定允许的最大位数。以下是在 xgboost 包的 plotting.py 文件中执行的修改。如果您正在使用蜘蛛控制台,您只需指定错误的选项即可找到并打开文件(我是个懒人),例如:
xgb.plot_importance(xg_reg, potato=False)
然后单击控制台中错误中的文件。下一步是修改函数本身,如下所示:
def plot_importance(booster, ax=None, height=0.2,
xlim=None, ylim=None, title='Feature importance',
xlabel='F score', ylabel='Features',
importance_type='weight', max_num_features=None,
grid=True, show_values=True, max_digits=3, **kwargs):
然后您还应该在 show_values 条件之前添加:
if max_digits is not None:
t = values
lst = list(t)
if len(str(lst[0]).split('.')[-1])>max_digits:
values_displayed = tuple([('{:.'+str(max_digits)+'f}').format(x) for x in lst])
else:
values_displayed = values
if show_values is True:
for x, x2, y in zip(values, values_displayed, ylocs):
ax.text(x + 1, y, x2, va='center')
我执行了一个条件,仅格式化数字,后者比指定的位数长。它可以避免例如 important_type='weight' 选项产生不需要的数字。
请注意,对于“cover”和“gain”,文本对我来说位置也不好,因此我也修改了班次并将上面的 1 替换为:
if show_values is True:
for x, x2, y in zip(values, values_displayed, ylocs):
dx = np.max(values)/100
ax.text(x + dx, y, x2, va='center')
希望对您有帮助!
编辑xgboost包中plotting.py的代码:
86 ylocs = np.arange(len(values))
87 values=tuple([round(x,4) for x in values])
88 ax.barh(ylocs, values, align='center', height=height, **kwargs)
这个老问题的一个更简单的答案是基于关于values_format的plotting.py文档: