我正在使用XGBoost来预测飞机在飞行过程中需要消耗的燃油量。 我遇到一个问题,我想寻求帮助。
按照通常的理论,对于特定的航空公司,每次飞行期间的距离几乎不变,并且燃油成本与飞行高度呈负相关。 但是,如果我将所有飞行记录放在一起,则数据集包含许多航空公司,因此飞行距离互不相同,燃油成本随高度成正比变化,因为通常飞行距离越长,飞机飞行的距离就越高,并且更长的飞行距离总是意味着更多的燃料成本。 因此,fuel_cost和flight_altitude的相关性为正。 当我使用XGBoost时,该模型还了解到fuel_cost和flight_altitude之间的正相关性,如果我使用该模型进行更多的分析(例如,不同的飞行高度会改变多少燃料成本),显然是错误的。 所以我想知道如何使模型学习特征与响应变量之间的正确相关性?
以上是我的问题,希望我已经清楚地说明了,我的英语要求不好,任何建议都将不胜感激!