我正在努力解决数据科学问题。我什至不知道如何简洁地描述它,所以我想解释一下我在寻找什么,也许这里的许多聪明人可以为我指出正确的方向。
我有很多数据点组织在矩阵中(行中的产品,列中的变体)
例如:
产品 | 型号 0 的价格 | 型号 1 的价格 | 型号 2 的价格 |
---|---|---|---|
A | 230 | 250 | 260 |
B | 170 | 190 | 200 |
C | 300 | 310 | 320 |
大约有 40 个变体和大约 2000 种产品。
我现在想要将模型拟合到该数据中,如下所示:
variant_price(产品,变体)= 基本价格(产品)+ 标记(变体)
我正在寻找的结果:
限制:
我觉得这可以通过某种线性回归/最小二乘法实现,但我很难弄清楚如何构建/开始这个。
首先应用简单的 ML 模型(线性回归、决策树、SVM),然后评估模型性能(scikit-learn 是一个很好的起点)。一旦找到性能良好的模型,请微调该模型的超参数(例如使用网格搜索)。