我正在努力解决我需要解决的问题。
假设我们有一个汽车数据集 (1),其中包含许多具有不同特征(id、年龄、里程、颜色、型号……)的不同汽车。另一方面,我们有另一个数据集 (2),其目标汽车具有相同的特征。唯一不同的是,dataset1 有一个名为 comp_id 的附加列。此列将数据集 2 中的汽车与数据集 1 中的可比汽车联系起来。所以基本上 dataset1 中有 5 辆汽车与 dataset2 中的 1 辆汽车相似。
我很困惑如何解决这个问题:首先,我什至不知道我应该采用有监督还是无监督的方法。另外,我如何确定哪些特征与被选为可比汽车相关?
在不涉及太复杂的东西的情况下,我的第一个想法是:
我也很想听听你们的想法,听听你们的想法。
提前非常感谢!
对我来说,这听起来更像是一个无监督的问题,而不是一个有监督的问题。除此之外,只有 1200 个数据点,我宁愿不进入 k-fold 以获得良好的准确性指标。
如果您最终选择使用距离度量对其进行建模,请注意相应地对分类变量(颜色、模型...)进行建模。