如何评估 5 个数据点与 1 个目标数据点的相似程度

问题描述 投票:0回答:1

我正在努力解决我需要解决的问题。

假设我们有一个汽车数据集 (1),其中包含许多具有不同特征(id、年龄、里程、颜色、型号……)的不同汽车。另一方面,我们有另一个数据集 (2),其目标汽车具有相同的特征。唯一不同的是,dataset1 有一个名为 comp_id 的附加列。此列将数据集 2 中的汽车与数据集 1 中的可比汽车联系起来。所以基本上 dataset1 中有 5 辆汽车与 dataset2 中的 1 辆汽车相似。

  • Dataset1 将有 1000 个数据点(可比较的汽车)
  • Dataset2 将有 200 个数据点(目标汽车)

我很困惑如何解决这个问题:首先,我什至不知道我应该采用有监督还是无监督的方法。另外,我如何确定哪些特征与被选为可比汽车相关?

在不涉及太复杂的东西的情况下,我的第一个想法是:

  1. 受监督
  • 逻辑回归:根据是否选择创建一个具有二元结果的“选择”变量,并将每个目标 (1) - 可比对象 (5) 对视为训练集。就好像我在做 200 次交叉验证,每次都有不同的目标 - 可比对。
  1. 无人监管
  • 为每辆可比较的汽车(与一个目标相比)创建相似度分数(例如余弦相似度或欧氏距离),排名并进入前 5 名。

我也很想听听你们的想法,听听你们的想法。

提前非常感谢!

machine-learning similarity recommendation-engine unsupervised-learning supervised-learning
1个回答
0
投票

对我来说,这听起来更像是一个无监督的问题,而不是一个有监督的问题。除此之外,只有 1200 个数据点,我宁愿不进入 k-fold 以获得良好的准确性指标。

如果您最终选择使用距离度量对其进行建模,请注意相应地对分类变量(颜色、模型...)进行建模。

© www.soinside.com 2019 - 2024. All rights reserved.