我正在尝试制作一个推荐算法,其中我采用大小为 610x9724(610 个用户 x 9724 部电影)的数据集,将数据集的 80% 的非空值放入训练中,将剩余的 20% 的非空值放入测试集,同时用 null 替换训练中移除的 20% 值(与原始数据集相比),同样用 null 替换测试集中移除的值。
然后我会在测试集 (610x9724) 上使用 SVD 来预测测试集中删除的值。
我曾尝试使用 sklearn train_test_split,但拆分后,训练集变为 549x9724 维度,验证集变为 61x9724,这使得预测集和测试集之间的 RMSE 变得困难。
data = df.pivot_table(index='userId', columns='movieId', values='rating')
data_train, data_valid = model_selection.train_test_split(
data, test_size=0.1, random_state=42
)
print(data.shape) # (610, 9724)
print(data_train.shape) # (549, 9724)
print(data_valid.shape) # (61, 9724)