是否有可能数据集不适合构建准确的模型?

问题描述 投票:0回答:1

我正在尝试通过使用糖尿病健康指标数据集(https://www.kaggle.com/datasets/alexteboul/diabetes-health-indicators-dataset)建立糖尿病预测模型。我使用 Azure 机器学习工作室(经典),尝试了“训练模型”和“调整模型超参数”(随机扫描)方法,但我无法达到高于 cca 72% 的准确性和/或其他指标。数据集是平衡的(0 为 35346 个实例,1 为 35346 个实例),其大多数特征只是 0 或 1。我删除了其中一些,它们对糖尿病预测并不重要(CholCheck、AnyHealthCare、NoDocbcCost、教育、收入)。

https://i.ibb.co/Wn5cSY9/Bez-naslova.png

这个数据集适合准确预测吗?还是我必须改变解决问题的方法?

machine-learning dataset classification azure-machine-learning-service kaggle
1个回答
0
投票

是的,数据集有时不适合您用来构建模型的算法。 例如。如果您使用连续数据并实施分类技术,那么评估指标很可能不适合任何顺序。 为此,您需要绘制一些图表和热图来了解您拥有的数据集类型。 如果单一方法不起作用,请务必改变您的方法。 要进一步回答您的问题,请添加更多详细信息,例如您的方法是什么

© www.soinside.com 2019 - 2024. All rights reserved.