如何重新训练ML模型

问题描述 投票:0回答:1

我对机器学习有点陌生,所以我想澄清一件事。

我正在使用 AWS Sagemaker,使用一些标记数据训练模型,将其部署到端点并设置 Lambda 来提供预测。

一切都好,但我想定期重新训练我的模型,例如使用 1 周的历史数据。

但是我的历史数据没有标签,这意味着它不能用于训练。我该如何标记它?

我最初认为我可以使用模型的预测来标记新的(未标记的)数据,但我读到这不是一个好主意,因为它只会确保我的模型的准确性,即使它可能远非准确。

那么我在哪里可以获得历史数据的标签?

如果历史数据无法通过模型进行标注,那么是否意味着应该手动进行标注?在这种情况下,训练和服务模型还有什么意义呢?

以欺诈交易检测为例。好吧,有一些初始数据,由确切知道交易是否欺诈的人手动标记,因此具有 100% 的准确性。 那么是否应该定期手动更新额外的 100% 准确事件?

tensorflow machine-learning artificial-intelligence amazon-sagemaker
1个回答
0
投票

除非您使用无监督学习,否则传统上您需要大量(获取昂贵的)标记数据来训练模型。最近出现了“少样本”或“单样本”学习,(使用预先训练的模型)可以基于少量标记示例进行学习 - 但您仍然需要标记数据,只是没有那么多。

所以你的说法“这是否意味着它应该手动标记”..“那么训练和服务模型有什么意义呢?”这实际上没有意义,因为您无法在没有手动标记(至少是一些)数据的情况下训练模型。

其次——还有“数据漂移”的问题。使用具有随时间变化的特征的数据训练的模型(特别是欺诈检测,因为不良行为者总是在寻找新方法)会降低性能,因此您需要使用新的(标记的)数据进行监控和重新训练。使用欺诈检测示例 - 如果您发现模型缺少一些新的欺诈技术,您需要查找示例并标记它们,然后重新训练模型。另请注意,无论如何,您的原始数据集不太可能达到 100% 的准确率 - 专家可能会出错/错过一些示例,因此模型总是存在一些不确定性 - 特别是对于罕见且难以定义的东西。

© www.soinside.com 2019 - 2024. All rights reserved.