隔离森林中是否可以动态调整污染参数？

问题描述投票：0回答：2

我使用隔离森林构建了一个异常检测模型，污染参数的默认设置为 (0.1)。它在我当前的数据集上工作得很好，但现在我有具有相同结构但不同行数的不同文件，一旦我运行模型，我就不再获得准确的结果，而无需通过手动调整污染参数直到它适合.

我想在获得新文件后立即自动运行模型，但每个文件中数据中异常值的百分比各不相同，并且不可能获得良好的结果，因为我总是必须更改污染参数。有没有办法在每次新文件到达时计算新参数，或者这个模型不适合我的用例？

python machine-learning outliers unsupervised-learning anomaly-detection

2个回答

1
投票

contamination

参数是一个超参数。它可以通过超参数优化进行调整。 scikit-learn 中小型模型/数据集的典型方法是使用网格搜索，请参阅用户指南。这假设您有一种强大的定量方法来评估模型性能。

0
投票

我也遇到了同样的问题。

这个包似乎解决了问题：https://github.com/KulikDM/pythresh

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.