隔离森林中是否可以动态调整污染参数?

问题描述 投票:0回答:2

我使用隔离森林构建了一个异常检测模型,污染参数的默认设置为 (0.1)。它在我当前的数据集上工作得很好,但现在我有具有相同结构但不同行数的不同文件,一旦我运行模型,我就不再获得准确的结果,而无需通过手动调整污染参数直到它适合.

我想在获得新文件后立即自动运行模型,但每个文件中数据中异常值的百分比各不相同,并且不可能获得良好的结果,因为我总是必须更改污染参数。有没有办法在每次新文件到达时计算新参数,或者这个模型不适合我的用例?

python machine-learning outliers unsupervised-learning anomaly-detection
2个回答
1
投票

contamination
参数是一个超参数。它可以通过超参数优化进行调整。 scikit-learn 中小型模型/数据集的典型方法是使用网格搜索,请参阅用户指南。这假设您有一种强大的定量方法来评估模型性能。


0
投票

我也遇到了同样的问题。

这个包似乎解决了问题:https://github.com/KulikDM/pythresh

© www.soinside.com 2019 - 2024. All rights reserved.