我使用隔离森林构建了一个异常检测模型,污染参数的默认设置为 (0.1)。它在我当前的数据集上工作得很好,但现在我有具有相同结构但不同行数的不同文件,一旦我运行模型,我就不再获得准确的结果,而无需通过手动调整污染参数直到它适合.
我想在获得新文件后立即自动运行模型,但每个文件中数据中异常值的百分比各不相同,并且不可能获得良好的结果,因为我总是必须更改污染参数。有没有办法在每次新文件到达时计算新参数,或者这个模型不适合我的用例?
contamination
我也遇到了同样的问题。
这个包似乎解决了问题:https://github.com/KulikDM/pythresh