确定scikit的n_features值学习FeatureHasher

Question

我有一个具有4000个独特级别的分类列。

当使用sklearn.feature_extraction.FeatureHasher进行编码时，该列应该是n_features值以避免冲突。

Answer 1

n_features应尽可能大，以避免碰撞。您是否有可能计算所有4000个级别的所有唯一值？如果是，您可以将n_features设置为此值。将n_features设置为非常大的值可能会占用大量RAM。通常n ^features在2 ^ 28到2 ^ 32之间就足够了