如果我只是'vectorizer.transform(短语)'而不适合它会发生什么?

问题描述 投票:0回答:1

当涉及到矢量化短语并将它们放入矩阵形式时,有些事情让我感到困惑。

导入CountVectorizer或TfidfVectorizer时,

.fit&.transform&.fit_transform函数有什么区别?

我知道'.fit'会学习ngrams,分成ngrams。

'.transform'会将它放入短语x ngram矩阵中。

'.fit_transform'是.fit和.transform的组合

如果是这种情况,如果我只是vectorize.transform(短语)而不适合它会发生什么?

我看到本教程设置适合和转换列车数据,但对于测试数据,它只对预测进行“转换”操作。

在此先感谢大家。

transform vectorization sentiment-analysis text-analysis countvectorizer
1个回答
0
投票

强调:

  1. .transform(X) =将字典特征转换为2D特征矩阵。
  2. .fit_transform(X) =学习功能名称+ .transform(X)

回答你的问题:

只有在使用.transform学习功能后才能使用.fit。直接应用.transform将忽略.fit中没有遇到的任何特征,因此不会输出任何分类结果。

参考文献:

© www.soinside.com 2019 - 2024. All rights reserved.