从sklearn PCA获取特征值和向量

问题描述 投票:0回答:4

如何获取PCA应用程序的特征值和特征向量?

from sklearn.decomposition import PCA
clf=PCA(0.98,whiten=True)      #converse 98% variance
X_train=clf.fit_transform(X_train)
X_test=clf.transform(X_test)

我在docs中找不到它。

1.我“无法”理解这里的不同结果。

编辑

def pca_code(data):
    #raw_implementation
    var_per=.98
    data-=np.mean(data, axis=0)
    data/=np.std(data, axis=0)
    cov_mat=np.cov(data, rowvar=False)
    evals, evecs = np.linalg.eigh(cov_mat)
    idx = np.argsort(evals)[::-1]
    evecs = evecs[:,idx]
    evals = evals[idx]
    variance_retained=np.cumsum(evals)/np.sum(evals)
    index=np.argmax(variance_retained>=var_per)
    evecs = evecs[:,:index+1]
    reduced_data=np.dot(evecs.T, data.T).T
    print(evals)
    print("_"*30)
    print(evecs)
    print("_"*30)
    #using scipy package
    clf=PCA(var_per)
    X_train=data.T
    X_train=clf.fit_transform(X_train)
    print(clf.explained_variance_)
    print("_"*30)
    print(clf.components_)
    print("__"*30)
  1. 我希望获得所有特征值和特征向量,而不仅仅是具有收敛条件的约简集。
python scipy scikit-learn pca
4个回答
90
投票

您的实施

您正在计算相关矩阵的特征向量,即归一化变量的协方差矩阵。

data/=np.std(data, axis=0)
不是经典 PCA 的一部分,我们只将变量居中。 因此 sklearn PCA 不具备预先缩放数据的功能

除此之外,如果我们抽象出您提供的代码未运行这一事实,那么您就走在正确的轨道上;)。 您只会对行/列布局感到困惑。老实说,我认为从

X = data.T
开始并从那里开始只使用 X 更容易。 我在帖子末尾添加了您的代码“已修复”。

获取特征值

您已经注意到,您可以使用

clf.components_
获取特征向量。

所以你有了主要成分。它们是协方差矩阵𝑋ᵀ𝑋的特征向量。

从中检索特征值的一种方法是将这个矩阵应用于每个主成分并将结果投影到该成分上。 令 v_1 为第一个主成分,lambda_1 为相关特征值。我们有:
eq 因此: eq2eq3以来。 (x, y) 向量 x 和 y 的标量积。

回到Python你可以这样做:

n_samples = X.shape[0]
# We center the data and compute the sample covariance matrix.
X -= np.mean(X, axis=0)
cov_matrix = np.dot(X.T, X) / n_samples
for eigenvector in pca.components_:
    print(np.dot(eigenvector.T, np.dot(cov_matrix, eigenvector)))

您就得到了与特征向量相关的特征值。 好吧,在我的测试中,结果证明它不适用于最后几个特征值,但我将其归因于我缺乏数值稳定性技能。

现在这不是获取特征值的“最佳”方法,但很高兴知道它们来自哪里。 特征值表示特征向量方向上的方差。所以你可以通过 pca.explained_variance_
属性来获取它们:

eigenvalues = pca.explained_variance_

这是一个可重现的示例,打印您使用每种方法获得的特征值:

import numpy as np from sklearn.decomposition import PCA from sklearn.datasets import make_classification X, y = make_classification(n_samples=1000) n_samples = X.shape[0] pca = PCA() X_transformed = pca.fit_transform(X) # We center the data and compute the sample covariance matrix. X_centered = X - np.mean(X, axis=0) cov_matrix = np.dot(X_centered.T, X_centered) / n_samples eigenvalues = pca.explained_variance_ for eigenvalue, eigenvector in zip(eigenvalues, pca.components_): print(np.dot(eigenvector.T, np.dot(cov_matrix, eigenvector))) print(eigenvalue)

您的原始代码,已修复

如果运行它,您会看到这些值是一致的。它们并不完全相等,因为 numpy 和 scikit-learn 在这里没有使用相同的算法。

最主要的是您使用的是相关矩阵而不是协方差,如上所述。此外,您还从 numpy 中获取了

转置
特征向量,这使得它非常令人困惑。 import numpy as np from scipy.stats.mstats import zscore from sklearn.decomposition import PCA def pca_code(data): #raw_implementation var_per=.98 data-=np.mean(data, axis=0) # data/=np.std(data, axis=0) cov_mat=np.cov(data, rowvar=False) evals, evecs = np.linalg.eigh(cov_mat) idx = np.argsort(evals)[::-1] evecs = evecs[:,idx] evals = evals[idx] variance_retained=np.cumsum(evals)/np.sum(evals) index=np.argmax(variance_retained>=var_per) evecs = evecs[:,:index+1] reduced_data=np.dot(evecs.T, data.T).T print("evals", evals) print("_"*30) print(evecs.T[1, :]) print("_"*30) #using scipy package clf=PCA(var_per) X_train=data X_train=clf.fit_transform(X_train) print(clf.explained_variance_) print("_"*30) print(clf.components_[1,:]) print("__"*30)



13
投票

from sklearn.decomposition import PCA import numpy as np def main(): data = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9], [1.9, 2.2], [3.1, 3.0], [2.3, 2.7], [2, 1.6], [1, 1.1], [1.5, 1.6], [1.1, 0.9]]) print(data) pca = PCA() pca.fit(data) print(pca.components_) print(pca.explained_variance_) if __name__ == "__main__": main()



2
投票

如果您尝试使用“特征值”来确定 PCA 所需的正确维度,您实际上应该使用奇异值。您可以使用 pca.singular_values_ 来获取奇异值。


0
投票

© www.soinside.com 2019 - 2024. All rights reserved.