名字解析:
样本:比如我们想要测量全国人的平均身高。但是我们无法收集到全国所有人的身高数据,所以我们从全国随机抽取n个人进行测量。这n个人就称为样本。样本是全国人口的一个子集。
参数:我们需要测量的身高数据就是参数。
有一些值可以表示样本参数的特征。
均值:
表示样本的平均特征。但是无法表示样本之间的差异,所以就有了。
方差:
以及
标准差:
协方差用于表示两个样本参数之间的相似度
协方差:
。从公式上来看,协方差的结果是先求"参数x”与"参数x的均值"之间的之间的差,以及"参数y"和"参数y的均值"之间的差,表达了两个参数xy之间的差异程度。
协方差矩阵:若观测的一个系统有3个参数xyz,而协方差只能计算两个参数之间的差异程度,可以用协方差矩阵来表达参数两两之间的差异程度。
特征值与特征向量相关
向量与矩阵:向量表示空间中的一个点,向量也可以看做从原点出发的一个矢量。矩阵是一个变换,当矩阵*向量时,矩阵可以看做将空间中的一个点变换到另外一个位置。多个参数排列在一起也可以看做一个向量。
特征向量特征值:
如图所示,当矩阵(变换)作用于一个特征向量是,只是将向量(空间中的矢量)的长度拉伸而已,而方向并没有改变。特征值表示特征向量拉伸的比例
PCA(主成分分析)
PCA是主成分分析。例如对于一个未知的系统,我们假设它有n个参数。我们想要求出那些参数最重要,而把不重要的参数给抹掉,从而降低参数向量的维数。PCA的问题其实是一个基的变换,使得变换后的数据有着最大的方差。
1.假设有2个参数xy,我们通过观察n次,已经得到了n个xy的值。
2.求出xy的协方差矩阵COVMatrix
3.求出COVMatrix的特征向量eigenvectors以及特征值eigenvalues
4.若特征值大,则说明参数空间中的点更接近该特征值对应的特征向量。如图3.2
5.将所求出的特征向量组合成特征向量矩阵如上图。
6.用特征向量矩阵的转置左乘原始参数矩阵的转置 = (原始数据在以特征向量为基的坐标系下的坐标)。如上图,这个finaldata就是pca后的数据。如果对坐标在各种坐标下的转换有疑问,请看我的另一篇博文 。
7.若FeatureVector不是全部的特征向量,则成为主成分,省去的其余成分都是非主要成分.
PCA背后的思想:
如图所示:上面三幅图中每个点的位置都有两个参数r1和r2,想要记录下点的值就必须知道两个参数。而最右边的图r1和r2有明显的关系,当知道r1的时候,就可以利用公式得出r2的值,也就是说在最右边的图中,我们只需要知道一个参数r1就能够确定点的位置了,这就是参数降维。这就是PCA背后的思想。在该例中,我们的母的就是使用PCA可以找出这个最能拟合所有点的直线。