博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数理统计初步---从协方差到PCA算法步骤详解
阅读量:6211 次
发布时间:2019-06-21

本文共 1219 字,大约阅读时间需要 4 分钟。

名字解析:

样本:比如我们想要测量全国人的平均身高。但是我们无法收集到全国所有人的身高数据,所以我们从全国随机抽取n个人进行测量。这n个人就称为样本。样本是全国人口的一个子集。

参数:我们需要测量的身高数据就是参数。

有一些值可以表示样本参数的特征。

均值

表示样本的平均特征。但是无法表示样本之间的差异,所以就有了。

方差

以及

标准差

协方差用于表示两个样本参数之间的相似度

协方差

。从公式上来看,协方差的结果是先求"参数x”与"参数x的均值"之间的之间的差,以及"参数y"和"参数y的均值"之间的差,表达了两个参数xy之间的差异程度。

 

协方差矩阵:若观测的一个系统有3个参数xyz,而协方差只能计算两个参数之间的差异程度,可以用协方差矩阵来表达参数两两之间的差异程度。

特征值与特征向量相关

向量与矩阵:向量表示空间中的一个点,向量也可以看做从原点出发的一个矢量。矩阵是一个变换,当矩阵*向量时,矩阵可以看做将空间中的一个点变换到另外一个位置。多个参数排列在一起也可以看做一个向量。

特征向量特征值

如图所示,当矩阵(变换)作用于一个特征向量是,只是将向量(空间中的矢量)的长度拉伸而已,而方向并没有改变。特征值表示特征向量拉伸的比例

PCA(主成分分析)

PCA是主成分分析。例如对于一个未知的系统,我们假设它有n个参数。我们想要求出那些参数最重要,而把不重要的参数给抹掉,从而降低参数向量的维数。PCA的问题其实是一个基的变换,使得变换后的数据有着最大的方差。

1.假设有2个参数xy,我们通过观察n次,已经得到了n个xy的值。

2.求出xy的协方差矩阵COVMatrix

 

3.求出COVMatrix的特征向量eigenvectors以及特征值eigenvalues

4.若特征值大,则说明参数空间中的点更接近该特征值对应的特征向量。如图3.2

5.将所求出的特征向量组合成特征向量矩阵如上图。

6.用特征向量矩阵的转置左乘原始参数矩阵的转置 = (原始数据在以特征向量为基的坐标系下的坐标)。如上图,这个finaldata就是pca后的数据。如果对坐标在各种坐标下的转换有疑问,请看我的另一篇博文 。

7.若FeatureVector不是全部的特征向量,则成为主成分,省去的其余成分都是非主要成分.

PCA背后的思想

如图所示:上面三幅图中每个点的位置都有两个参数r1和r2,想要记录下点的值就必须知道两个参数。而最右边的图r1和r2有明显的关系,当知道r1的时候,就可以利用公式得出r2的值,也就是说在最右边的图中,我们只需要知道一个参数r1就能够确定点的位置了,这就是参数降维。这就是PCA背后的思想。在该例中,我们的母的就是使用PCA可以找出这个最能拟合所有点的直线。

转载于:https://www.cnblogs.com/tclikang/archive/2012/11/26/2789200.html

你可能感兴趣的文章
Greatest Number(山东2010省赛)
查看>>
EOJ Monthly 2018.1
查看>>
document.compatMode属性
查看>>
Servlet学习笔记
查看>>
CyclicBarrier的应用场景
查看>>
20172318 《程序设计与数据结构》第三周学习总结
查看>>
Windows下安装phpRedis扩展
查看>>
在Visual Studio中将现有.NET Framework项目迁移至.NET Core 1.1 Preview 1
查看>>
电子商城实录------载入数据库模型
查看>>
为什么在vue的组件中,data要用function返回对象呢?
查看>>
使用selenium模拟登陆点击登陆按钮
查看>>
ligerui tab 部分记载
查看>>
Service服务
查看>>
1060. Are They Equal (25)
查看>>
win10在当前目录下 打开cmd
查看>>
jquery.extend 与 jquery.fn.extend的区别和使用
查看>>
NFS存储服务器的部署流程
查看>>
计算机网络术语总结2
查看>>
一个超简单的马里奥游戏
查看>>
DLRS(深度学习应用于推荐系统论文汇总--2017年8月整理)
查看>>