均值与方差
均值:
方差:
均值、方差和标准差可用于描述数据的集中趋势和离散程度。
协方差
方差一般用来描述一维数据,而实际上我们接触的数据集大多是多维的。
此时可以用协方差来度量两个随机变量之间的关系。
参照方差的定义:
度量两个随机变量关系的协方差可以这样定义:
两个随机变量越线性相关,协方差越大,完全线性无关,协方差为零。
相关系数
由于随机变量的取值范围不同,两个协方差不具备可比性。
如是三个不同的随机变量,想要比较与的线性相关程度强还是与的线性相关程度强,通过和是无法比较得知的。
我们可以定义一个相关系数:
通过对协方差归一化,得到相关系数,取值范围为[-1,1]。1表示完全线性正相关,-1表示完全线性负相关,0表示线性无关。
协方差矩阵
对于多维数据,往往需要计算各维度两两之间的协方差,这样各协方差组成了一个n x n的矩阵,称为协方差矩阵。协方差矩阵是个对称矩阵,对角线上的元素是各维度上随机变量的方差。
定义协方差矩阵为:
参考
StatQuest-Covariance and Correlation(视频)
协方差与协方差矩阵
均值,方差和协方差矩阵