ESLII-Chap3 线性回归方法(1)

摘要 本文为ESLII(The Element of Statistical Learning, Second Edition)第三章线性回归方法的学习总结。线性回归方法假设回归方程 $\mathbf{E}(Y|X)$是输入变量的线性组合,该方法使用最为广泛。本文介绍了最小二乘的算法、显著性检验方法($z$检验和$F$检验)、高斯-马尔科夫定理、利用Gram-Schmidt正交化求解多元回归模型系数等内容。


线性回归模型

使用输入向量$X^T = (X_1, X_2, …, X_p)$ 去预测实数标量$Y$,该过程的线性回归模型为:

该线性回归模型假设回归方程 $\mathbf{E}(Y|X)$是(或近似)$X$的线性函数。在该模型中,$X_j$可以有很多产生方法:

  • 自变量中的不同分量(component);
  • 自变量的转换,如自变量$X$的$\log$、平方根或平方等;
  • 基扩展,如$X_2 = X_1^2$,$X_3 = X_1^3$,…
  • 自变量之间的运输,如$X_3 = X_1\cdot X2$;

最小二乘算法描述

最小二乘算法是线性回归中的经典算法,该算法以最小化残差平方和(residual sum of squares)为评价准则:

为了最小化$\text{RSS}(\beta) $,求解$\text{RSS}(\beta) $对$\beta$的导数(参考文献[1]):

假设$\mathbf{X}$列满秩(即$X$的各个分量没有相关性),则$\mathbf{X}^T\mathbf{X}$为正定的(positive definite),则$\mathbf{X}^T\mathbf{X}$的逆存在,顾:

因此,对于训练数据输入,其预测的输出为:

  • $\mathbf{X}$列满秩 $\iff$ $\mathbf{X}^T\mathbf{X}$的逆存在 $\iff$ $\mathbf{X}$ 存在左逆$ (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T $
  • $\mathbf{H} = \mathbf{X} (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T $是投影到$\mathbf{X}$列空间(值域)的投影矩阵

线性回归模型的显著性检验

绝大部分情况下,$Y$ 的期望是$X$的线性函数,而每次的观测到的输出变量$y_i$是服从高斯分布的随机变量,即线性回归模型可以修改为:

其中,$\epsilon$服从$N(0,\sigma^2)$。这样容易推算得到$\hat{\beta}$的分布:

其中,$\sigma^2$的无偏估计为:

即$(N-p-1)\hat{\sigma}^2$服从自由度为$N-p-1$的卡方分布,$(N-p-1)\hat{\sigma}^2 \sim \sigma^2\chi^2_{N-p-1}$。同时,$\hat{\beta}$与$\hat{\sigma}^2$是统计独立的。利用上述统计特征,我们可以对某个特定的参数$\beta_j$进行显著性检验。为了验证某个特定的$\beta_j$是否为0,我们定义$z$值(Z-score)为:

其中,$v_j$为$(\mathbf{X}^T\mathbf{X})^{-1}$的第$j$对角线元素。因此,$z_j$为自由度为$N-p-1$的$t$分布。当$z_j$的绝对值大于一定数值(该数值的选取通常由置信水平和自由度确定)时,就拒绝原假设$\beta_j=0$,即认为$\beta_j$对$Y$的影响是显著的。该过程也被称之为$Z$检验

$\beta_j$的$(1-2\alpha)$置信区间为:

其中,$z^{(1-\alpha)}$为正态分布的第$1-\alpha$的百分位(percentile)。

$t$分布 (参考文献[2])

正态分布的两个参数$\mu$和$\sigma$决定了正态分布的位置和形态。为了应用方便,常将一般的正态变量$W$通过u变换$\frac{W-\mu}{\sigma}$转化成标准正态变量$u$,以使原来各种形态的正态分布都转换为$\mu=0$,$\sigma=1$的标准正态分布,亦称$u$分布。根据中心极限定理,通过抽样模拟试验表明,在正态分布总体中以固定$ n$ 抽取若干个样本时,样本均数的分布仍服从正态分布,即$N(\mu, \sigma^2)$。所以,对样均数的分布进行$u$变换,也可变换为标准正态分布$N (0,1)$。

由于在实际工作中,往往$\sigma$(总体方差)是未知的,常用样本方差作为$\sigma$的估计值,为了与$u$变换区别,称为$t$变换,统计量$t$值的分布称为$t$分布。假设$A$服从标准正态分布$N(0,1)$,$B$服从$\chi_n^2$分布,那么$Z=\frac{A}{\sqrt{B/n}}$的分布称为自由度为$n$的$t$分布,记为$ Z\sim t_n$。

$t$分布以0为中心,左右对称的单峰分布;t分布是一簇曲线,其形态变化与n大小有关。n越小,t
分布曲线越低平;反之,$t$分布曲线越接近标准正态分布($u$分布)曲线。

通常我们也需要对$\beta$中的一组参数进行显著性检验,此时我们定义$F$值(F statistic)为:

其中,$\text{RSS}_1$是使用较多参数( $p_1+1$ 个)的最小二乘拟合的残差平方和($\chi_{N-p_1-1}^2$分布),$\text{RSS}_0$是使用较少参数( $p_0+1$ 个)的最小二乘拟合的残差平方和($\chi_{N-p_0-1}^2$分布),即其中$p_1-p_0$个参数被假设为0。则$F$为参数为$(p_1-p_0)$和$(N-p_1-1)$的$F$分布,即$F\sim F_{p_1-p_0, N-p_1-1}$。该过程称也之为$F$检验

  • 当$N$趋近于无穷大时,$F_{p_1-p_0, N-p_1-1}$分布趋近于$\chi_{p_1-p_0}^2/(p_1-p_0)$;

  • $z$检验是$F$检验的特例,即$z_j = \sqrt{F}$,其中$F\sim F_{1, N-p_1-1}$。

高斯—马尔科夫定理

高斯—马尔可夫定理(Gauss–Markov theorem)是指在给定线性回归模型$f(x_0) = x_0^T\beta$的假定下,最小二乘算法估计量$x_0^T\hat{\beta}$量具有最小方差的线性无偏估计量。 高斯-马尔可夫定理的意义在于,当线性回归模型假定成立时,我们不需要再去寻找其它无偏估计量,没有一个会优于普通最小二乘估计量。也就是说,如果存在一个好的线性无偏估计量,这个估计量的方差最多与普通最小二乘估计量的方差一样小,不会小于普通最小二乘估计量的方差。

然而,存在一些有偏估计算法,例如子集选择、岭回归等,可以得到更小的均方误差MSE。这类算法通常牺牲估计偏差,来换取更多的估计方差下降。

均方误差(mean squares error)更能描述最终的估计精度,设$\hat{\theta}$是$\theta$的估计量,则:

由此可以看出MSE包括两部分:估计量的方差以及偏差的平方。

多元线性回归模型

多元线性回归模型(multiple linear regression model)是指线性回归模型中输入变量$X$的分量个数$p>1$。多元线性回归可以采用Gram-Schmidt正交化过程进行求解。算法流程如下:

  1. 初始化$\mathbf{z}_0 = \mathbf{x}_0 = \mathbf{1}$。

  2. $\text{For } j = 1, 2, …, p$

    计算$\mathbf{x}_j$在$\mathbf{z}_0, \mathbf{z}_1, …, \mathbf{z_{j-1}} $上的回归系数$\hat{\gamma}_{lj}$和残余向量$\mathbf{z}_j$

  3. 计算$\mathbf{y}$在残差$\mathbf{z}_j$上的回归系数,即得到待估计的$\hat{\beta}_p$

$\{\mathbf{z}_k, k=0,…,p\}$是构成$\mathbf{X}$列空间的基,所以$\mathbf{y}$到该子空间的最小二乘投影就是$\hat{\mathbf{y}}$。由于$\mathbf{z}_p$仅仅是$\mathbf{x}_p$的构成分量,所以上式计算得到系数即为多元回线性归模型中的系数$\hat{\mathbf{\beta}}_p$。交换$\mathbf{x}_j$的位置到$\mathbf{X}$最末尾一列,采用上述同样的正交化过程得到$\mathbf{x}_j$在$\mathbf{x}_0, \mathbf{x}_1,…, \mathbf{x}_{j-1}, \mathbf{x}_{j+1},…, \mathbf{x}_p$上的回归残差向量,$\mathbf{y}$在该残差回归向量上的回归系数即为多元线性回归模型中的系数$\hat{\beta}_j$。

线性回归模型中的系数$\hat{\beta}_j$实际上代表$\mathbf{x}_j$对$\mathbf{y}$的贡献。其中,$\mathbf{x}_j$是对$\mathbf{x}_0, \mathbf{x}_1,…, \mathbf{x}_{j-1}, \mathbf{x}_{j+1},…, \mathbf{x}_p$正交调整后向量。

通过上述的计算过程,容易得到$\hat{\beta}_p$的方差:

上式表明:若$\mathbf{z}_p$的模很小,即$\mathbf{x}_p$与其他$\mathbf{x}_j$高度相关,则$\hat{\beta}_p$的方差将变得非常大(不稳定)。这样可能导致具有相关性的${\mathbf{x}_j}$对应的多元回归系数的$z$值都非常小,进而误将这些系数全部删除(即将这些系数置零)。

多元线性模型的系数求解过程可以表示为矩阵形式。Gram-Schmidt正交化过程可以表示为:

其中,$\mathbf{Z}$是由$\mathbf{z}_j$按序组成,$\Gamma$是元素为$\hat{\gamma}_{lj}$的上三角矩阵。引入对角矩阵$\mathbf{D}$对$\mathbf Z$的每一列进行归一化,即$\mathbf{D}_{jj} = ||\mathbf{z}_j||$。

上式为矩阵的QR分解,其中$\mathbf{Q}^T\mathbf{Q} = \mathbf{I}$。所以可以求得多元线性回归模型的系数为:

参考文献

[1]: https://zhuanlan.zhihu.com/p/24709748 矩阵求导术(上)
[2]: http://bbs.pinggu.org/thread-3885528-1-1.html 几种分布概述(正态分布/卡方分布/F分布/T分布)