1. PLS 回归概述与应用场景
偏最小二乘回归(Partial Least Squares Regression, PLS)是一种多变量统计分析方法,适用于两组变量间依赖关系建模的场景。当自变量与因变量均存在多重相关性,且样本量较少时,PLS 能有效克服传统回归方法的局限性,广泛应用于化学、经济学、生物信息学等领域。
PLS vs. PCR vs. MLR
- 多元线性回归(MLR):直接建立因变量与自变量的线性关系,但要求自变量独立且样本量充足,否则易过拟合。
- 主成分回归(PCR):通过提取自变量主成分降维,但未考虑因变量信息,可能导致信息损失。
- 偏最小二乘回归(PLS):同时提取自变量和因变量的成分,并最大化其协方差,兼顾降维与相关性,适合高维小样本数据。
2. PLS 建模步骤详解
2.1 问题定义与数据标准化
设有 $p$ 个因变量 $y_1, y_2, \dots, y_p$ 和 $m$ 个自变量 $x_1, x_2, \dots, x_m$,观测数据已标准化。标准化后的自变量矩阵 $E_0$ 和因变量矩阵 $F_0$ 分别为:
$$ E_0 = \begin{bmatrix} x_{11} & \cdots & x_{1m} \ \vdots & \ddots & \vdots \ x_{n1} & \cdots & x_{nm} \end{bmatrix}, \quad F_0 = \begin{bmatrix} y_{11} & \cdots & y_{1p} \ \vdots & \ddots & \vdots \ y_{n1} & \cdots & y_{np} \end{bmatrix} $$
2.2 成分提取与协方差最大化
第一步:提取第一对成分
- 自变量成分 $t_1$:$t_1 = w_{11}x_1 + w_{12}x_2 + \cdots + w_{1m}x_m = \mathbf{w}_1^T X$
- 因变量成分 $u_1$:$u_1 = v_{11}y_1 + v_{12}y_2 + \cdots + v_{1p}y_p = \mathbf{v}_1^T Y$
目标为最大化 $t_1$ 与 $u_1$ 的协方差,并保证成分携带原变量组的最大变异信息。数学上转化为优化问题:
$$ \begin{cases} \max \mathbf{w}_1^T E_0^T F_0 \mathbf{v}_1 \ \text{s.t. } |\mathbf{w}_1| = 1, |\mathbf{v}_1| = 1 \end{cases} $$
通过求解矩阵 $M = E_0^T F_0 F_0^T E_0$ 的最大特征值对应的特征向量 $\mathbf{w}_1$,并计算 $\mathbf{v}_1 = \frac{1}{\theta_1} F_0^T E_0 \mathbf{w}_1$,得到第一对成分。
第二步:建立回归模型
利用成分 $t_1$,分别对自变量和因变量建立回归模型:
$$ \begin{cases} E_0 = \hat{t}_1 \boldsymbol{\alpha}_1^T + E_1 \ F_0 = \hat{t}_1 \boldsymbol{\beta}_1^T + F_1 \end{cases} $$
其中,回归系数 $\boldsymbol{\alpha}_1$ 和 $\boldsymbol{\beta}_1$ 通过最小二乘估计:
$$ \boldsymbol{\alpha}_1 = \frac{E_0^T \hat{t}_1}{|\hat{t}_1|^2}, \quad \boldsymbol{\beta}_1 = \frac{F_0^T \hat{t}_1}{|\hat{t}_1|^2} $$
第三步:残差迭代
用残差矩阵 $E_1$ 和 $F_1$ 代替原矩阵,重复上述步骤提取后续成分 $t_2, t_3, \dots, t_r$,直到满足精度要求。
3. 交叉有效性检验
PLS 需确定提取的成分个数 $l$,以避免过拟合。通过交叉验证计算预测误差平方和(PRESS)与误差平方和(SS):
- PRESS:剔除第 $i$ 个样本后建模的预测误差平方和。
- SS:全样本建模的误差平方和。
定义交叉有效性指标 $Q_h^2 = 1 - \frac{\text{PRESS}(h)}{\text{SS}(h-1)}$,若 $Q_h^2 < 0.0975$,则停止提取成分。


