偏最小二乘回归分析：原理、算法与实现

详细解析偏最小二乘回归（PLS）的核心原理与建模方法，对比其与主成分回归（PCR）、多元线性回归（MLR）的优势。从成分提取、协方差最大化、残差迭代到交叉有效性检验，逐步推导 PLS 算法流程。结合矩阵运算公式阐明如何解决多重共线性和小样本问题，为高维数据分析提供实用指导。

LinuxPan发布于 2026/3/24更新于 2026/4/196 浏览

1. PLS 回归概述与应用场景

偏最小二乘回归（Partial Least Squares Regression, PLS）是一种多变量统计分析方法，适用于两组变量间依赖关系建模的场景。当自变量与因变量均存在多重相关性，且样本量较少时，PLS 能有效克服传统回归方法的局限性，广泛应用于化学、经济学、生物信息学等领域。

PLS vs. PCR vs. MLR

多元线性回归（MLR）：直接建立因变量与自变量的线性关系，但要求自变量独立且样本量充足，否则易过拟合。
主成分回归（PCR）：通过提取自变量主成分降维，但未考虑因变量信息，可能导致信息损失。
偏最小二乘回归（PLS）：同时提取自变量和因变量的成分，并最大化其协方差，兼顾降维与相关性，适合高维小样本数据。

2. PLS 建模步骤详解

2.1 问题定义与数据标准化

设有 $p$ 个因变量 $y_1, y_2, \dots, y_p$ 和 $m$ 个自变量 $x_1, x_2, \dots, x_m$，观测数据已标准化。标准化后的自变量矩阵 $E_0$ 和因变量矩阵 $F_0$ 分别为：

$$ E_0 = \begin{bmatrix} x_{11} & \cdots & x_{1m} \ \vdots & \ddots & \vdots \ x_{n1} & \cdots & x_{nm} \end{bmatrix}, \quad F_0 = \begin{bmatrix} y_{11} & \cdots & y_{1p} \ \vdots & \ddots & \vdots \ y_{n1} & \cdots & y_{np} \end{bmatrix} $$

2.2 成分提取与协方差最大化

第一步：提取第一对成分

自变量成分 $t_1$：$t_1 = w_{11}x_1 + w_{12}x_2 + \cdots + w_{1m}x_m = \mathbf{w}_1^T X$
因变量成分 $u_1$：$u_1 = v_{11}y_1 + v_{12}y_2 + \cdots + v_{1p}y_p = \mathbf{v}_1^T Y$

目标为最大化 $t_1$ 与 $u_1$ 的协方差，并保证成分携带原变量组的最大变异信息。数学上转化为优化问题：

$$ \begin{cases} \max \mathbf{w}_1^T E_0^T F_0 \mathbf{v}_1 \ \text{s.t. } |\mathbf{w}_1| = 1, |\mathbf{v}_1| = 1 \end{cases} $$

通过求解矩阵 $M = E_0^T F_0 F_0^T E_0$ 的最大特征值对应的特征向量 $\mathbf{w}_1$，并计算 $\mathbf{v}_1 = \frac{1}{\theta_1} F_0^T E_0 \mathbf{w}_1$，得到第一对成分。

第二步：建立回归模型

利用成分 $t_1$，分别对自变量和因变量建立回归模型：

$$ \begin{cases} E_0 = \hat{t}_1 \boldsymbol{\alpha}_1^T + E_1 \ F_0 = \hat{t}_1 \boldsymbol{\beta}_1^T + F_1 \end{cases} $$

其中，回归系数 $\boldsymbol{\alpha}_1$ 和 $\boldsymbol{\beta}_1$ 通过最小二乘估计：

$$ \boldsymbol{\alpha}_1 = \frac{E_0^T \hat{t}_1}{|\hat{t}_1|^2}, \quad \boldsymbol{\beta}_1 = \frac{F_0^T \hat{t}_1}{|\hat{t}_1|^2} $$

第三步：残差迭代

用残差矩阵 $E_1$ 和 $F_1$ 代替原矩阵，重复上述步骤提取后续成分 $t_2, t_3, \dots, t_r$，直到满足精度要求。

3. 交叉有效性检验

PLS 需确定提取的成分个数 $l$，以避免过拟合。通过交叉验证计算预测误差平方和（PRESS）与误差平方和（SS）：

PRESS：剔除第 $i$ 个样本后建模的预测误差平方和。
SS：全样本建模的误差平方和。

定义交叉有效性指标 $Q_h^2 = 1 - \frac{\text{PRESS}(h)}{\text{SS}(h-1)}$，若 $Q_h^2 < 0.0975$，则停止提取成分。

偏最小二乘回归分析：原理、算法与实现

1. PLS 回归概述与应用场景

PLS vs. PCR vs. MLR

2. PLS 建模步骤详解

2.1 问题定义与数据标准化

2.2 成分提取与协方差最大化

3. 交叉有效性检验

4. 简洁算法：无需因变量成分提取

更多推荐文章

相关免费在线工具

5. 关键公式总结

6. 结语

偏最小二乘回归分析：原理、算法与实现

1. PLS 回归概述与应用场景

PLS vs. PCR vs. MLR

2. PLS 建模步骤详解

2.1 问题定义与数据标准化

2.2 成分提取与协方差最大化

3. 交叉有效性检验

4. 简洁算法：无需因变量成分提取

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5. 关键公式总结

6. 结语