逻辑回归详解：原理、推导、实现与实战

逻辑回归详解：原理、推导、实现与实战 | 极客日志

对比维度	线性回归	逻辑回归
模型类型	回归模型（无监督）	分类模型（监督学习）
输出范围	$(-\infty, +\infty)$ 连续值	$[0, 1]$ 概率值
损失函数	均方误差（MSE）	交叉熵损失（Cross-Entropy）
适用场景	预测连续值（如房价、销量）	二分类/多分类（如风控、垃圾邮件识别）

import numpy as np
import matplotlib.pyplot as plt

# 定义 Sigmoid 函数
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# 生成 z 值并计算对应的 sigmoid 结果
z = np.linspace(-10, 10, 1000)
sigma_z = sigmoid(z)

# 可视化
plt.figure(figsize=(8, 5))
plt.plot(z, sigma_z, 'b-', linewidth=2)
plt.axvline(x=0, color='k', linestyle='--', alpha=0.5) # z=0 辅助线
plt.axhline(y=0.5, color='k', linestyle='--', alpha=0.5) # 概率 0.5 辅助线
plt.xlabel('z = w^Tx')
plt.ylabel('$\sigma(z)$ (Probability)')
plt.title('Sigmoid Function')
plt.grid(True, alpha=0.3)
plt.show()

pip install numpy pandas matplotlib scikit-learn

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 1. 数据加载与预处理（二分类任务）
iris = load_iris()
X = iris.data[:, :2] # 取前 2 个特征，便于可视化
y = iris.target # 筛选前两类（y=0 和 y=1），转为二分类问题
mask = (y == 0) | (y == 1)
X = X[mask]
y = y[mask]

# 标准化（逻辑回归对量纲敏感，必须预处理）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 添加偏置项 x0=1（特征矩阵首列全为 1）
X_scaled = np.hstack([np.ones((X_scaled.shape[0], 1)), X_scaled])

# 划分训练集与测试集
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.3, random_state=42
)

# 2. 定义逻辑回归类（梯度下降实现）
class LogisticRegressionManual:
    def __init__(self, learning_rate=0.01, max_iter=1000, tol=1e-4):
        self.lr = learning_rate # 学习率
        self.max_iter = max_iter # 最大迭代次数
        self.tol = tol # 收敛阈值
        self.w = None # 权重参数（含偏置项）

    # Sigmoid 函数
    def sigmoid(self, z):
        # 避免指数溢出：z 过大时 e^-z 趋近于 0，z 过小时 e^-z 趋近于 +∞
        z = np.clip(z, -100, 100)
        return 1 / (1 + np.exp(-z))

    # 训练模型
    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.w = np.zeros(n_features) # 初始化权重为 0
        for _ in range(self.max_iter):
            # 计算线性输出 z 和预测概率
            z = np.dot(X, self.w)
            y_pred_prob = self.sigmoid(z)
            # 计算梯度
            gradient = np.dot(X.T, (y_pred_prob - y)) / n_samples
            # 判断收敛（梯度绝对值最大值小于阈值）
            if np.max(np.abs(gradient)) < self.tol:
                break
            # 更新权重
            self.w -= self.lr * gradient

    # 预测（返回类别标签）
    def predict(self, X):
        z = np.dot(X, self.w)
        y_pred_prob = self.sigmoid(z)
        return np.where(y_pred_prob >= 0.5, 1, 0)

# 3. 训练与评估
lr_manual = LogisticRegressionManual(learning_rate=0.1, max_iter=2000)
lr_manual.fit(X_train, y_train)
y_pred_manual = lr_manual.predict(X_test)

# 计算准确率
acc_manual = accuracy_score(y_test, y_pred_manual)
print(f"手动实现逻辑回归准确率：{acc_manual:.4f}")
print(f"最优权重（含偏置项）：{lr_manual.w}")

# 4. 可视化决策边界
plt.figure(figsize=(8, 6))
# 绘制样本点
plt.scatter(X_test[:, 1], X_test[:, 2], c=y_test, cmap='viridis', edgecolors='black', label='True Label')
# 绘制决策边界 （z=w0 + w1x1 + w2x2 = 0 → x2 = -(w0 + w1x1)/w2）
x1 = np.linspace(X_test[:, 1].min(), X_test[:, 1].max(), 100)
x2 = -(lr_manual.w[0] + lr_manual.w[1] * x1) / lr_manual.w[2]
plt.plot(x1, x2, 'r-', label='Decision Boundary')
plt.xlabel('Feature 1 (Standardized)')
plt.ylabel('Feature 2 (Standardized)')
plt.title('Logistic Regression (Manual Implementation)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

# 1. 数据预处理（同上，无需手动添加偏置项，sklearn 自动处理）
# X_train、X_test、y_train、y_test 已在手动实现中定义

# 2. 初始化并训练模型（指定二分类，关闭正则化便于对比手动结果）
lr_sklearn = LogisticRegression(
    penalty='none', # 关闭正则化
    solver='liblinear', # 适合小样本二分类
    random_state=42
)
lr_sklearn.fit(X_train[:, 1:], y_train) # 去掉手动添加的偏置项（sklearn 自动处理）

# 3. 预测与评估
y_pred_sklearn = lr_sklearn.predict(X_test[:, 1:])
acc_sklearn = accuracy_score(y_test, y_pred_sklearn)

# 输出详细评估指标
print(f"sklearn 逻辑回归准确率：{acc_sklearn:.4f}")
print("分类报告：")
print(classification_report(y_test, y_pred_sklearn))
print("混淆矩阵：")
print(confusion_matrix(y_test, y_pred_sklearn))

# 输出模型参数（系数 + 偏置项）
print(f"特征系数：{lr_sklearn.coef_}")
print(f"偏置项：{lr_sklearn.intercept_}")

# 4. 可视化决策边界（与手动实现对比）
plt.figure(figsize=(8, 6))
plt.scatter(X_test[:, 1], X_test[:, 2], c=y_test, cmap='viridis', edgecolors='black', label='True Label')
# 决策边界： w0 + w1x1 + w2x2 = 0 → x2 = -(w0 + w1x1)/w2
x1 = np.linspace(X_test[:, 1].min(), X_test[:, 1].max(), 100)
x2 = -(lr_sklearn.intercept_[0] + lr_sklearn.coef_[0][0] * x1) / lr_sklearn.coef_[0][1]
plt.plot(x1, x2, 'r-', label='Decision Boundary')
plt.xlabel('Feature 1 (Standardized)')
plt.ylabel('Feature 2 (Standardized)')
plt.title('Logistic Regression (sklearn Implementation)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

# L1 正则化示例
lr_l1 = LogisticRegression(
    penalty='l1', # L1 正则化
    solver='liblinear', # L1 正则化需搭配 liblinear 求解器
    C=0.1, # 正则化强度倒数（C 越小，正则化越强）
    random_state=42
)
lr_l1.fit(X_train[:, 1:], y_train)

# L2 正则化示例（默认）
lr_l2 = LogisticRegression(
    penalty='l2', # L2 正则化
    solver='liblinear',
    C=0.1,
    random_state=42
)
lr_l2.fit(X_train[:, 1:], y_train)

# 对比权重（L1 会使部分权重趋近于 0）
print("L1 正则化权重：", lr_l1.coef_)
print("L2 正则化权重：", lr_l2.coef_)

# 使用完整鸢尾花数据集（3 分类）
X_full = iris.data
y_full = iris.target
X_full_scaled = scaler.fit_transform(X_full)
X_train_full, X_test_full, y_train_full, y_test_full = train_test_split(
    X_full_scaled, y_full, test_size=0.3, random_state=42
)

# OvR 策略（默认）
lr_ovr = LogisticRegression(
    multi_class='ovr', # 多分类策略：OvR
    solver='liblinear',
    random_state=42
)
lr_ovr.fit(X_train_full, y_train_full)
y_pred_ovr = lr_ovr.predict(X_test_full)

# OvO 策略
lr_ovo = LogisticRegression(
    multi_class='multinomial', # 多分类策略： OvO
    solver='lbfgs', # 需搭配 lbfgs/sag/saga 求解器
    random_state=42
)
lr_ovo.fit(X_train_full, y_train_full)
y_pred_ovo = lr_ovo.predict(X_test_full)

# 评估
print("OvR 准确率：", accuracy_score(y_test_full, y_pred_ovr))
print("OvO 准确率：", accuracy_score(y_test_full, y_pred_ovo))

逻辑回归详解：原理、推导、实现与实战

引言

一、逻辑回归核心概念与定位

1.1 逻辑回归与线性回归的区别

1.2 逻辑回归的核心思想

二、核心数学原理：Sigmoid 函数与概率建模

2.1 Sigmoid 函数（激活函数）

2.1.1 函数公式

2.1.2 函数特性

2.1.3 函数可视化

2.2 概率建模与类别判定

三、损失函数设计与数学推导

3.1 交叉熵损失函数（二分类）

3.1.1 单个样本的损失

3.1.2 全局损失函数（所有样本）

3.2 梯度推导与参数求解（梯度下降法）

3.2.1 梯度计算

3.2.2 梯度下降更新规则

3.2.3 学习率的影响

四、Python 实现逻辑回归（手动实现+sklearn 库）

4.1 环境准备

4.2 手动实现逻辑回归（梯度下降）

4.3 sklearn 库实现逻辑回归（工程首选）

五、正则化：解决逻辑回归过拟合

5.1 常见正则化方式

5.1.1 L1 正则化（Lasso）

5.1.2 L2 正则化（Ridge）

5.1.3 ElasticNet（L1+L2）

5.2 sklearn 中正则化的使用

六、逻辑回归的多分类拓展

6.1 One-vs-Rest（OvR，一对多）

6.2 One-vs-One（OvO，一对一）

6.3 sklearn 多分类实现

七、逻辑回归的优缺点与应用场景

7.1 优点

7.2 缺点

7.3 典型应用场景

八、实战技巧与常见问题

8.1 关键实战技巧

8.2 常见问题与解决方案

九、总结与拓展

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具