决策树基本原理及 Python 实现与后剪枝处理 | 极客日志

PythonAI算法

决策树基本原理及 Python 实现与后剪枝处理

决策树核心原理，对比信息增益与基尼指数。通过 Python sklearn 库实现鸢尾花数据集分类，演示无剪枝与代价复杂度剪枝（CCP）的完整流程。重点讲解如何利用交叉验证选择最优 ccp_alpha 参数以避免过拟合，并分析剪枝前后树结构差异。此外，总结了特征缩放、类别不平衡等工程实践中的常见陷阱及解决方案，提供从理论推导到代码落地的决策树使用指南。

菩提发布于 2026/3/28更新于 2026/4/188 浏览

一、决策树核心原理：深度解析

1.1 信息增益 vs 基尼指数：为什么 CART 用基尼指数？

关键问题：ID3 用信息增益，CART 用基尼指数，选哪个更好？

指标	信息增益（ID3）

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score, classification_report
import numpy as np
import matplotlib.pyplot as plt

# ========== 1. 数据加载与预处理 ==========
iris = load_iris()
X, y = iris.data, iris.target
feature_names = iris.feature_names # ['sepal length (cm)', 'sepal width (cm)', ...]
target_names = iris.target_names # ['setosa', 'versicolor', 'virginica']

# ========== 2. 划分训练集/测试集（固定随机种子） ==========
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y # 按类别比例划分
)

# ========== 3. 无剪枝模型训练（默认参数） ==========
dt_default = DecisionTreeClassifier(
    random_state=42,
    max_depth=None, # 无深度限制（易过拟合）
    min_samples_split=2, # 最小分裂样本数
    min_samples_leaf=1 # 叶子最小样本数
)
dt_default.fit(X_train, y_train)

# ========== 4. 评估无剪枝模型 ==========
print("【无剪枝】")
print(f"训练集准确率：{dt_default.score(X_train, y_train):.4f}") # 1.0
print(f"测试集准确率：{dt_default.score(X_test, y_test):.4f}") # 0.9667
print(classification_report(y_test, dt_default.predict(X_test)))

# ========== 5. 后剪枝：代价复杂度剪枝 (CCP) ==========
# 5.1 获取 ccp_alpha 路径（关键！）
path = dt_default.cost_complexity_pruning_path(X_train, y_train)
ccp_alphas, impurities = path.ccp_alphas, path.impurities

# 5.2 训练多个不同 ccp_alpha 的模型
clfs = []
for alpha in ccp_alphas:
    clf = DecisionTreeClassifier(
        random_state=42,
        ccp_alpha=alpha # 逐步增加剪枝强度
    )
    clf.fit(X_train, y_train)
    clfs.append(clf)

# 5.3 用交叉验证选择最优 ccp_alpha（避免过拟合）
cv_scores = []
for i, alpha in enumerate(ccp_alphas):
    scores = cross_val_score(clfs[i], X_train, y_train, cv=5)
    cv_scores.append(np.mean(scores))

# 5.4 找到使交叉验证准确率最高的 alpha
best_alpha = ccp_alphas[np.argmax(cv_scores)]
print(f"\n【后剪枝】最优 ccp_alpha: {best_alpha:.6f}")

# 5.5 训练最终模型
dt_pruned = DecisionTreeClassifier(
    random_state=42,
    ccp_alpha=best_alpha
)
dt_pruned.fit(X_train, y_train)

# ========== 6. 剪枝效果对比 ==========
print("\n【效果对比】")
print(f"无剪枝：训练集={dt_default.score(X_train, y_train):.4f}, 测试集={dt_default.score(X_test, y_test):.4f}")
print(f"剪枝后：训练集={dt_pruned.score(X_train, y_train):.4f}, 测试集={dt_pruned.score(X_test, y_test):.4f}")
print(f"树深度：无剪枝={dt_default.get_depth()}, 剪枝后={dt_pruned.get_depth()}")
print(f"节点数：无剪枝={dt_default.get_n_leaves()}, 剪枝后={dt_pruned.get_n_leaves()}")

# ========== 7. 可视化树结构（对比剪枝前后） ==========
plt.figure(figsize=(12, 8))

# 无剪枝树
plt.subplot(1, 2, 1)
plot_tree(dt_default, feature_names=feature_names, class_names=target_names, filled=True)
plt.title("无剪枝决策树 (深度=5)")

# 剪枝后树
plt.subplot(1, 2, 2)
plot_tree(dt_pruned, feature_names=feature_names, class_names=target_names, filled=True)
plt.title(f"后剪枝决策树 (深度={dt_pruned.get_depth()}, ccp_alpha={best_alpha:.6f})")

plt.tight_layout()
plt.savefig("decision_tree_comparison.png", dpi=300)
plt.show()

# 错误做法（泄露测试集）：
# best_alpha = ccp_alphas[np.argmax([clf.score(X_test, y_test) for clf in clfs])]

# 正确做法（用 CV）：
cv_scores = [cross_val_score(clf, X_train, y_train, cv=5).mean() for clf in clfs]
best_alpha = ccp_alphas[np.argmax(cv_scores)]

`ccp_alpha` 值	树结构特点	适用场景
`0.0`	无剪枝（最复杂）	数据量极大、噪声极低
`0.001～0.01`	适度剪枝（推荐起点）	通用场景（鸢尾花/乳腺癌数据集）
`>0.05`	过度剪枝（树太简单）	数据噪声大、特征无关性强

指标	无剪枝	后剪枝（最优α）
树深度	5	3
节点数	11	5
根节点分裂条件	`petal length <= 2.45`	`petal length <= 2.45`
关键差异	分裂了花萼长度、花宽	仅用花瓣长度分裂
过拟合表现	在测试集上将 `versicolor` 误判为 `virginica`	无误判

dt = DecisionTreeClassifier(
    class_weight='balanced', # 自动调整权重
    min_samples_leaf=5 # 确保叶节点有足够样本
)

print("特征重要性:", dt_pruned.feature_importances_)
# 输出：[0. 0. 0.8 0.2] → 花瓣长度最重要

模型	优点	缺点	适用场景
单决策树	可解释性强	容易过拟合	需解释结果的场景
随机森林	泛化能力强（平均多个树）	黑盒模型，可解释性差	预测精度优先的场景

参数	调优优先级	作用	推荐范围
`ccp_alpha`	★★★★★	控制过拟合	从 0.001 开始尝试
`max_depth`	★★★★☆	限制树深度	3～10（根据数据量）
`min_samples_split`	★★★☆☆	最小分裂样本数	2～10
`min_samples_leaf`	★★☆☆☆	叶子最小样本数	1～5

计算复杂度	需计算对数（计算量大）	仅需平方运算（计算快）
分裂效果	信息增益高 → 纯度提升大（但易选多值特征）	基尼指数小 → 纯度高（对连续特征更友好）
数学公式	$Gain(S,A) = Ent(S) - \sum_{v} \frac{	S_v
鸢尾花示例	特征 `花萼长度`：Gain=0.478 → 被选为根节点	特征 `花萼长度`：Gini=0.344 → 被选为根节点

决策树基本原理及 Python 实现与后剪枝处理

一、决策树核心原理：深度解析

1.1 信息增益 vs 基尼指数：为什么 CART 用基尼指数？

二、Python 实现：深度代码解析

三、后剪枝：关键细节深度解析

3.1 为什么交叉验证比直接用测试集选参数更好？

3.2 `ccp_alpha` 的物理意义与选择技巧

3.3 剪枝前后树结构对比（鸢尾花数据集）

四、工程实践：避免决策树的 5 个常见坑

1. 特征缩放问题

2. 类别不平衡的处理

3. 连续特征的最优分裂点

4. 剪枝后模型解释性

5. 与随机森林的对比

五、总结：决策树的终极使用指南

1. 必须做的步骤

2. 参数调优优先级

3. 为什么后剪枝优于前剪枝？

更多推荐文章

相关免费在线工具

决策树基本原理及 Python 实现与后剪枝处理

一、决策树核心原理：深度解析

1.1 信息增益 vs 基尼指数：为什么 CART 用基尼指数？

二、Python 实现：深度代码解析

三、后剪枝：关键细节深度解析

3.1 为什么交叉验证比直接用测试集选参数更好？

3.2 ccp_alpha 的物理意义与选择技巧

3.3 剪枝前后树结构对比（鸢尾花数据集）

四、工程实践：避免决策树的 5 个常见坑

1. 特征缩放问题

2. 类别不平衡的处理

3. 连续特征的最优分裂点

4. 剪枝后模型解释性

5. 与随机森林的对比

五、总结：决策树的终极使用指南

1. 必须做的步骤

2. 参数调优优先级

3. 为什么后剪枝优于前剪枝？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 `ccp_alpha` 的物理意义与选择技巧