决策树三大算法（ID3、C4.5、CART）原理解析

决策树是一种监督学习算法，它通过递归地将数据集划分为子集，构建出一个类似流程图的树形结构。每个内部节点代表一个特征的判断，每个分支代表判断的结果，每个叶节点代表最终的分类或回归值。

一、决策树基础：核心概念与数学原理

1.1 什么是决策树？

决策树具有极强的可解释性，就像一个专家系统，能够清晰地展示决策的过程。

1.2 关键评价指标：熵与信息增益

要理解决策树的构建过程，我们首先需要掌握两个核心概念：。

特性	ID3	C4.5	CART
划分准则	信息增益	信息增益比	基尼指数（分类）/ 平方误差（回归）
树结构	多叉树	多叉树	二叉树
连续型特征	不支持	支持（二分法）	支持（二分法）
缺失值处理	不支持	支持	支持
剪枝机制	无	后剪枝	代价复杂度剪枝
适用任务	分类	分类	分类 / 回归

import math from collections import Counter class ID3DecisionTree: def __init__(self): self.tree = {} def entropy(self, data): """计算数据集的熵""" labels = [row[-1] for row in data] label_counts = Counter(labels) entropy = 0.0 total = len(labels) for count in label_counts.values(): p = count / total entropy -= p * math.log2(p) if p > 0 else 0 return entropy def split_dataset(self, data, feature_idx, value): """根据特征和值划分数据集""" subset = [] for row in data: if row[feature_idx] == value: reduced_row = row[:feature_idx] + row[feature_idx+1:] subset.append(reduced_row) return subset def choose_best_feature(self, data): """选择信息增益最大的特征""" num_features = len(data[0]) - 1 base_entropy = self.entropy(data) best_info_gain = 0.0 best_feature_idx = -1 for i in range(num_features): feature_values = [row[i] for row in data] unique_values = set(feature_values) new_entropy = 0.0 for value in unique_values: subset = self.split_dataset(data, i, value) p = len(subset) / len(data) new_entropy += p * self.entropy(subset) info_gain = base_entropy - new_entropy if info_gain > best_info_gain: best_info_gain = info_gain best_feature_idx = i return best_feature_idx def majority_vote(self, labels): """多数投票决定叶节点的类别""" label_counts = Counter(labels) return max(label_counts, key=label_counts.get) def build_tree(self, data, feature_names): """递归构建决策树""" labels = [row[-1] for row in data] # 如果所有标签相同，返回该标签 if labels.count(labels[0]) == len(labels): return labels[0] # 如果没有特征可用，返回多数标签 if len(data[0]) == 1: return self.majority_vote(labels) # 选择最优特征 best_feature_idx = self.choose_best_feature(data) best_feature_name = feature_names[best_feature_idx] # 构建树 tree = {best_feature_name: {}} del(feature_names[best_feature_idx]) # 获取最优特征的所有取值 feature_values = [row[best_feature_idx] for row in data] unique_values = set(feature_values) # 递归构建子树 for value in unique_values: sub_feature_names = feature_names[:] subset = self.split_dataset(data, best_feature_idx, value) tree[best_feature_name][value] = self.build_tree(subset, sub_feature_names) return tree # 天气数据集 data = [ ['Sunny', 'Hot', 'High', 'False', 'No'], ['Sunny', 'Hot', 'High', 'True', 'No'], ['Overcast', 'Hot', 'High', 'False', 'Yes'], ['Rainy', 'Mild', 'High', 'False', 'Yes'], ['Rainy', 'Cool', 'Normal', 'False', 'Yes'], ['Rainy', 'Cool', 'Normal', 'True', 'No'], ['Overcast', 'Cool', 'Normal', 'True', 'Yes'], ['Sunny', 'Mild', 'High', 'False', 'No'], ['Sunny', 'Cool', 'Normal', 'False', 'Yes'], ['Rainy', 'Mild', 'Normal', 'False', 'Yes'], ['Sunny', 'Mild', 'Normal', 'True', 'Yes'], ['Overcast', 'Mild', 'High', 'True', 'Yes'], ['Overcast', 'Hot', 'Normal', 'False', 'Yes'], ['Rainy', 'Mild', 'High', 'True', 'No'] ] feature_names = ['Outlook', 'Temperature', 'Humidity', 'Windy'] # 构建 ID3 决策树 id3_tree = ID3DecisionTree() tree = id3_tree.build_tree(data, feature_names) print("构建的 ID3 决策树：") print(tree)

决策树三大算法（ID3、C4.5、CART）原理解析

一、决策树基础：核心概念与数学原理

1.1 什么是决策树？

1.2 关键评价指标：熵与信息增益

1.2.1 熵：衡量数据的混乱程度

1.2.2 信息增益：衡量特征的区分能力

二、ID3 算法：信息增益的引领者

2.1 ID3 算法原理

2.2 天气数据集实战

2.2.1 数据集介绍

2.2.2 计算信息增益

2.2.3 选择最优特征

2.3 ID3 算法的优缺点

三、C4.5 算法：ID3 的升级版

3.1 C4.5 算法原理

3.2 信息增益比：修正信息增益的偏差

3.3 连续型特征处理

3.4 剪枝机制

3.5 缺失值处理

四、CART 算法：分类与回归的统一框架

4.1 CART 算法原理

4.2 基尼指数：衡量数据的不纯度

4.3 基尼指数增益

4.4 二叉树构建

4.5 剪枝策略

五、三大算法对比与适用场景

5.1 核心差异对比

5.2 适用场景选择

六、完整代码实现

七、总结与展望

更多推荐文章

相关免费在线工具

决策树三大算法（ID3、C4.5、CART）原理解析

一、决策树基础：核心概念与数学原理

1.1 什么是决策树？

1.2 关键评价指标：熵与信息增益

1.2.1 熵：衡量数据的混乱程度

1.2.2 信息增益：衡量特征的区分能力

二、ID3 算法：信息增益的引领者

2.1 ID3 算法原理

2.2 天气数据集实战

2.2.1 数据集介绍

2.2.2 计算信息增益

2.2.3 选择最优特征

2.3 ID3 算法的优缺点

三、C4.5 算法：ID3 的升级版

3.1 C4.5 算法原理

3.2 信息增益比：修正信息增益的偏差

3.3 连续型特征处理

3.4 剪枝机制

3.5 缺失值处理

四、CART 算法：分类与回归的统一框架

4.1 CART 算法原理

4.2 基尼指数：衡量数据的不纯度

4.3 基尼指数增益

4.4 二叉树构建

4.5 剪枝策略

五、三大算法对比与适用场景

5.1 核心差异对比

5.2 适用场景选择

六、完整代码实现

七、总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具