06 Python 数据分析入门:集中趋势与离散程度

Python 数据分析入门:一文搞懂集中趋势与离散程度(附 Pandas 实战)

适合人群:Python 初学者 / 数据分析入门 / 统计学基础学习者 / 教学案例分享

在做数据分析时,我们经常会遇到这样的问题:

  • 一组数据的“平均水平”到底是多少?
  • 为什么两组数据均值差不多,但实际情况完全不同?
  • 如何判断数据是否稳定,波动大不大?
  • 数据里有没有异常值?

这些问题,本质上都离不开两个统计学基础概念:

  • 集中趋势
  • 离散程度

本文用一个非常简单的案例——班级成绩分析,带你从 0 到 1 学会这些统计指标,并用 Pandas 完成实战分析。


一、先看一个问题:平均分差不多,班级情况就一样吗?

假设现在有两个班级的数学成绩:

A班成绩 =[85,82,88,84,86,83,87,85,84,86] B班成绩 =[100,60,90,70,95,65,85,85,85,85]

很多人拿到数据后,第一反应就是先看平均分。

但问题是:

  • 平均分差不多,就说明两个班水平一样吗?
  • 哪个班更稳定?
  • 哪个班成绩差距更大?

答案显然不是。

A班成绩比较集中,整体比较稳定;B班虽然也有高分,但高低差距很大。

这说明:

分析数据时,不能只看平均值,还要看数据的分散程度。

二、什么是集中趋势?

集中趋势,就是描述一组数据“中心位置”的指标。

你可以简单理解为:

这组数据大多数值,整体上靠近哪里?

常见的集中趋势指标有:

  • 均值(Mean)
  • 中位数(Median)
  • 众数(Mode)
  • 中列数(Midrange)

1)均值(Mean)

均值就是我们平时说的“平均数”。

计算公式
均值 = 所有数据之和 / 数据个数 
Pandas 写法
df['A班'].mean()
特点
  • 优点:最常用,最直观
  • 缺点:对异常值敏感

也就是说,如果一组数据里存在特别大或特别小的值,均值很容易被拉偏。


2)中位数(Median)

中位数就是把数据排序后,位于中间位置的值。

Pandas 写法
df['A班'].median()
特点
  • 不容易被极端值拉偏
  • 在有异常值时,通常比均值更可靠

如果你分析的数据可能存在异常值,比如成绩异常、消费异常、销售爆发等,中位数往往比均值更能反映真实水平。


3)众数(Mode)

众数就是一组数据中出现次数最多的值。

Pandas 写法
df['A班'].mode()
特点
  • 适合看“最常见的水平”
  • 可能有多个众数
  • 如果每个值都只出现一次,就可能没有众数

比如一组成绩里,85 分出现次数最多,那么 85 就是众数。


4)中列数(Midrange)

中列数是最大值和最小值的平均值。

计算公式
中列数 =(最大值 + 最小值)/2
特点
  • 计算简单
  • 但受极端值影响较大
  • 一般了解即可,实际分析中不如均值和中位数常用

三、什么是离散程度?

如果说集中趋势解决的是:

“这组数据大概在什么水平?”

那么离散程度解决的就是:

“这组数据差距大不大?稳定不稳定?”

常见指标有:

  • 极差(Range)
  • 四分位数(Quartiles)
  • 四分位数极差(IQR)
  • 方差(Variance)
  • 标准差(Standard Deviation)

1)极差(Range)

极差是最大值减去最小值。

计算公式
极差 =max-min
Pandas 写法
df['A班'].max()- df['A班'].min()
特点
  • 计算最简单
  • 但只看最值,容易受极端值影响

如果一组数据里有异常值,极差可能会被放大。


2)四分位数(Quartiles)

四分位数是把数据从小到大排序后,分成四份得到的几个关键位置:

  • Q1:25%位置
  • Q2:50%位置,也就是中位数
  • Q3:75%位置
Pandas 写法
df['A班'].quantile([0.25,0.5,0.75])

四分位数非常适合用来观察数据分布情况。


3)四分位数极差(IQR)

IQR 的公式是:

IQR = Q3 - Q1 

它表示中间 50% 数据的离散程度。

特点
  • 比极差更稳定
  • 常用于异常值判断
  • 对极端值不那么敏感

所以在实际分析中,IQR 是一个非常实用的指标。


4)方差(Variance)与标准差(Standard Deviation)

这两个指标是分析“波动大小”的经典工具。

Pandas 写法
df['A班'].var()# 方差 df['A班'].std()# 标准差
怎么理解?

你可以简单理解为:

  • 标准差越小:数据越集中,越稳定
  • 标准差越大:数据越分散,差异越明显

在实际工作中,标准差通常比方差更常用,因为它更容易解释。


四、Pandas 实战:完整代码直接运行

下面直接上完整代码,复制即可运行。

import pandas as pd import matplotlib.pyplot as plt # 1. 构造数据 a_scores =[85,82,88,84,86,83,87,85,84,86] b_scores =[100,60,90,70,95,65,85,85,85,85] df = pd.DataFrame({'A班': a_scores,'B班': b_scores })# 2. 查看原始数据print("=== 原始数据 ===")print(df)# 3. 一键统计描述print("\n=== describe() 统计结果 ===")print(df.describe())# 4. 集中趋势print("\n=== 集中趋势 ===")print("A班均值:", df['A班'].mean())print("B班均值:", df['B班'].mean())print("A班中位数:", df['A班'].median())print("B班中位数:", df['B班'].median())print("A班众数:", df['A班'].mode().tolist())print("B班众数:", df['B班'].mode().tolist())print("A班中列数:",(df['A班'].max()+ df['A班'].min())/2)print("B班中列数:",(df['B班'].max()+ df['B班'].min())/2)# 5. 离散程度print("\n=== 离散程度 ===")print("A班极差:", df['A班'].max()- df['A班'].min())print("B班极差:", df['B班'].max()- df['B班'].min())print("A班方差:", df['A班'].var())print("B班方差:", df['B班'].var())print("A班标准差:", df['A班'].std())print("B班标准差:", df['B班'].std())# 6. 四分位数和IQR a_q1 = df['A班'].quantile(0.25) a_q2 = df['A班'].quantile(0.5) a_q3 = df['A班'].quantile(0.75) a_iqr = a_q3 - a_q1 b_q1 = df['B班'].quantile(0.25) b_q2 = df['B班'].quantile(0.5) b_q3 = df['B班'].quantile(0.75) b_iqr = b_q3 - b_q1 print("\n=== 四分位数与 IQR ===")print(f"A班: Q1={a_q1}, Q2={a_q2}, Q3={a_q3}, IQR={a_iqr}")print(f"B班: Q1={b_q1}, Q2={b_q2}, Q3={b_q3}, IQR={b_iqr}")# 7. 盒图可视化 df.boxplot() plt.title("A班与B班成绩盒图") plt.ylabel("分数") plt.show()

输出

=== 原始数据 === A班 B班 0 85 100 1 82 60 2 88 90 3 84 70 4 86 95 5 83 65 6 87 85 7 85 85 8 84 85 9 86 85 === describe() 统计结果 === A班 B班 count 10.000000 10.000000 mean 85.000000 82.000000 std 1.825742 12.952906 min 82.000000 60.000000 25% 84.000000 73.750000 50% 85.000000 85.000000 75% 86.000000 88.750000 max 88.000000 100.000000 === 集中趋势 === A班均值: 85.0 B班均值: 82.0 A班中位数: 85.0 B班中位数: 85.0 A班众数: [84, 85, 86] B班众数: [85] A班中列数: 85.0 B班中列数: 80.0 === 离散程度 === A班极差: 6 B班极差: 40 A班方差: 3.3333333333333335 B班方差: 167.77777777777777 A班标准差: 1.8257418583505538 B班标准差: 12.952906151816965 === 四分位数与 IQR === A班: Q1=84.0, Q2=85.0, Q3=86.0, IQR=2.0 B班: Q1=73.75, Q2=85.0, Q3=88.75, IQR=15.0 
在这里插入图片描述

五、重点来了:describe() 到底看什么?

很多初学者第一次用 describe(),会觉得输出一堆数字,不知道重点看哪里。

其实重点就盯住这几个字段:

  • mean:均值
  • 50%:中位数
  • std:标准差
  • min / max:最小值和最大值
  • 25% / 75%:Q1 和 Q3

一个简单经验

如果你刚开始学数据分析,看到 describe(),优先看这三类信息:

1. 看中心
  • mean
  • 50%
2. 看波动
  • std
  • max - min
3. 看分布
  • 25%
  • 75%

这几个值,已经足够完成一轮基础分析。


六、结合案例解释结果

运行完代码后,你通常会发现:

  • A班成绩集中在 80 多分附近
  • B班虽然也有多个 85,但整体差距更大
  • B班的极差和标准差通常会更大

这说明:

A班

  • 整体稳定
  • 学生成绩差异不大
  • 班级表现比较均衡

B班

  • 两极分化更明显
  • 有高分,也有低分
  • 平均值不能完全说明问题

这也是为什么在实际分析中,不能只看平均分


七、异常值为什么重要?

在真实数据中,经常会遇到一些“看起来不太正常”的值,比如:

  • 成绩里突然出现一个特别高或特别低的数
  • 销售数据里某一天异常爆发
  • 用户消费数据里出现极端金额

这些值可能是:

  • 真实异常
  • 录入错误
  • 特殊情况

因此,分析数据时一定要关注异常值,因为它会直接影响均值、极差、标准差等指标。

对于异常值,常见的一种判断方式是利用四分位数极差 IQR:

下界 = Q1 -1.5* IQR 上界 = Q3 +1.5* IQR 

超出这个范围的数据,通常可以视为异常值。


八、学习这部分内容,最容易踩的坑

坑1:只看均值,不看标准差

这是初学者最常见的问题。

均值只能说明平均水平,不能说明稳定性。


坑2:看到中位数和均值差不多,就觉得数据没问题

不一定。

有时候数据虽然中位数和均值接近,但极差、IQR、标准差可能已经说明波动很大。


坑3:不会解读 mode()

mode() 返回的是一个序列,不一定只有一个值。

比如:

print(df['A班'].mode())

可能返回多个众数,这是正常现象。


坑4:把方差和标准差混为一谈

记住一句话:

  • 方差是“平方后的离散程度”
  • 标准差是方差开根号后得到的,更容易解释

实际分析中,标准差更常用


九、这部分知识在数据分析里有什么用?

别看它只是“统计描述”,其实它是后面很多内容的基础。

比如:

  • 数据清洗
  • 异常值检测
  • 数据可视化
  • 聚类分析
  • 建模前的数据理解

也就是说:

如果你连均值、中位数、标准差都看不懂,后面做更复杂的数据分析会非常吃力。

十、给初学者的一个记忆口诀

这部分我建议直接记成下面这 4 句话:

记忆版总结

  1. 均值看平均,但怕异常值。
  2. 中位数更稳,适合有极端值的数据。
  3. 标准差越大,波动越大。
  4. 分析数据时,中心和离散要一起看。

十一、课后练习(适合课堂 / 自学)

练习 1:基础题

已知一组成绩数据:

scores =[72,75,78,80,85,85,86,90,92,95]

请完成:

  1. 计算均值、中位数、众数
  2. 计算极差、方差、标准差
  3. 计算 Q1、Q2、Q3 和 IQR
  4. 用一句话描述这组数据的特点

练习 2:提高题

加入一个异常值:

scores =[72,75,78,80,85,85,86,90,92,150]

请思考:

  1. 均值变化大吗?
  2. 中位数变化大吗?
  3. 哪个指标更适合描述这组数据?
  4. 能否认为 150 是异常值?

练习 3:迁移题

请把“成绩数据”换成你熟悉的业务数据,例如:

  • 某店铺近 10 天销售额
  • 某班学生 10 次上机时长
  • 某宿舍 10 天用电量

要求:

  • 使用 Pandas 完成统计描述
  • 输出 describe()
  • 分析集中趋势和离散程度
  • 尝试绘制盒图

十二、总结

这篇文章我们解决了一个非常基础但非常重要的问题:

一组数据到底该怎么快速读懂?

答案就是两步:

  • 看集中趋势:判断整体水平
  • 看离散程度:判断波动大小

本文重点讲了这些常用指标:

  • 均值
  • 中位数
  • 众数
  • 中列数
  • 极差
  • 四分位数
  • IQR
  • 方差
  • 标准差

这些内容是数据分析中的基础能力,也是后续数据清洗、异常值识别和可视化分析的起点。


十三、写在最后

如果这篇文章对你有帮助,欢迎点赞、收藏、评论支持一下。
如果你也在学习 Python 数据分析,建议把 describe()mean()median()mode()std() 这几个方法先练熟,它们真的非常高频。

你在学习数据分析时,最开始卡在哪个统计指标上?
欢迎在评论区交流。


Read more

OpenClaw 浏览器控制终极方案 - 让 AI 助手随时控制你的浏览器:

OpenClaw 浏览器控制终极方案 - 让 AI 助手随时控制你的浏览器:

🚀 懒人版:你可能都不用看这篇文章 直接把这篇文章发给 Claude Code,让它帮你执行就行了。它会:创建一个 Chrome Debug 浏览器实例配置好所有参数 然后去 OpenClaw 的 bot 里告诉它: "更新下身份信息:当前你需要去查询信息资料、联网之类的,优先使用已经可以打开的可调试浏览器实例去控制打开搜索等。比如: 使用 --browser-profile mydebug 来控制已打开的浏览器实例。" 搞定!🎉 一个被忽视的痛点 你有没有遇到过这样的场景: 你让 AI 助手帮你搜索信息,它打开了一个全新的浏览器窗口。 然后你发现: * 推特要重新登录 * GitHub 要重新登录 * Google 要重新登录 * 甚至有些网站直接把你当成机器人,拒绝访问 为什么? 因为 AI 助手用的是一个"干净"的浏览器环境,

By Ne0inhk
手把手教你开发“AI数据分析师”:利用IPIDEA + 智能体实现全网数据洞察

手把手教你开发“AI数据分析师”:利用IPIDEA + 智能体实现全网数据洞察

前言:为何需要构建一个更智能的数据助手 在当前人工智能的浪潮中,大语言模型(LLM)驱动的智能体(Agent)展现了巨大的潜力。理论上,它们可以自动化执行任务、分析数据,成为我们的得力助手。但在实际开发和使用中,我们常常会遇到一个瓶颈:智能体似乎“不够聪明”,无法获取最新、最真实的数据。这篇将记录并分享如何解决这一核心痛点,通过将智能体与专业的网络数据采集服务(IPIDEA)相结合,从零到一构建一个真正具备全网数据洞察能力的“AI数据分析师”。 第一章 为何我们的智能体“不够聪明” 在着手解决问题之前,首先需要清晰地界定问题本身。智能体在数据获取层面的“不聪明”主要源于两个相互关联的障碍:大模型自身的局限性和传统网络数据抓取的技术壁垒。 1.1 大模型的数据滞后与“幻觉”痛点 大语言模型的能力根植于其庞大的训练数据。然而,这些数据并非实时更新的。绝大多数模型的知识都存在一个“截止日期”,它们无法知晓在该日期之后发生的新闻、发布的财报、变化的商品价格或网络热点。当我们向智能体询问这些实时性要求高的问题时,它可能会坦白自己的知识局限,或者更糟糕地,它会根据已有的模式“

By Ne0inhk

AI如何助力六花直装V8.3.9的自动化开发与测试

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 输入框内输入如下内容: 使用AI模型分析六花直装V8.3.9的更新日志,自动生成代码补丁和测试用例。输入更新内容描述,AI自动识别关键功能点并生成对应的代码修改建议,包括新增模块的代码框架、API接口调整等。同时,AI可以生成自动化测试脚本,验证新功能的稳定性和兼容性。支持多种编程语言和测试框架,适用于快速迭代开发。 1. 点击'项目生成'按钮,等待项目生成完整后预览效果 AI如何助力六花直装V8.3.9的自动化开发与测试 最近在跟进六花直装V8.3.9版本的开发过程中,我发现AI辅助开发工具确实能大幅提升效率。特别是对于这种需要频繁迭代更新的项目,从代码生成到测试验证,AI都能提供很好的支持。下面分享下我的实际体验。 1. 更新日志的智能分析 每次版本更新都会有详细的更新日志,但人工阅读和分析这些内容需要花费不少时间。通过AI工具,可以快速提取关键功能点和修改内容。比如输入&

By Ne0inhk
Claude Code 完全指南:Anthropic 最强 AI 编程助手深度解析

Claude Code 完全指南:Anthropic 最强 AI 编程助手深度解析

作者说明: 本文写于 2026 年 3 月 15 日,基于 Claude Code 当前最新版本 v2.1.76(2026-03-14)整理,适合希望系统了解和上手 Claude Code 的开发者阅读。 一、Claude Code 是什么?从何而来? 1.1 一句话定义 Claude Code 是 Anthropic 出品的一款以终端(Terminal)为核心的 AI 编程代理工具。它不是一个普通的聊天式代码补全插件,而是一个能够理解你的整个代码库、自主执行复杂任务、跨文件修改代码、调用系统命令、甚至自动提交 PR 的"AI 程序员"

By Ne0inhk