【Python】【数据分析】Python 数据分析与可视化:全面指南

【Python】【数据分析】Python 数据分析与可视化:全面指南

目录

Python 是数据分析与可视化领域中最受欢迎的编程语言之一。凭借其丰富的库和工具,Python 能够帮助我们快速处理、分析数据并生成高质量的可视化图表。本文将详细介绍 Python 中的数据分析与可视化的基础知识,并结合丰富的示例和技巧,帮助读者深入理解这些概念。

1. 环境准备

在开始之前,我们需要确保安装了必要的 Python 库。常用的库包括:

  • pandas:用于数据处理和分析。
  • numpy:用于数值计算。
  • matplotlib:用于基本绘图。
  • seaborn:基于 matplotlib 的高级可视化库。
  • scikit-learn:用于机器学习模型和数据预处理。

可以使用以下命令安装这些库:

pip install pandas numpy matplotlib seaborn scikit-learn 

2. 数据处理与清洗

数据处理是数据分析的重要一步。我们将使用 pandas 来处理数据。以下是一些常用操作。

2.1 导入数据

假设我们有一个 CSV 文件 data.csv,内容如下:

NameAgeSalary
Alice3070000
Bob2548000
Carol2752000
DaveNaN60000
Eve22NaN

我们可以使用 pandas 导入这个数据:

import pandas as pd # 导入 CSV 文件 data = pd.read_csv('data.csv')print(data)

输出:

 Name Age Salary 0 Alice 30.0 70000.0 1 Bob 25.0 48000.0 2 Carol 27.0 52000.0 3 Dave NaN 60000.0 4 Eve 22.0 NaN 

2.2 数据清洗

在分析数据之前,我们需要处理缺失值和异常值。

示例:处理缺失值

# 显示缺失值print(data.isnull().sum())

输出:

Name 0 Age 1 Salary 1 dtype: int64 
# 填充缺失值 data['Age'].fillna(data['Age'].mean(), inplace=True)# 用平均值填充年龄 data['Salary'].fillna(data['Salary'].median(), inplace=True)# 用中位数填充工资print(data)

输出:

 Name Age Salary 0 Alice 30.0 70000.0 1 Bob 25.0 48000.0 2 Carol 27.0 52000.0 3 Dave 26.0 60000.0 4 Eve 22.0 56000.0 

示例:处理异常值

# 识别异常值 q1 = data['Salary'].quantile(0.25) q3 = data['Salary'].quantile(0.75) iqr = q3 - q1 # 确定异常值 outliers = data[(data['Salary']<(q1 -1.5* iqr))|(data['Salary']>(q3 +1.5* iqr))]print("异常值:\n", outliers)# 移除异常值 data = data[~data['Salary'].isin(outliers['Salary'])]

输出:

异常值: Empty DataFrame Columns: [Name, Age, Salary] Index: [] 

2.3 数据转换

数据转换可以帮助我们将数据调整为适合分析的格式。例如,我们可能需要将某些列的数据类型转换为适当的格式。

# 将年龄转换为整数类型 data['Age']= data['Age'].astype(int)

3. 数据分析

数据分析可以帮助我们发现数据中的趋势和模式。我们可以使用 pandas 的一些函数进行基本的统计分析。

3.1 描述性统计

# 获取数据的基本统计信息 statistics = data.describe()print(statistics)

输出:

 Age Salary count 5.000000 5.000000 mean 26.000000 57200.000000 std 2.915476 8438.009244 min 22.000000 48000.000000 25% 25.000000 52000.000000 50% 26.000000 56000.000000 75% 27.000000 60000.000000 max 30.000000 70000.000000 

3.2 分组分析

根据不同条件进行分组,并计算相关统计量。

示例:按年龄分组计算工资的平均值

# 按年龄分组并计算工资的平均值 grouped_data = data.groupby('Age')['Salary'].mean().reset_index()print(grouped_data)

输出:

 Age Salary 0 22 56000.0 1 25 48000.0 2 26 60000.0 3 27 52000.0 4 30 70000.0 

3.3 时间序列分析

如果我们的数据包含时间戳,可以进行时间序列分析。这在销售数据、股票市场等领域特别有用。

# 假设有一个包含日期的 DataFrame data['Date']= pd.date_range(start='1/1/2020', periods=len(data), freq='M')# 设置日期为索引 data.set_index('Date', inplace=True)# 按月汇总数据 monthly_data = data.resample('M').sum()print(monthly_data)

输出:

 Name Age Salary Date 2020-01-31 Alice 30 70000.0 2020-02-29 Bob 25 48000.0 2020-03-31 Carol 27 52000.0 2020-04-30 Dave 26 60000.0 2020-05-31 Eve 22 56000.0 

4. 数据可视化

数据可视化能够直观展示数据分析的结果。我们将使用 matplotlibseaborn 创建各种图表。

4.1 基本绘图

示例:柱状图

import matplotlib.pyplot as plt # 绘制柱状图 plt.figure(figsize=(10,6)) plt.bar(data['Name'], data['Salary'], color='skyblue') plt.title('Salary by Name') plt.xlabel('Name') plt.ylabel('Salary') plt.show()

输出:

在这里插入图片描述

4.2 使用 Seaborn 绘制图表

Seaborn 提供了更美观的图表样式。

示例:箱型图

import seaborn as sns # 绘制箱型图 plt.figure(figsize=(10,6)) sns.boxplot(x='Age', y='Salary', data=data) plt.title('Salary Distribution by Age') plt.show()

输出:

在这里插入图片描述

4.3 高级可视化技巧

除了基本的图表,您还可以利用 matplotlibseaborn 的高级特性来创建复杂的可视化效果。

示例:热力图

# 计算相关性矩阵,只包括数值列 correlation_matrix = data[['Age','Salary']].corr()print(correlation_matrix)

输出:

 Age Salary Age 1.000000 0.609736 Salary 0.609736 1.000000 
# 创建热力图来查看相关性 plt.figure(figsize=(10,6)) sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm') plt.title('Correlation Heatmap') plt.show()

输出:

在这里插入图片描述

5. 案例研究

为了更好地理解数据分析与可视化的实际应用,让我们考虑一个具体的案例。

案例:销售数据分析

假设我们有一个销售数据集,包含以下列:

  • OrderID:订单编号
  • Product:产品名称
  • Quantity:购买数量
  • Price:单价
  • Date:订单日期

步骤 1:数据导入与预处理

sales_data = pd.read_csv('sales_data.csv')# 检查缺失值 sales_data.isnull().sum()# 填充缺失值 sales_data['Quantity'].fillna(0, inplace=True) sales_data['Price'].fillna(sales_data['Price'].median(), inplace=True)

步骤 2:数据分析

计算每个产品的总销售额和销量:

sales_data['TotalSales']= sales_data['Quantity']* sales_data['Price'] product_sales = sales_data.groupby('Product')['TotalSales'].sum().reset_index()

步骤 3:数据可视化

plt.figure(figsize=(12,6)) sns.barplot(x='Product', y='TotalSales', data=product_sales) plt.title('Total Sales by Product') plt.xticks(rotation=45) plt.show()

以下是完整的示例代码,包含数据生成、预处理、分析和可视化步骤:

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 1. 生成示例销售数据 data ={'OrderID':range(1,11),'Product':['A','B','C','A','B','C','A','B','C','A'],'Quantity':[5,2,0,3,1,4,6,7,0,2],'Price':[10.0,20.0,15.0,10.0,20.0,15.0,10.0,20.0,15.0,10.0],'Date': pd.date_range(start='2023-01-01', periods=10, freq='D')} sales_data = pd.DataFrame(data)# 2. 数据预处理# 检查缺失值print(sales_data.isnull().sum())# 填充缺失值(若有) sales_data['Quantity'].fillna(0, inplace=True) sales_data['Price'].fillna(sales_data['Price'].median(), inplace=True)# 3. 计算总销售额 sales_data['TotalSales']= sales_data['Quantity']* sales_data['Price']# 4. 按产品分组计算总销售额 product_sales = sales_data.groupby('Product')['TotalSales'].sum().reset_index()# 5. 数据可视化 plt.figure(figsize=(10,6)) sns.barplot(x='Product', y='TotalSales', data=product_sales) plt.title('Total Sales by Product') plt.xlabel('Product') plt.ylabel('Total Sales ($)') plt.xticks(rotation=45) plt.show()

说明:

  1. 数据生成:我们生成了包含10条记录的示例销售数据,包括订单编号、产品名称、购买数量、单价和订单日期。
  2. 数据预处理:检查并填充缺失值(本示例中未实际出现缺失值,但提供了填充示例)。
  3. 总销售额计算:通过乘以数量和单价计算每个订单的总销售额。
  4. 分组汇总:按 Product 列进行分组,并计算每种产品的总销售额。
  5. 数据可视化:使用 seaborn 创建柱状图,展示各产品的总销售额。

输出:

OrderID 0 Product 0 Quantity 0 Price 0 Date 0 dtype: int64 
在这里插入图片描述

总结

通过上述步骤,我们演示了如何使用 Python 进行数据分析与可视化。关键步骤包括数据处理、分析和可视化。我们使用 pandas 进行数据清洗与分析,使用 matplotlibseaborn 进行可视化,展示了不同的图表和分析结果。

在实际应用中,数据分析与可视化是一个迭代的过程,您可以根据需求不断调整和优化。希望这篇博客能为您提供一个清晰的入门指南,助力您在数据分析与可视化的旅程中不断前行!如果有任何问题或建议,欢迎在评论区讨论!


Read more

终极对决!文心一言 vs 通义千问 vs Kimi vs 豆包,四大国产巨头正面硬刚,技术、性能、生态全方位拆解!

写在前面 上周我们对比了一下目前最流行的AI工具,不过三款工具都是国外的,对于国内用户来说,有些需要一些魔法才能访问,终究是有些不便。最近身边越来越多人问我:国产AI到底选哪个?文心一言、通义千问、Kimi、豆包……看着都差不多,但用起来又各有千秋。 说实话,我自己也是这四款都在用。文心一言帮我写文案,Kimi帮我整理资料,豆包拿来写代码等。 有个挺有意思的消息:苹果在中国选了通义千问和文心一言做合作伙伴,要把它们整合进 Siri。虽然不知道能整合成啥样,但至少说明国产AI这两年确实长进不少。 这篇文章我会从实际使用感受出发,聊聊这四款工具到底怎么样、适合什么场景,顺便吐槽一下各自的坑。毕竟用AI嘛,最重要的是找到适合自己的那一款。 一、四大主流AI大模型概览 文心一言 4.0(百度) 先说文心一言,这是我用得最早的国产AI。最大的感受就是文笔确实好,写出来的东西有点"文绉绉"的味道,特别适合写公众号文章、营销文案这类需要点文采的内容。 百度把自家搜索引擎接进去了,所以查实时信息还挺方便。支持128K的上下文,

By Ne0inhk
Copilot、Codeium 软件开发领域的代表性工具背后的技术

Copilot、Codeium 软件开发领域的代表性工具背后的技术

早期, Claude、Copilot、Codeium新兴的AI代码助手,模型的温度、切片的效果、检索方式、提示词的约束、AI 回复的约束、最终数据处理;整个环节,任何一个地方都可能造成最终效果不理想。 旨在通过代码生成、代码补全、代码解释和调试等多种功能,帮助开发者减少重复劳动,提高开发效率。尽管Codeium已经取得了显著的成果,但在处理复杂的代码任务、跨文件的修改以及支持定制化库和框架方面仍面临一定的局限性。 2020 年,OpenAI发布的GPT-3模型使AI生成代码的能力得以广泛应用,标志着AI代码助手的转型。2021年,GitHub 推出基于OpenAI Codex的 Copilot,提供实时代码补全和生成能力,提升开发效率,支持跨文件复杂任务。 其痛点,在大规模代码生成、跨文件任务处理以及定制化框架支持方面的局限性仍然限制了其在复杂项目中的应用。 2023年,Claude 3.5等新一代大型语言模型陆续出世,有效提升了自然语言理解与代码生成的能力。这类模型集成了代码生成、调试和文档自动生成等多项功能,能够帮助开发者快速编写高质量代码、优化程序性能并自动修复错误。随着

By Ne0inhk
【混元AIGC+腾讯云智能体+首创Coze核心流思维导图MCP】:打造一个文思通-智能写作助手Agent

【混元AIGC+腾讯云智能体+首创Coze核心流思维导图MCP】:打造一个文思通-智能写作助手Agent

【混元AIGC+腾讯云智能体+首创Coze核心流思维导图MCP】:打造一个文思通-智能写作助手Agent 1.背景 作为一名长期关注人工智能发展的内容创作者,我经常需要撰写关于AI技术、应用趋势和产品体验的文章。然而,在实际写作过程中,常常会遇到灵感枯竭、结构混乱、表达不够精准等问题。有时候写到一半才发现逻辑断层,或者内容重复,甚至忘记了一些关键知识点。 为了解决这些痛点,我决定打造一个专属于自己的智能写作助手,取名为“文思通”——寓意“文思如泉涌,条理通达”。这个助手不仅要能帮我生成内容,更要具备结构化思维引导、逻辑梳理和语言润色的能力。 最近,我接触到一种创新的工具组合:以 Coze 平台为核心逻辑流,结合自研的思维导图 MCP 服务,可以实现从文本到可视化思维导图的自动转换。这正好解决了我在构思阶段缺乏条理的问题。而选择开发平台时,我注意到腾讯云智能体开发平台与腾讯混元大模型(Hunyuan AIGC) 的深度整合能力非常出色,支持工作流编排、插件扩展(MCP),并且提供稳定高效的推理服务。 最终,我决定采用“混元AIGC + 腾讯云智能体平台

By Ne0inhk

彻底关闭Win10中烦人的365 Copilot弹窗的6种方法

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 点击'项目生成'按钮,等待项目生成完整后预览效果 输入框输入如下内容 帮我开发一个Windows系统优化小工具,用于帮助普通用户一键禁用各类系统弹窗和推送功能。系统交互细节:1.提供常见弹窗类型选择 2.显示当前系统状态 3.一键禁用功能 4.支持恢复默认设置。注意事项:需要管理员权限运行 最近很多Win10用户在系统升级后都遇到了Microsoft 365 Copilot频繁弹窗的问题,这个功能虽然智能,但频繁的打扰确实影响工作效率。经过实测,我总结了6种有效的关闭方法,从简单隐藏到彻底禁用一应俱全。 1. 任务栏临时隐藏是最简单的解决方案,只需右键任务栏取消勾选相关选项。但这个方法只是隐藏入口,Copilot功能仍在后台运行。 2. 组策略彻底禁用是最推荐的方式,通过系统内置的组策略编辑器可以完全关闭Copilot。操作时需要管理员权限,设置完成后需要重启生效。这个方法禁用后连快捷键都会失效,

By Ne0inhk