Python 数据分析实战指南：从数据清洗到可视化报告

Python 数据分析实战指南：从数据清洗到可视化报告 | 极客日志

# 安装所需库
pip install pandas matplotlib seaborn plotly geopandas

import pandas as pd
df = pd.read_csv('sales_data.csv')
print(df.head())

# 填充缺失值
df['price'].fillna(0, inplace=True)
# 删除重复行
df.drop_duplicates(inplace=True)
# 转换日期格式
df['date'] = pd.to_datetime(df['date'])
# 检查数据类型
print(df.info())

# 分组聚合
grouped = df.groupby('category')['sales'].mean()
# 计算占比
df['ratio'] = df['sales'] / df['sales'].sum()
# 滚动平均
df['3day_avg'] = df['sales'].rolling(window=3).mean()

import matplotlib.pyplot as plt
plt.figure(figsize=(12, 6))
plt.plot(df['date'], df['sales'], marker='o')
plt.title('每日销售额趋势')
plt.xlabel('日期')
plt.ylabel('销售额')
plt.grid(True)
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('sales_trend.png')
plt.show()

import seaborn as sns
# 分布图
sns.histplot(df['sales'], kde=True)
plt.title('销售额分布')
plt.show()
# 箱线图
plt.figure(figsize=(10, 6))
sns.boxplot(x='category', y='sales', data=df)
plt.title('不同类别销售额对比')
plt.show()
# 热力图
corr = df.corr()
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.show()

plt.figure(figsize=(15, 10))
plt.subplot(2, 1, 1)
sns.lineplot(x='date', y='sales', data=df)
plt.title('每日销售额趋势')
plt.subplot(2, 1, 2)
df.groupby('category')['sales'].sum().plot(kind='pie', autopct='%1.1f%%')
plt.title('品类销售占比')
plt.tight_layout()
plt.savefig('analysis_report.png')
plt.show()

import plotly.express as px
fig = px.line(df, x='date', y='sales', color='category', title='交互式销售额趋势')
fig.update_layout(xaxis_title='日期', yaxis_title='销售额')
fig.show()

import geopandas as gpd
world = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres'))
world['gdp_per_capita'] = world['gdp_md_est'] / world['pop_est']
world.plot(column='gdp_per_capita', cmap='OrRd', legend=True, figsize=(12, 8))
plt.title('各国人均 GDP')
plt.show()

df = pd.read_excel('orders.xlsx')
df['order_date'] = pd.to_datetime(df['order_date'])
df['order_hour'] = df['order_date'].dt.hour
df = df[df['amount'] > 0]

# 每日销售额趋势
daily_sales = df.resample('D', on='order_date')['amount'].sum()
# 品类销售占比
category_sales = df.groupby('category')['amount'].sum().sort_values(ascending=False)
# 用户购买频次
user_frequency = df.groupby('user_id').size().value_counts().sort_index()

plt.figure(figsize=(15, 12))
plt.subplot(3, 1, 1)
daily_sales.plot(marker='o')
plt.title('每日销售额趋势')
plt.subplot(3, 1, 2)
category_sales.plot(kind='pie', autopct='%1.1f%%', startangle=90)
plt.title('品类销售占比')
plt.subplot(3, 1, 3)
user_frequency.plot(kind='bar')
plt.title('用户购买频次分布')
plt.xlabel('购买次数')
plt.ylabel('用户数')
plt.tight_layout()
plt.savefig('ecommerce_report.png')
plt.show()

问题	错误做法	正确做法	原因
中文显示乱码	`plt.title('销售额')`	`plt.rcParams['font.sans-serif'] = ['SimHei']`	Matplotlib 默认不支持中文
图表不显示	缺少 `plt.show()`	必须加 `plt.show()`	Jupyter 需显式显示
数据类型错误	`df['date'] = '2023-01-01'`	`df['date'] = pd.to_datetime(df['date'])`	日期需转为 datetime 类型
画图太小	`plt.figure()`	`plt.figure(figsize=(12,6))`	需设置合适尺寸
缺失值处理不当	`df.dropna()`	`df.dropna(subset=['amount'])`	仅删除关键列缺失值

Python 数据分析实战指南：从数据清洗到可视化报告

Python 数据分析实战指南：从数据清洗到出报告

一、为什么使用 Python 进行数据分析

二、环境准备与工具安装

三、Pandas 数据处理

1. 读取数据

2. 数据清洗

3. 数据分析

四、数据可视化

1. Matplotlib 基础

2. Seaborn 高级可视化

3. 组合图表

五、进阶技巧

1. 交互式图表 (Plotly)

2. 地理可视化

六、实战案例：电商数据分析

步骤 1：加载并清洗数据

步骤 2：核心分析

步骤 3：生成可视化报告

七、常见问题与解决方案

八、总结

更多推荐文章

相关免费在线工具

Python 数据分析实战指南：从数据清洗到可视化报告

Python 数据分析实战指南：从数据清洗到出报告

一、为什么使用 Python 进行数据分析

二、环境准备与工具安装

三、Pandas 数据处理

1. 读取数据

2. 数据清洗

3. 数据分析

四、数据可视化

1. Matplotlib 基础

2. Seaborn 高级可视化

3. 组合图表

五、进阶技巧

1. 交互式图表 (Plotly)

2. 地理可视化

六、实战案例：电商数据分析

步骤 1：加载并清洗数据

步骤 2：核心分析

步骤 3：生成可视化报告

七、常见问题与解决方案

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具