Python Pandas 高效读取 Excel 文件完整指南

Python Pandas 高效读取 Excel 文件完整指南 | 极客日志

pip install pandas openpyxl xlrd

# 创建虚拟环境
python -m venv pandas-env
# 激活环境（Windows）
pandas-env\Scripts\activate
# 激活环境（Mac/Linux）
source pandas-env/bin/activate
# 安装依赖
pip install pandas openpyxl xlrd

import pandas as pd
print(f"Pandas 版本：{pd.__version__}")

import pandas as pd
# 读取 Excel 文件
df = pd.read_excel('data.xlsx')
# 查看数据基本信息
print(df.info())
# 显示前 5 行数据
print(df.head())

# 按名称选择工作表
df = pd.read_excel('data.xlsx', sheet_name='销售数据')
# 按索引选择工作表（从 0 开始）
df = pd.read_excel('data.xlsx', sheet_name=1)
# 读取多个工作表
dfs = pd.read_excel('data.xlsx', sheet_name=['表 1', '表 2'])

# 指定数据范围
df = pd.read_excel('data.xlsx', usecols='A:C', nrows=100)
# 使用行号范围
df = pd.read_excel('data.xlsx', skiprows=2, nrows=50)
# 自定义表头行
df = pd.read_excel('data.xlsx', header=2)

# 手动指定列数据类型
df = pd.read_excel('data.xlsx', dtype={ 'ID': str, '销售额': float, '日期': 'datetime64[ns]' })
# 处理日期格式
df = pd.read_excel('data.xlsx', parse_dates=['订单日期'])

# 指定缺失值标识
df = pd.read_excel('data.xlsx', na_values=['NA', '缺失', ''])
# 填充缺失值
df.fillna(method='ffill', inplace=True)

import pandas as pd
# 读取多个工作表数据
dfs = pd.read_excel('销售数据.xlsx', sheet_name=None)
# 合并所有工作表数据
all_data = pd.concat(dfs.values(), ignore_index=True)
# 数据清洗
all_data['销售日期'] = pd.to_datetime(all_data['销售日期'])
all_data['月份'] = all_data['销售日期'].dt.to_period('M')
# 月度销售汇总
monthly_sales = all_data.groupby('月份')['销售额'].sum()
print(monthly_sales)

import pandas as pd
import glob
# 获取所有 Excel 文件
file_paths = glob.glob('数据文件夹/*.xlsx')
# 批量读取并合并
dfs = []
for path in file_paths:
    df = pd.read_excel(path)
    df['来源文件'] = path.split('/')[-1] # 添加来源标识
    dfs.append(df)
combined_df = pd.concat(dfs, ignore_index=True)
combined_df.to_excel('合并结果.xlsx', index=False)

import pandas as pd
# 读取包含多种数据类型的 Excel
df = pd.read_excel('复杂数据.xlsx', parse_dates=['出生日期'], dtype={'工号': str, '部门': 'category'}, na_values=['N/A', '未知'])
# 数据转换
df['年龄'] = df['出生日期'].apply(lambda x: (pd.Timestamp.now() - x).days // 365)
df['入职年份'] = df['入职日期'].dt.year
# 按部门统计平均年龄
dept_age = df.groupby('部门')['年龄'].mean()
print(dept_age)

# 指定列数据类型
df = pd.read_excel('data.xlsx', dtype={'金额': str})
# 清洗数据后转换
df['金额'] = df['金额'].str.replace(',', '').astype(float)

# 分块读取大型文件
chunk_iter = pd.read_excel('large_file.xlsx', chunksize=10000)
for chunk in chunk_iter:
    process_chunk(chunk) # 处理每个数据块

# 指定日期列和格式
df = pd.read_excel('data.xlsx', parse_dates=['日期列'], date_parser=lambda x: pd.to_datetime(x, format='%Y年%m月%d日'))

功能特性	Pandas	openpyxl	xlrd	xlwt
读取.xlsx	✅	✅	❌	❌
读取.xls	✅	❌	✅	❌
写入 Excel	✅	✅	❌	✅
数据处理能力	强大	基础	基础	基础
内存占用	中	低	低	低
速度	快	中	快	中
易用性	高	中	中	中
依赖	openpyxl/xlrd	无	无	无

Python Pandas 高效读取 Excel 文件完整指南

Python 数据导入工具 Pandas：高效读取 Excel 文件的完整指南

工具概述

功能特性解析

环境配置指南

基础安装

虚拟环境配置

验证安装

实战操作手册

基础读取操作

工作表选择

数据范围控制

数据类型处理

缺失值处理

场景化应用案例

案例 1：销售数据月度汇总分析

案例 2：多 Excel 文件数据合并

案例 3：复杂数据类型处理

问题解决方案

常见错误及处理

1. Excel 文件读取权限问题

2. 数据类型转换错误

3. 大型 Excel 文件内存问题

4. 日期格式识别错误

工具生态对比

学习资源导航

官方文档

进阶教程

社区资源

更多推荐文章

相关免费在线工具

Python Pandas 高效读取 Excel 文件完整指南

Python 数据导入工具 Pandas：高效读取 Excel 文件的完整指南

工具概述

功能特性解析

环境配置指南

基础安装

虚拟环境配置

验证安装

实战操作手册

基础读取操作

工作表选择

数据范围控制

数据类型处理

缺失值处理

场景化应用案例

案例 1：销售数据月度汇总分析

案例 2：多 Excel 文件数据合并

案例 3：复杂数据类型处理

问题解决方案

常见错误及处理

1. Excel 文件读取权限问题

2. 数据类型转换错误

3. 大型 Excel 文件内存问题

4. 日期格式识别错误

工具生态对比

学习资源导航

官方文档

进阶教程

社区资源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具