【Python】家庭用电数据分析Prophet预测

Ne0inhk

15 Mar 2026 — 7 min read

数据集：Household Electricity Consumption | Kaggle

数据集简介

240000-household-electricity-consumption-records数据集包含了一个家庭6个月的用电数据，收集于2007年1月至2007年6月。这些数据包括全球有功功率、全球无功功率、电压、全球强度、分项计量1（厨房）、分项计量2（洗衣房）和分项计量3（电热水器和空调）等信息。该数据集共有260,640个测量值。

列名	说明
Date	日期
Time	时间
Globalactivepower	该家庭所消耗的总有功功率（千瓦）
Globalreactivepower	该家庭消耗的总无功功率（千瓦）
Voltage	向家庭输送电力的电压（伏特）
Global_intensity	输送到家庭的平均电流强度（安培）
Submetering1	厨房消耗的有功功率（千瓦）
Submetering2	洗衣房所消耗的有功功率（千瓦）
Submetering3	电热水器和空调所消耗的有功功率（千瓦）

探索性分析

导入数据集并读取头部

import numpy as np import pandas as pd import matplotlib.pyplot as plt data_path = "./household_power_consumption.csv" df = pd.read_csv(data_path,index_col='index') df.head()

面向特定客户时可将列名替换为中文

# # 将列名替换为中文 # df.rename(columns={ # 'Date': '日期', # 'Time': '时间', # 'Global_active_power': '有功功率', # 'Global_reactive_power': '无功功率', # 'Voltage': '电压', # 'Global_intensity': '电流', # 'Sub_metering_1': '厨房的有功功率', # 'Sub_metering_2': '洗衣房的有功功率', # 'Sub_metering_3': '电热水器和空调的有功功率', # },inplace=1) # # 再次预览前5行数据 # df.head()

对DataFrame 中的数值列进行统计

df.describe()

查看DataFrame中各列的数据类型

df.dtypes

转换数据格式

from tqdm.auto import tqdm from ipywidgets import HBox, FloatProgress, HTML # 将'Date'列转换为日期时间格式 df['Date']=pd.DatetimeIndex(df['Date']) # 定义需要转换为数字的列 make_em_num = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3'] # 定义一个函数，将字符串转换为浮点数，如果转换失败则返回0 def floating(string): try: return float(string) except: return float(0) # 遍历需要转换为数字的列 for column in tqdm(make_em_num): # 将列中的每个元素应用floating函数，转换为浮点数 df[column] = df[column].apply(lambda item: floating(item)) # 创建一个水平布局，包含一个浮点进度条和一个HTML元素 HBox(children=(FloatProgress(value=0.0, max=7.0), HTML(value='')))

查看转换效果，转换后的数据类型

df.dtypes

查看转换效果，转换后的数据头部

df.head()

绘制相关系数热力图。使用Seaborn库中的heatmap函数来绘制一个热力图,展示数据框df中各列之间的相关性

df.drop表示删除名为index、Date和Time的列。axis=1表示按列删除。
annot=True，使得热力图上显示相关系数的具体数值。

import seaborn as sns sns.heatmap(df.drop(['Date','Time'], axis=1).corr(), annot=True)

Prophet预测

https://github.com/facebook/prophet

Prophet是一种基于可加性模型预测时间序列数据的程序，其中非线性趋势可以按年度、每周和每日的季节性，以及假日效应进行拟合。它最适合于具有强烈季节效应的时间序列和有几个季节的历史数据。Prophet对于缺失的数据和趋势的变化是稳健的，并且通常能够很好地处理异常值。

获取DataFrame的形状

from prophet import Prophet df.shape

通过 Prophet 对有功功率和电压进行预测

# 从数据框中随机抽取10000行 df=df.sample(n=10000) # 定义一个函数，用于使用Prophet模型进行预测 def prophet_forecaster(data, x, y, period=100): # 创建一个新的数据框，包含日期和目标变量 new_df = pd.DataFrame(columns=['ds', 'y']) new_df['ds']= data[x] new_df['y'] = data[y] # 创建一个Prophet模型 model = Prophet() # 使用新的数据框进行模型训练 model.fit(new_df) # 创建未来日期的数据框 future_dates = model.make_future_dataframe(periods=period) # 使用模型进行预测 forecast = model.predict(future_dates) # 绘制预测结果 model.plot(forecast) # 设置图表标题 plt.title(f"Forecasting on the next {period} days for {y}") # 使用Prophet模型对Global_active_power进行预测 prophet_forecaster(df, x='Date', y='Global_active_power', period=180) # 使用Prophet模型对Global_reactive_power进行预测 prophet_forecaster(df, x='Date', y='Global_reactive_power', period=180) # 使用Prophet模型对Voltage进行预测 prophet_forecaster(df, x='Date', y='Voltage', period=180) # 使用Prophet模型对Global_intensity进行预测 prophet_forecaster(df, x='Date', y='Global_intensity', period=180)

未来半年有功功率预测结果：

未来半年无功功率预测结果

未来半年电压预测结果：

未来半年电流预测结果

Prophet模型

g(t) 表示趋势函数，能够拟合非周期性变化；
s(s)表示周期性变化，例如每周，每年，每季节等；
h(t)表示假期变化，节假日通常为一天或多天；
ϵt为噪声项，表示随机无法预测的波动，通常假设ϵt是高斯的。

Prophet理念

趋势中有两个增长函数，分别是分段线性函数（linear）和非线性逻辑回归函数（logistic）。通过从数据中选择变化点，Prophet自动探测趋势变化；
使用傅里叶级数建模每年的季节分量；
使用虚变量代表过去，将来的相同节假日，属于节假日就为1，不属于就是0;
用户提供的重要节假日列表
Modeling：建立时间序列模型。分析师根据预测问题的背景选择一个合适的模型。
Forecast Evaluation：模型评估。根据模型对历史数据进行仿真，在模型的参数不确定的情况下，我们可以进行多种尝试，并根据对应的仿真效果评估哪种模型更适合。
Surface Problems：呈现问题。如果尝试了多种参数后，模型的整体表现依然不理想，这个时候可以将误差较大的潜在原因呈现给分析师。
Visually Inspect Forecasts：以可视化的方式反馈整个预测结果。当问题反馈给分析师后，分析师考虑是否进一步调整和构建模型。

Prophet优点

准确，快速，高效率地拟合，可以针对所需关键数据进行交互式探索
集成全自动流程，无需人工操作就能对混乱的数据做出合理的预测
可调整的预测，预测模型的参数非常容易解释，可用业务知识改进或调整预测
对缺失值和变化剧烈的时间序列和离散值有很好的鲁棒性，不需要填补缺失值；

“裸奔龙虾”数量已达27万只，业内人士警告；AI浪潮下，中传“砍掉”翻译等16个专业；薪资谈判破裂，三星电子8.9万人要罢工 | 极客头条

「极客头条」—— 技术人员的新闻圈！ ZEEKLOG 的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。（投稿或寻求报道：[email protected]）整理 | 郑丽媛出品 | ZEEKLOG（ID：ZEEKLOGnews）一分钟速览新闻点！ * “裸奔龙虾”已高达27万只！业内人士警告：一旦黑客入侵，敏感信息一秒搬空 * 阿里云 CTO 周靖人代管千问模型一号位，刘大一恒管理更多团队 * 中国传媒大学砍掉翻译、摄影等 16 个本科专业，直言教育要面向人机分工时代 * 雷军放话：小米将很快推出 L3、L4 的驾驶 * 消息称原理想汽车智驾一号位郎咸朋具身智能赛道创业 * vivo 前产品经理宋紫薇创业，瞄准 AI 时尚Agent，获亿元融资 * MiniMax 发布龙虾新技能，股价暴涨超 23% * 薪资谈判破裂，三星电子

Python热度下滑、AI能取代搜索引擎？TIOBE最新榜单揭晓！

整理 | 屠敏出品 | ZEEKLOG（ID：ZEEKLOGnews）日前，TIOBE 发布了最新的 3 月编程语言榜单。整体来看，本月排名变化不算大，但榜单中仍然出现了一些值得关注的小波动。 AI 工具能帮大家秒懂最新编程语言趋势？由于 2 月天数较少，3 月的榜单整体变化有限。借着这次发布，TIOBE CEO Paul Jansen 也回应了一个最近被频繁讨论的问题：为什么 TIOBE 指数仍然依赖搜索引擎统计结果？在大语言模型流行的今天，直接询问 AI 哪些编程语言最流行，是不是更简单？对此，Jansen 的回答是否定的。他解释称，TIOBE 指数本质上统计的是互联网上关于某种编程语言的网页数量。而大语言模型的训练数据同样来自这些网页内容，因此从信息来源来看，两者并没有本质区别。换句话说，LLM 的判断，本质上也是建立在这些网页数据之上的。 Python 活跃度仍在下降

一天开13个会、一个Bug要修200天！前亚马逊L7爆料：这轮大裁员，AI只是“背锅侠”

整理 | 郑丽媛出品 | ZEEKLOG（ID：ZEEKLOGnews）过去一年，大型科技公司的裁员消息几乎从未停过。但当公司对外给出的理由越来越统一，“AI 让组织更高效”，也有越来越多内部员工开始提出另一种质疑：事情或许没那么简单。最近，一段来自前亚马逊员工 Becky 的 YouTube 视频在开发者社区流传开来。她曾在亚马逊工作 7 年，其中 5 年担任 L7 级别的技术管理者，负责过团队年度规划（OP1）等核心管理工作——可去年，她主动离开了亚马逊。就在最近，她的三位前同事接连被裁，其中两人还是 H-1B 签证员工，都背着房贷压力。其中一位同事忍不住给 Becky 发消息：“你去年离开的时候，是不是已经预料到会发生这些？” 对此，Becky 的回答很坦诚：她不知道具体什么时候会裁员，但她早就感觉情况不对劲了。在她看来，这轮裁员被归因为

用 10% GPU 跑通万亿参数 RL！马骁腾拆解万亿参数大模型的后训练实战

整理 | 梦依丹出品 | ZEEKLOG（ID：ZEEKLOGnews）左手是提示词的工程化约束，右手是 Context Learning 的自我进化。在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中，反复提到了 Prompt Contracts（提示词合约）。要求开发者像编写代码一样，严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑，进而换取 AI 行为的确定性。但在现实操作中，谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”？真正的 Agent，不应只靠阅读 Context Engineering，更应该具备 Context Learning 的能力。为此，在 4 月 17-18

数据集简介

探索性分析

Prophet预测

Prophet模型

Prophet理念

Prophet优点

Read more

“裸奔龙虾”数量已达27万只，业内人士警告；AI浪潮下，中传“砍掉”翻译等16个专业；薪资谈判破裂，三星电子8.9万人要罢工 | 极客头条

Python热度下滑、AI能取代搜索引擎？TIOBE最新榜单揭晓！

一天开13个会、一个Bug要修200天！前亚马逊L7爆料：这轮大裁员，AI只是“背锅侠”

用 10% GPU 跑通万亿参数 RL！马骁腾拆解万亿参数大模型的后训练实战