Llama-Factory是否支持增量训练？可通过加载检查点实现

优质文章学习记录

11 Apr 2026 — 9 min read

Llama-Factory 是否支持增量训练？从检查点恢复的完整实践解析

在大模型微调日益普及的今天，一个看似简单却极为关键的问题浮出水面：训练到一半断了，还能不能接着练？

这不仅是实验室里的学术问题，更是生产环境中的生死命题。一次意外重启、一次资源调度中断，可能意味着几十小时的GPU算力付诸东流。尤其是在中小团队缺乏高可用训练集群的情况下，能否“续上”之前的进度，直接决定了项目是否可行。

幸运的是，Llama-Factory 给出了肯定的答案——它不仅支持增量训练，而且实现得相当成熟。通过加载检查点（checkpoint），你可以像打开未保存的文档一样，无缝恢复训练状态。但这背后究竟如何运作？实际使用中又有哪些坑需要避开？我们来深入拆解。

增量训练的本质：不只是“加载权重”那么简单

很多人误以为“继续训练”就是把模型权重读回来再跑几个epoch。但真实的训练状态远比这复杂得多。

想象一下你在跑步机上跑了5公里，突然停电。恢复供电后，机器如果只记得你跑了5公里，却不记得你的心率、配速和当前速度，那重新开始时只能从零加速——这不是“继续”，而是“重来”。

同理，在深度学习中，真正的“继续训练”必须恢复以下四项核心状态：

模型参数：包括主干网络和LoRA适配器的权重；
优化器状态：如AdamW中的动量（momentum）和方差（variance），它们直接影响梯度更新方向；
学习率调度器：当前处于warmup阶段还是衰减期？
数据采样位置：避免重复训练或跳过样本。

而 Llama-Factory 正是基于 Hugging Face Transformers 的 Trainer 框架，完整地实现了这四者的持久化与重建。当你指定 --resume_from_checkpoint 时，系统会自动查找并加载对应目录下的所有必要文件，确保训练过程平滑衔接。

检查点长什么样？一探究竟

当 Llama-Factory 完成一次检查点保存时，你会看到类似这样的结构：

checkpoint-500/ ├── config.json ├── pytorch_model.bin # 或 adapter_model.bin（LoRA） ├── optimizer.pt ├── scheduler.pt ├── trainer_state.json ├── training_args.bin └── rng_state.pth

其中最关键的几个文件分别是：

trainer_state.json：记录了 global_step=500、已完成的 epoch 数、最后一步 loss 等元信息；
optimizer.pt：保存了每个可训练参数对应的动量和方差张量；
scheduler.pt：学习率调度器的状态，比如余弦退火进行到了第几步；
rng_state.pth：随机数生成器状态，保证数据打乱顺序一致，提升实验可复现性。

正是这些细节的存在，使得 Llama-Factory 能够做到“断点不丢步”。哪怕你在 step 499 被打断，重启后也会从 step 500 继续，不会多也不会少。

如何真正用好这个功能？实战建议

✅ 推荐做法一：命令行精准控制

最直接的方式是通过 CLI 显式指定检查点路径：

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \ --stage sft \ --model_name_or_path /path/to/base/model \ --do_train \ --dataset my_dataset \ --output_dir ./output \ --resume_from_checkpoint ./output/checkpoint-500 \ --per_device_train_batch_size 4 \ --gradient_accumulation_steps 8 \ --learning_rate 5e-5 \ --num_train_epochs 3.0 \ --save_steps 500 \ --logging_steps 10 \ --plot_loss

注意这里的关键参数是 --resume_from_checkpoint，而不是依赖自动检测。显式声明能避免因输出目录混乱导致恢复错误。

如果你希望让系统自动找最后一个检查点，也可以设置为 --resume_from_checkpoint true，但前提是输出目录清晰且无干扰子目录。

✅ 推荐做法二：WebUI 图形化操作

对于非技术用户或快速验证场景，Llama-Factory 提供的 WebUI 更加友好：

打开训练设置面板；
勾选“继续训练”选项；
在弹出的路径选择器中定位到目标检查点（如 ./output/checkpoint-500）；
启动训练，前端将自动生成等效命令并提交任务。

这种方式降低了使用门槛，尤其适合多人协作环境中新手快速上手。

⚠️ 必须警惕的陷阱

尽管机制完善，但在实践中仍有不少“雷区”：

❌ 配置不一致导致崩溃

最常见的问题是：换了 batch size 或 max_length 却没改配置。

例如原始训练用的是 max_length=1024，恢复时改为 2048，会导致输入维度不匹配，加载权重时报错：

RuntimeError: shape '...' is invalid for input of size '...'

🔔 建议：一旦开始训练，除非明确知道后果，否则不要变更 tokenizer、序列长度、模型结构等基础配置。

❌ LoRA 参数变更引发加载失败

使用 LoRA 微调时，若恢复训练前修改了 lora_rank（r）、lora_alpha 或 target_modules，即使模型结构兼容，适配器权重也无法正确绑定。

比如原来只对 q_proj,v_proj 添加 LoRA，现在新增 k_proj，系统会找不到新层的权重，报错如下：

Weights of XXX not initialized from pretrained model

🔔 建议：调整 LoRA 配置应视为“新实验”，不应复用旧检查点。

❌ 分布式训练路径不同步

在多卡或多节点训练中，若各 GPU 没有共享统一存储路径（如 NFS），可能出现部分节点写入失败或读取延迟，导致检查点损坏。

此外，使用 FSDP 或 DDP 时切换单卡训练也需格外小心，并行策略变化会影响状态字典格式。

🔔 建议：跨设备恢复前，确认分布式配置一致；优先在相同环境下恢复。

工程价值：不止于“别从头再来”

增量训练的意义远超“防断电”本身。它实际上改变了整个模型迭代的工作范式。

场景1：渐进式微调（Progressive Fine-tuning）

假设你要构建一个医疗问答助手，数据来源分为三批：
- 第一批：公开医学QA对（1万条）
- 第二批：医院合作提供的真实问诊记录（5千条）
- 第三批：专家标注的疑难病例（1千条）

你可以这样操作：

先用第一批数据训练至 checkpoint-1000；
加载该检查点，继续在第二批数据上训练；
再以此为基础精调第三批高价值数据。

这种“分阶段注入知识”的方式，既能防止小规模高质量数据被淹没，又能充分利用已有成果。

场景2：超参搜索效率翻倍

传统做法是“训练→评估→失败→换参数重训”，每轮都要从头开始。而现在你可以：

训练到中间检查点（如 step 500）暂停；
从此点出发，分支出多个子实验：
- 学习率 ×0.5
- weight decay +10×
- 更换优化器
所有实验共享前500步计算，节省大量算力。

这就像是 Git 的 commit 分支机制，让你在模型训练中也能做“版本管理”。

场景3：低资源环境下的分段训练

很多开发者受限于显存或时间窗口，无法一次性完成长周期训练。有了检查点支持后，可以：

白天运行2小时 → 保存 checkpoint；
夜间再恢复继续；
直至完成全部 epochs。

虽然总耗时更长，但极大提升了资源利用率，特别适合学生、个人开发者或云费用敏感型项目。

最佳实践指南

为了让增量训练真正可靠，以下是我们在多个项目中总结的经验法则：

实践项	建议
保存频率	设置 `save_steps` 为总步数的 1%~5%。例如预计训练10,000步，则每500步保存一次。太频繁影响性能，太稀疏则损失过多进度。
磁盘规划	使用独立 SSD 存储检查点，避免与系统盘争抢IO。QLoRA下每个检查点约几百MB，全参数微调则可达数十GB。
日志监控	配合 TensorBoard 查看 loss 曲线是否平滑连接。如果 resume 后 loss 突然飙升，可能是配置不一致。
版本归档	对关键里程碑（如首次收敛、最终模型）单独打包归档，命名如 `ckpt-step500-stable.tar.gz`，便于后期审计与部署。
清理策略	启用 `save_total_limit=3` 自动删除旧检查点，防止磁盘爆满。但务必保留最终模型副本。

结语：为什么说这是“生产级”能力？

Llama-Factory 对增量训练的支持，表面看只是一个功能点，实则是其迈向工程化、生产化的重要标志。

学术工具往往追求“一次跑通”，而工业系统必须面对现实世界的不确定性：中断、调试、协作、资源波动……只有具备完善的检查点机制，才能支撑起稳定可靠的模型研发流程。

更重要的是，它把复杂的底层逻辑封装成了简单的接口——无论是命令行还是图形界面，用户只需一个参数就能获得强大的容错能力。这种“强大且简单”的设计哲学，正是优秀开源项目的灵魂所在。

所以答案很明确：
是的，Llama-Factory 不仅支持增量训练，而且做得既稳健又易用。