LLaMA-Factory 全流程模型训练指南

在 Docker 环境下使用 LLaMA-Factory 进行大模型微调的全流程。内容包括构建 Docker 容器、安装 CUDA 驱动与 Python 环境、部署 LLaMA-Factory 框架、下载 Qwen 模型、配置训练参数、执行微调训练以及后续的模型评估与推理测试。通过命令行操作与配置文件管理，实现了从环境搭建到模型应用落地的完整闭环。

PentesterX发布于 2026/4/6更新于 2026/4/1712 浏览

LLaMA-Factory 全流程模型训练指南

本文主要讲述在 Docker 环境下使用 LLaMA-Factory 进行模型的训练与推理。

拉取镜像

启动 Docker，在终端中输入以下命令：

docker run -tid --gpus all -p 8000:8000 --name LLM -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all --privileged=true ubuntu:20.04

该命令启动了一个 Ubuntu 20.04 容器，使用所有可用的 GPU，并将主机 8000 端口映射到容器 8000 端口。

进入容器

docker exec -it LLM /bin/bash

安装 CUDA 驱动

仅映射 GPU 到 Docker 中是不够的，还需要安装驱动。

wget https://developer.download.nvidia.com/compute/cuda/12.6.2/local_installers/cuda_12.6.2_560.35.03_linux.run
sh cuda_12.6.2_560.35.03_linux.run

按照指引默认安装即可。安装后检查环境变量是否包含 CUDA bin 路径：

ls /usr/local/ | grep cuda
nvcc -V

如果提示 command not found，需编辑环境变量 ~/.bashrc 并添加以下内容：

export PATH=/usr/local/cuda-12.6/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64:$LD_LIBRARY_PATH
source ~/.bashrc

安装 Python

Docker 拉取的 Ubuntu 20.04 未预装 Python，需手动编译安装。

wget https://www.python.org/ftp/python/3.10.6/Python-3.10.6.tgz
tar -zxvf Python-3.10.6.tgz
cd Python-3.10.6
sudo ./configure
sudo make
sudo make test
sudo make install

安装 LLaMA-Factory

克隆仓库

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

如果使用昇腾 NPU，需先设置环境变量：

 ASCEND_HOME_PATH=/usr/local/Ascend/ascend-toolkit/latest

LLaMA-Factory 全流程模型训练指南

LLaMA-Factory 全流程模型训练指南

拉取镜像

进入容器

安装 CUDA 驱动

安装 Python

安装 LLaMA-Factory

克隆仓库

更多推荐文章

相关免费在线工具

下载模型

配置微调文件

开始微调训练

加载模型对话

评估与推理

LLaMA-Factory 全流程模型训练指南

LLaMA-Factory 全流程模型训练指南

拉取镜像

进入容器

安装 CUDA 驱动

安装 Python

安装 LLaMA-Factory

克隆仓库

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

下载模型

配置微调文件

开始微调训练

加载模型对话

评估与推理