LLaMA-Factory 全流程模型训练指南
本文主要讲述在 Docker 环境下使用 LLaMA-Factory 进行模型的训练与推理。
拉取镜像
启动 Docker,在终端中输入以下命令:
docker run -tid --gpus all -p 8000:8000 --name LLM -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all --privileged=true ubuntu:20.04
该命令启动了一个 Ubuntu 20.04 容器,使用所有可用的 GPU,并将主机 8000 端口映射到容器 8000 端口。
进入容器
docker exec -it LLM /bin/bash
安装 CUDA 驱动
仅映射 GPU 到 Docker 中是不够的,还需要安装驱动。
wget https://developer.download.nvidia.com/compute/cuda/12.6.2/local_installers/cuda_12.6.2_560.35.03_linux.run
sh cuda_12.6.2_560.35.03_linux.run
按照指引默认安装即可。安装后检查环境变量是否包含 CUDA bin 路径:
ls /usr/local/ | grep cuda
nvcc -V
如果提示 command not found,需编辑环境变量 ~/.bashrc 并添加以下内容:
export PATH=/usr/local/cuda-12.6/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64:$LD_LIBRARY_PATH
source ~/.bashrc
安装 Python
Docker 拉取的 Ubuntu 20.04 未预装 Python,需手动编译安装。
wget https://www.python.org/ftp/python/3.10.6/Python-3.10.6.tgz
tar -zxvf Python-3.10.6.tgz
cd Python-3.10.6
sudo ./configure
sudo make
sudo make test
sudo make install
安装 LLaMA-Factory
克隆仓库
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
如果使用昇腾 NPU,需先设置环境变量:
ASCEND_HOME_PATH=/usr/local/Ascend/ascend-toolkit/latest


