LLaMaFactory 基于魔搭社区免费 GPU 微调大模型实战

环境

在本地部署 LLaMA-Factory 微调平台需要较高硬件配置，可通过魔搭社区免费 GPU 环境进行替代。

首先注册魔搭社区，绑定个人阿里云账号即可，详情见：https://www.modelscope.cn/my/mynotebook；然后可免费获得 36 小时 GPU 环境。

环境配置：

CPU：8 核，负责数据的调度和预处理
内存：32GB，数据从硬盘加载后暂存于此
显存：24GB
操作系统：Ubuntu 22.04
CUDA：12.8.1，支持最新 RTX 40 系列或 H 系列显卡
Python：3.11
PyTorch：2.9.1
ModelScope：1.35.0

环境截图

安装 LLaMaFactory

克隆 llama-factory 项目，执行以下命令：

pip install -e .

若出现依赖冲突提示，为避免权限混乱，推荐使用虚拟环境（venv）。

创建虚拟环境

python -m venv llmVenv
source llmVenv/bin/activate
pip install --upgrade pip
pip install -e .
pip install -r requirements/metrics.txt

启动 WebUI：

llamafactory-cli webui

在控制台点击 http://127.0.0.1:7860 完成浏览器访问。

模型选择

模型分类和区别

此处选中模型 Qwen3-4B-Base，系统弹出告警提示。这是因为【Base】表示基座模型，而非经过指令微调【Instruct】的模型。

Base：基座模型，只完成了预训练，擅长续写文本，不擅长直接理解并回答人类的问题或指令。
Instruct：指令模型，在基座模型基础上使用大量【用户指令和期望回答】的数据进行微调，能够正确理解并遵循人类指令。

模型告警

后续选择 Qwen3.5-2B-Base，名称虽带【Base】但未弹出告警。Qwen3.5 是后训练模型，已经历至少一轮指令微调或强化学习（RL），具备对话能力。

模型选择

加载模型对话

点击【Chat】加载模型对话，主要参数如下：

推理引擎

Hugging Face：transformers 库，通用原生推理框架。开箱即用，适合调试、开发、原型验证。默认使用 PyTorch 动态图，速度相对较慢，显存占用较高。
vLLM：高性能服务框架，专为高吞吐、低延迟设计。支持连续批处理，适合生产环境部署、高并发 API 服务。
SGLang：较新的推理框架，专注于结构化生成和复杂推理任务。吞吐量接近 vLLM，适合对推理过程有精细控制要求的场景。

推理数据类型

auto：自动选择最优精度。
float32：最精确，显存占用最大，速度最慢。
float16：显存较 fp32 减半，速度更快，精度损失小。
bfloat16：与 fp16 同显存占用，动态范围更大，训练和推理更稳定。

额外参数

例如 {"vllm_enforce_eager": true}，vLLM 专用参数。若当前推理引擎是 huggingface，理论上该参数不会生效，建议删除以避免 Json 格式错误。

额外参数

点击【加载模型】后，控制台会自动下载对应模型。

模型加载

也可手动下载魔搭社区模型，默认存储路径一致：

modelscope download --model Qwen/Qwen3.5-2B

模型加载成功后即可正常聊天。

模型对话

数据集

魔搭社区提供大量数据集，详情见：https://www.modelscope.cn/datasets

获取源数据

以【蚂蚁金融语义相似度数据集】为例：https://www.modelscope.cn/datasets/modelscope/afqmc

数据集页面

在【数据集文件】中下载【train.csv】。数据格式为：

sentence1 = 句子 1
sentence2 = 句子 2
label = 0 表示两者语义不同、1 表示语义相同

数据示例

编写转换脚本

通过脚本将 csv 转换成 LLaMA-Factory 需要的 json 格式。

转换脚本

生成数据集

在 py 脚本目录下执行 python csv2Json.py 得到目标文件 json。

生成结果

将生成的 ant_finance_same.json 移动至【LLaMA-Factory】项目中的【data】文件夹中，再修改 dataset_info.json 加入刚才生成的 json，其余保持不动。

dataset_info.json 是 LLaMA-Factory 中用于注册和管理数据集的配置文件，主要作用是配置数据集文件路径。

配置修改

训练

加载并预览数据集

在【数据集】中选中刚才配置的数据，点击【预览数据集】查看示例。

预览数据集

执行微调

点击【开始】微调模型。GPU 环境超过 1 小时无操作将触发自动关闭功能，需注意保持连接。

训练日志

训练时间取决于数据量。若单次实例连接时间受限，可将数据集做删减版演示。mini 版数据集仅 1000 条数据，训练需不到 20 分钟。

训练进度

Loss 曲线

右侧趋势图表示训练过程中损失值 Loss 随训练步数 Step 变化的曲线：

original 原始曲线：每个记录点实际计算出的损失值，存在噪声毛刺。
smoothed 平滑曲线：对原始损失进行移动平均或指数平滑后的曲线，反映整体变化趋势。

Loss 详解

导出微调结果

训练完毕后，在【检查点路径】找到微调后的模型。

检查点

导出完成后，路径下对应文件可见。

导出文件

尝试加载微调后的模型进行对话测试。

对话测试

转换 GGUF

为了能够让 ollama 或 llama.cpp 直接使用，需要将 Hugging Face 格式模型转换成 GGUF 格式的文件。

创建环境

为避免冲突，建议创建一个独立的 Python 环境：

python -m venv cppVenv
source cppVenv/bin/activate

克隆 llama.cpp，该工具可转换 GGUF：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
pip install -r requirements.txt

执行转换

python convert_hf_to_gguf.py /mnt/workspace/models/Qwen3.5-2B-output --outfile /mnt/workspace/gguf/Qwen3.5-2B-output.gguf --outtype q8_0

Qwen3.5-2B-output 为【model.safetensors】文件所在路径。
--outtype q8_0 表示量化类型，默认输出 f16 格式。

执行过程中可能出现异常：

ValueError: Tokenizer class TokenizersBackend does not exist or is not currently imported.

原因是在合并模型时，无法正确加载模型的 tokenizer 导致的，通常是因为模型文件夹中的 tokenizer_config.json 配置缺少必要的 tokenizer 文件。

检查当前 tokenizer_config.json 内容：

cat /mnt/workspace/models/Qwen3.5-2B-output/tokenizer_config.json | grep tokenizer_class

Tokenizer 检查

Qwen3.5-2B 模型对应的 tokenizer 类是 Qwen2Tokenizer，使用 sed 直接替换：

sed -i 's/"tokenizer_class": "TokenizersBackend"/"tokenizer_class": "Qwen2Tokenizer"/g' /mnt/workspace/models/Qwen3.5-2B-output/tokenizer_config.json

替换后再执行转换命令即可，最后可以得到 GGUF 文件。

GGUF 转换

总结

本文介绍了在不花费成本的前提下，完成环境搭建到模型微调的整个流程。

LLaMaFactory 基于魔搭社区免费 GPU 微调大模型实战

环境

安装 LLaMaFactory

创建虚拟环境

模型选择

模型分类和区别

加载模型对话

推理引擎

推理数据类型

额外参数

数据集

获取源数据

编写转换脚本

生成数据集

训练

加载并预览数据集

执行微调

导出微调结果

转换 GGUF

创建环境

执行转换

总结

更多推荐文章

相关免费在线工具

LLaMaFactory 基于魔搭社区免费 GPU 微调大模型实战

环境

安装 LLaMaFactory

创建虚拟环境

模型选择

模型分类和区别

加载模型对话

推理引擎

推理数据类型

额外参数

数据集

获取源数据

编写转换脚本

生成数据集

训练

加载并预览数据集

执行微调

导出微调结果

转换 GGUF

创建环境

执行转换

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具