LLM项目实战：使用Llama-factory进行DPO训练

优质文章学习记录

07 Apr 2026 — 5 min read

前言

LLM训练三板斧，预训练，微调，RHLF。DPO属于是最后环节RHLF中的一个方法，关于RLHF主流方法有PPO,DPO,GROP。关于这三种介绍RLHF方法，我之前分享过对着三种方法的一些思考，有兴趣的同学可以看看。

因为DPO对硬件的需求最小，显存占用最低，所以我们先采用DPO进行训练。

硬件信息：

4070 12g*2 、64g内存、操作系统:Ubuntu24.04、模型：QWEN-3vl-2B（因为我这个模型是上个多模态任务sft过的，所以选择vl模型，没有图片输入需求的同学可以下载纯语言模型）

本篇教程仅关于DPO训练，请提前配置好环境和下载好LLamafactory（关于llamafactory环境配置其实也是一大头疼的点，注意如果想要使用分布式训练，llamafactory仅支持到deeospeed10.0-16.0，截止到2025年11月20日llamafactory还没有完成对deepspeed最新版本的适配

碎碎念：很多初学大模型的同学还是使用Windows系统进行训练，本人之前也是。但是由于Windows总是出现各种奇怪的报错和显存不稳定等情况，尤其是在多卡训练中，这种情况会更加明显。后来也尝试过wsl2其他替代方案，最后还是发现linux系统有着win无法替代的优势。所以还是建议如果真想长期学习LLM的同学，直接一步到位到linux系统，少走弯路：）

llamafactory以下简称LF

STEP1 从hugging face下载我们需要的数据库

这里采用的是hugging face中的一个医疗DPO数据集

from datasets import load_dataset # 加载数据集 ds = load_dataset("HANI-LAB/Med-REFL-DPO",'reasoning_enhancement')

print(ds['train'][:1])

这里看到数据是可以正常加载的

STEP2 对数据进行预处理

由于我们需要使用llamafactory的框架进行dpo训练，所以需要把源arrow格式的文件转为lf能识别的json格式。下面这是官方文档中的规范格式，我们编写一个python程序完成格式的对齐

[ { "instruction": "人类指令（必填）", "input": "人类输入（选填）", "chosen": "优质回答（必填）", "rejected": "劣质回答（必填）" } ]

import json from datasets import load_dataset import os def convert_arrow_to_json(dataset_path, output_json_path): """ 将 Arrow 格式的数据集转换为指定的 JSON 格式 Args: dataset_path: Arrow 数据集的路径或 Hugging Face 数据集标识 output_json_path: 输出 JSON 文件的路径 """ # 加载数据集 # 如果是本地文件，可以使用 'load_from_disk' if os.path.exists(dataset_path): # 加载本地的 Arrow 数据集 dataset = load_dataset('arrow', data_files=dataset_path) else: dataset = load_dataset(dataset_path, name='reasoning_enhancement') # 获取训练集（根据你的描述，数据在 train split 中） train_dataset = dataset['train'] # 转换为所需的 JSON 格式 output_data = [] for item in train_dataset: # 确保所有必填字段都存在 if 'instruction' in item and 'chosen' in item and 'rejected' in item: json_item = { "instruction": item['instruction'], "input": item.get('input', ''), # input 是选填的，默认空字符串 "chosen": item['chosen'], "rejected": item['rejected'] } output_data.append(json_item) # 保存为 JSON 文件 with open(output_json_path, 'w', encoding='utf-8') as f: json.dump(output_data, f, ensure_ascii=False, indent=2) print(f"转换完成！共处理了 {len(output_data)} 条数据") print(f"JSON 文件已保存到: {output_json_path}") def main(): # 本地 Arrow 文件路径 arrow_file_path = "path/to/your/Reasoning Enhancement.arrow" # 输出 JSON 文件路径 output_json_path = "med_refl_dpo.json" # 执行转换 convert_arrow_to_json(arrow_file_path, output_json_path) if __name__ == "__main__": main()

完成数据集的标准化后，我们将获得的json文件复制到lf的data目录下。

之后我们需要修改 LLaMaFactory data目录下的dataset_info.json，增加自定义数据集：（官网也给出了添加数据集的标准格式）

"数据集名称": { "file_name": "data.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } }

"MED_DPO": { "file_name": "/home/zadyd/桌面/xza/LLaMA-Factory/data/med_dpo.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } },

STEP3 启动LF,选择合适的参数

在lm文件夹下启动终端，输入llamafactory-cli webui启动我们的可视化ui

如果是windows系统，则打开终端cd到lf目录

在网页端设置我们需要的参数，一般像我这样设置就可以

因为我是多卡训练，所以选择了 deepspeed，单卡训练的同学不需要勾选这个选项，本次训练需要 24g 左右的显存，这个显存大小有点尴尬，可以通过开启量化或者减少序列长度节约显存

大概需要 12 个小时，这一步很容易遇到环境不兼容的问题，需要耐心调整，不要心急

STEP4 合并模型

训练完成之后在 export 模块，选择训练好的文件位置，和原始文件进行合并

[AI实战]Ubuntu 下安装OpenClaw——从零搭建你的专属AI助理

[AI实战]Ubuntu 下安装OpenClaw——从零搭建你的专属AI助理前言 OpenClaw是一款功能强大的AI助理框架，支持自定义技能、多模型接入，并能通过聊天软件与你交互。本文将手把手带你在Ubuntu系统上完成OpenClaw的安装与配置，并实现外部安全访问。无论你是AI爱好者还是开发者，都能通过本文快速拥有一个属于自己的AI助理。环境准备： * 操作系统：Ubuntu 20.04 / 22.04 / 24.04（本文以24.04为例） * 权限：需要使用root或拥有sudo权限的用户 * 网络：能够访问GitHub及npm源（建议使用国内镜像加速）一、升级Node.js至v22+ OpenClaw要求Node.js版本≥22.0.0，低版本会导致npm安装失败。若系统已安装其他版本，请务必升级。方法一：使用nvm（推荐，便于多版本管理） 1. 安装nvm curl -o- https://raw.

不用 API Key 也能跑 AI 智能体？OpenClaw Zero Token 用浏览器自动化打通了大模型调用的新路线

OpenClaw Zero Token 深度解析：浏览器自动化实现大模型免 Token 调用的原理与实战快速摘要 OpenClaw Zero Token 是开源 AI 智能体框架 OpenClaw 的一个社区衍生版本，它的核心思路是：通过 Playwright 浏览器自动化技术，复用你在各大模型网页端的登录状态，从而绕过传统 API Token 调用的方式，实现对 DeepSeek、千问、Kimi、豆包等主流大模型的本地 Agent 调用。整个方案采用 MIT 开源协议，项目在 GitHub 上已获得 1800+ Star。如果你正在搭建本地 AI 智能体、或者对浏览器自动化与大模型结合的技术路线感兴趣，往下看有更详细的原理拆解和完整部署步骤。从 OpenClaw 说起：为什么会出现 Zero

我用 Nexent 做了个 AI 大厨：基于 Nexent 知识库与 MCP 生态打造智能烹饪顾问实战

引言：厨房小白的自救之路说实话，我是一个对做饭既向往又恐惧的人。向往的是那些短视频里色香味俱全的家常菜，恐惧的是每次打开冰箱，站在一堆食材面前完全不知道能做什么。我的做饭流程通常是这样的：先在 B 站搜教程视频，边看边暂停边做，一顿饭下来手机屏幕被油溅得惨不忍睹。更糟糕的是，我家还有一位对海鲜过敏的室友和一位需要控糖的老妈，每次做饭都得在脑子里疯狂计算"这个能不能放""那个谁不能吃"。上个月，我在 GitHub 上看到了 Nexent——一个"零编排"的开源智能体平台，主打"一个提示词，无限种可能"。我当时脑子里就冒出一个想法：能不能做一个懂食材搭配、会根据季节推荐菜谱、还能照顾家人饮食禁忌的 AI 烹饪顾问？说干就干。我花了一个周末的时间，在 Nexent 上亲手搭建了一个名叫"AI

【笔记】Windows 上安装 OpenCode AI 编码助理：从踩坑到成功的简单记录

Windows 上安装 OpenCode AI 编码助理：从踩坑到成功的简单记录日期：2026 年 1 月 9 日作者：AITechLab 大家好，我是 AITechLab。最近在网上看到 OpenCode 这个开源 AI 编码助理（官网：https://opencode.ai/），它声称可以帮助开发者在终端或桌面模式下用 AI 写代码、调试项目，支持 75 多种模型，包括免费的开源模型，还强调隐私保护（不上传代码）。 OpenCode |开源AI编码代理介绍及操作文档 |OpenCode 桌面版 | 版本 v1.1.6 ·Anomalyco/OpenCode 作为 Windows

前言