LLM项目实战：使用Llama-factory进行DPO训练

优质文章学习记录

11 Apr 2026 — 5 min read

前言

LLM训练三板斧，预训练，微调，RHLF。DPO属于是最后环节RHLF中的一个方法，关于RLHF主流方法有PPO,DPO,GROP。关于这三种介绍RLHF方法，我之前分享过对着三种方法的一些思考，有兴趣的同学可以看看。

因为DPO对硬件的需求最小，显存占用最低，所以我们先采用DPO进行训练。

硬件信息：

4070 12g*2 、64g内存、操作系统:Ubuntu24.04、模型：QWEN-3vl-2B（因为我这个模型是上个多模态任务sft过的，所以选择vl模型，没有图片输入需求的同学可以下载纯语言模型）

本篇教程仅关于DPO训练，请提前配置好环境和下载好LLamafactory（关于llamafactory环境配置其实也是一大头疼的点，注意如果想要使用分布式训练，llamafactory仅支持到deeospeed10.0-16.0，截止到2025年11月20日llamafactory还没有完成对deepspeed最新版本的适配

碎碎念：很多初学大模型的同学还是使用Windows系统进行训练，本人之前也是。但是由于Windows总是出现各种奇怪的报错和显存不稳定等情况，尤其是在多卡训练中，这种情况会更加明显。后来也尝试过wsl2其他替代方案，最后还是发现linux系统有着win无法替代的优势。所以还是建议如果真想长期学习LLM的同学，直接一步到位到linux系统，少走弯路：）

llamafactory以下简称LF

STEP1 从hugging face下载我们需要的数据库

这里采用的是hugging face中的一个医疗DPO数据集

from datasets import load_dataset # 加载数据集 ds = load_dataset("HANI-LAB/Med-REFL-DPO",'reasoning_enhancement')

print(ds['train'][:1])

这里看到数据是可以正常加载的

STEP2 对数据进行预处理

由于我们需要使用llamafactory的框架进行dpo训练，所以需要把源arrow格式的文件转为lf能识别的json格式。下面这是官方文档中的规范格式，我们编写一个python程序完成格式的对齐

[ { "instruction": "人类指令（必填）", "input": "人类输入（选填）", "chosen": "优质回答（必填）", "rejected": "劣质回答（必填）" } ]

import json from datasets import load_dataset import os def convert_arrow_to_json(dataset_path, output_json_path): """ 将 Arrow 格式的数据集转换为指定的 JSON 格式 Args: dataset_path: Arrow 数据集的路径或 Hugging Face 数据集标识 output_json_path: 输出 JSON 文件的路径 """ # 加载数据集 # 如果是本地文件，可以使用 'load_from_disk' if os.path.exists(dataset_path): # 加载本地的 Arrow 数据集 dataset = load_dataset('arrow', data_files=dataset_path) else: dataset = load_dataset(dataset_path, name='reasoning_enhancement') # 获取训练集（根据你的描述，数据在 train split 中） train_dataset = dataset['train'] # 转换为所需的 JSON 格式 output_data = [] for item in train_dataset: # 确保所有必填字段都存在 if 'instruction' in item and 'chosen' in item and 'rejected' in item: json_item = { "instruction": item['instruction'], "input": item.get('input', ''), # input 是选填的，默认空字符串 "chosen": item['chosen'], "rejected": item['rejected'] } output_data.append(json_item) # 保存为 JSON 文件 with open(output_json_path, 'w', encoding='utf-8') as f: json.dump(output_data, f, ensure_ascii=False, indent=2) print(f"转换完成！共处理了 {len(output_data)} 条数据") print(f"JSON 文件已保存到: {output_json_path}") def main(): # 本地 Arrow 文件路径 arrow_file_path = "path/to/your/Reasoning Enhancement.arrow" # 输出 JSON 文件路径 output_json_path = "med_refl_dpo.json" # 执行转换 convert_arrow_to_json(arrow_file_path, output_json_path) if __name__ == "__main__": main()

完成数据集的标准化后，我们将获得的json文件复制到lf的data目录下。

之后我们需要修改 LLaMaFactory data目录下的dataset_info.json，增加自定义数据集：（官网也给出了添加数据集的标准格式）

"数据集名称": { "file_name": "data.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } }

"MED_DPO": { "file_name": "/home/zadyd/桌面/xza/LLaMA-Factory/data/med_dpo.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } },

STEP3 启动LF,选择合适的参数

在lm文件夹下启动终端，输入llamafactory-cli webui启动我们的可视化ui

如果是windows系统，则打开终端cd到lf目录

在网页端设置我们需要的参数，一般像我这样设置就可以

因为我是多卡训练，所以选择了 deepspeed，单卡训练的同学不需要勾选这个选项，本次训练需要 24g 左右的显存，这个显存大小有点尴尬，可以通过开启量化或者减少序列长度节约显存

大概需要 12 个小时，这一步很容易遇到环境不兼容的问题，需要耐心调整，不要心急

STEP4 合并模型

训练完成之后在 export 模块，选择训练好的文件位置，和原始文件进行合并

ToClaw他来了！融合OpenClaw、网页AI、远程功能，更适合真正的办公落地

随着AI技术的不断发展，人们越来越期望AI能够融入真实工作流，提高办公效率。在此背景下，ToClaw应运而生，它融合了OpenClaw的开源Agent技术与远程功能，为办公场景带来了全新的解决方案。为什么这波“龙虾热”，值得认真对比一次？这一轮中文互联网对 “龙虾” 的热情，本质上不是大家突然爱上了某个新名词，而是越来越多人开始意识到：AI 不该只待在聊天框里，它应该开始进入真实工作流，帮人查资料、碰文件、跑任务、管设备。 OpenClaw 之所以火，一个重要原因就在于它把“个人 AI 助手”这件事做得很具象。根据其 GitHub 官方说明，它主打 personal open source AI assistant，推荐用户通过 openclaw onboard 这个 onboarding wizard 完成设置；而在 Windows 环境下，官方还特别建议通过 WSL2

AI做PPT哪个最好用？——7款顶流工具深度横评

AI做PPT哪个最好用？——7款顶流工具深度横评对于职场人士、零基础新人或任何需要“又快又好”做PPT的人，AI生成PPT工具已经从“锦上添花”升级为“必备效率神器”。本文一次性梳理7款市面呼声最高的产品，逐条拆解它们的公司背景、功能特色、免费额度、优缺点及适用人群。 1. SpeedAI(https://kuaipaper.com/ppt) 所属公司国内AI办公赛道新锐团队，依托自研大模型深耕智能办公场景，核心成员来自头部互联网与办公软件厂商。功能特色 * 全链路智能生成：输入主题/关键词→15秒输出逻辑闭环大纲→2分钟生成20+页完整PPT，大纲可根据行业、场景自动调整深度，适配商务汇报、学术答辩、校园宣讲等不同需求 * 多源无损导入：支持Word、PDF、XMind、Markdown、思维导图图片一键转PPT，复杂表格、公式保留率达95%以上，长文本自动提炼核心观点，避免逻辑断裂 * 在线精细化编辑：文字、

医疗AI与融合数据库的整合：挑战、架构与未来展望（上）

引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗 AI 发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组 JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂 ETL 流程以及昂贵维护成本，医疗 AI 平台通常难以充分发挥价值。融合数据库（Converged Database / 多模态一体化数据库）通过支持 SQL、JSON、图、向量、时序等多数据模型，以及 HTAP（混合事务与分析）处理能力，AI 原生集成与企业级安全机制，提供了一种一体化数据管理平台，能有效破除医疗 AI 落地瓶颈 ([TechTarget][1])。 🔍 行业趋势与技术背景 * IDC 与 Omdia 的报告指出，

生物细胞学在AI时代下的最新进展（2026版）

从“看细胞”到“预测细胞”，人工智能正在怎样改写细胞生物学？过去几年，人工智能在生命科学中最出圈的应用，往往集中在蛋白质结构预测、分子设计和药物筛选上。AlphaFold让人们第一次如此直观地感受到：原来一个看似极度复杂的生物问题，真的可能被大规模数据、模型架构和计算能力共同推进到“范式改变”的节点。可如果把视角从蛋白质拉回实验室，从分子层面的结构预测，回到细胞生物学研究者每天面对的培养箱、显微镜、图像、单细胞测序矩阵和反复调参的分析脚本，你会发现另一场同样深刻、却更贴近日常科研的变化，也已经开始发生。(Nature) 这场变化的核心，不只是“AI 让分析更快”。更准确地说，AI正在把细胞生物学中的许多传统环节，从“依赖人工经验、低通量、强主观”的工作方式，改造成“高维、可重复、可批量、可预测”的数据流程。过去，研究者常常用显微镜“看见”细胞；现在，越来越多的工作开始让模型去“读懂”细胞。

前言