llamafactory微调qwen3-vl详细流程

llamafactory微调qwen3-vl详细流程

llamafactory微调qwen3-vl详细流程

目标:本文讲详细介绍多模态大模型使用llama-factory进行多模态模型微调(sft)的全部流程,以及微调后合并和工业落地部署方案。具体包括:

  1. 环境安装部署
  2. 数据集准备
  3. 启动微调
  4. 模型合并
  5. 模型部署和请求方式(vllm部署)

示例模型:
qwen2.5-vl-instruct qwen3-vl-instruct

环境安装

llama-factory环境准备

方式1 git直接下载

git clone --depth https://github.com/hiyouga/LLaMA-Factory.git 

方式2 下载项目压缩包再解压

在这里插入图片描述

python环境安装

  1. python虚拟环境创建
    • conda create --name llama_env python=3.12 (默认已安装好anaconda或者minianaconda)
    • conda activate llama_env # 进入虚拟环境
  2. 安装依赖包
    • cd LLaMA-Factory-main # 进入项目目录
    • pip install -e “.[torch,metrics]” --no-build-isolation -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/
在这里插入图片描述
在这里插入图片描述

下载模型

从modelscope或者huggingface下载模型到指定目录。比如qwen3-vl。

  1. 在当前项目目录打开cmd
  2. 输入modelscope download --model Qwen/Qwen3-VL-2B-Instruct --local_dir ./qwen3_vl_model 将模型下载到models目录下。

在这里插入图片描述

启动训练(命令行)

在linux系统上,一般直接使用命令行进行训练、合并、部署。

lora微调步骤-sft任务

先使用默认数据集测试微调流程

​ 在LLaMA-Factory-main目录下:

执行 CUDA_VISIBLE_DEVICES=6 llamafactory-cli train examples/train_lora/qwen2_5vl_lora_sft.yaml开始训练画面:

在这里插入图片描述

vim examples/train_lora/qwen2_5vl_lora_sft.yaml

### model model_name_or_path: /data/hcb/LLaMA-Factory-main/qwen3_vl_model # 模型路径 image_max_pixels: 262144 video_max_pixels: 16384 trust_remote_code: true### method stage: sft do_train: true finetuning_type: lora lora_rank: 8 lora_target: all ### dataset dataset: mllm_demo,identity,alpaca_en_demo # video: mllm_video_demo 默认数据集,项目自带 template: qwen3_vl # 这里要改 cutoff_len: 2048 max_samples: 1000 overwrite_cache: true preprocessing_num_workers: 16 dataloader_num_workers: 4### output output_dir: saves/qwen3vl-2b/lora/sft # lora文件保存路径 logging_steps: 10 save_steps: 500 plot_loss: true overwrite_output_dir: true save_only_model: false report_to: none # choices: [none, wandb, tensorboard, swanlab, mlflow]### train per_device_train_batch_size: 1 gradient_accumulation_steps: 8 learning_rate: 1.0e-4 num_train_epochs: 1.0 lr_scheduler_type: cosine warmup_ratio: 0.1 bf16: true ddp_timeout: 180000000 resume_from_checkpoint: null ### eval# val_size: 0.1# per_device_eval_batch_size: 1# eval_strategy: steps# eval_steps: 500

​ 训练完成后lora模型存储在配置的目录中:

在这里插入图片描述

合并lora模型

微调完成后,需要合并原模型和lora模型。

  1. 执行合并脚本:llamafactory-cli export examples/merge_lora/qwen2_5vl_lora_sft.yaml

编辑合并脚本:vim examples/merge_lora/llama3_lora_sft.yaml

### Note: DO NOT use quantized model or quantization_bit when merging lora adapters### model model_name_or_path: /data/hcb/LLaMA-Factory-main/qwen3_vl_model # 原模型路径 adapter_name_or_path: saves/qwen3vl-2b/lora/sft # lora路径 template: qwen3_vl # 模型格式 trust_remote_code: true### export export_dir: output/qwen3vl_lora_sft export_size: 5 export_device: cpu # choices: [cpu, auto] export_legacy_format: false

​ 合并后的模型保存在配置的存储路径中。

在这里插入图片描述

训练完成。

私有训练数据准备(重要)

目前使用llama-factoy整个流程基本固化,主要就是构造不同的数据集。前面我们使用了官方提供的数据集进行了训练。现在我们构造自己的私有数据集,还是以文本类sft任务为例。

了解data目录和dataset_info.json文件

制作训练数据集,要先认识data目录以及dataset_info.json文件。LLaMA-Factory-main主目录下有一个data目录用来存放数据集文件以及数据集配置文件(dataset_info.json)。

对于我们前面使用的训练数据dataset: mllm_demo,我们可以在dataset_info.json中找到注册记录,如下图:

在这里插入图片描述

其对应的具体文件就是file_name指向的文件名,即data目录下的mllm_demo.json文件。其格式如下:

在这里插入图片描述

我们可以仿照这个格式构造自己的sft任务的数据集。

详细构造自己的sft数据集

LLama-Factoy支持的多种任务的数据集格式都在:https://github.com/hiyouga/LLaMA-Factory/blob/main/data/README.md

多模态-图像 构造sharegpt格式参考:

在这里插入图片描述
在这里插入图片描述
  1. 将改造好的训练集文件tab_reg_samples.json文件放到LLaMA-Factory-main/data目录下

在dataset_info.json文件中注册tab_reg_samples.json数据集。具体如下:

在这里插入图片描述

LLaMA-Factory-main/data新建图片存放目录table_reg(与数据集中images下的路径一致)。将数据集中用到的图片上传到table_reg目录下。

在这里插入图片描述

我们需要把自己的数据使用脚本改造成上面的json格式。构造了一个根据图片识别其中表格的数据集。提示词中需要添加图像的占位符 然后在images列表中添加图片的具体路径。(可以添加多个图片。)

在这里插入图片描述

开始训练

数据集配置完成后,在examples/train_lora/qwen2_5vl_lora_sft.yaml训练脚本中直接引入数据集。只修改dataset:部分。

项目主目录下执行 vim examples/train_lora/qwen2_5vl_lora_sft.yaml

### model model_name_or_path: /data/hcb/LLaMA-Factory-main/qwen3_vl_model # 模型路径 image_max_pixels: 262144 video_max_pixels: 16384 trust_remote_code: true### method stage: sft do_train: true finetuning_type: lora lora_rank: 8 lora_target: all ### dataset dataset: table_reg # 注册的数据集名称 template: qwen3_vl cutoff_len: 2048 max_samples: 1000 overwrite_cache: true preprocessing_num_workers: 16 dataloader_num_workers: 4### output output_dir: saves/qwen3vl-2b_table/lora/sft # lora文件保存路径 logging_steps: 10 save_steps: 500 plot_loss: true overwrite_output_dir: true save_only_model: false report_to: none # choices: [none, wandb, tensorboard, swanlab, mlflow]### train per_device_train_batch_size: 1 gradient_accumulation_steps: 8 learning_rate: 1.0e-4 num_train_epochs: 1.0 lr_scheduler_type: cosine warmup_ratio: 0.1 bf16: true ddp_timeout: 180000000 resume_from_checkpoint: null ### eval# val_size: 0.1# per_device_eval_batch_size: 1# eval_strategy: steps# eval_steps: 500

修改完成后执行训练:

CUDA_VISIBLE_DEVICES=6 llamafactory-cli train examples/train_lora/qwen2_5vl_lora_sft.yaml

在这里插入图片描述

后续合并步骤完全一样。

其他任务数据构造

ing…

模型部署

llama-factory也支持基本的模型部署,但是很多时候我们需要以接口调用的形式来使用大模型能力,常见的有ollma、vllm、sglang等方式,为了支持产品落地支持高并发,我们一般使用vllm部署模型,基于openai风格进行接口调用。下载详细介绍一下使用vllm部署模型并请求。

vllm安装

在当前虚拟环境中执行:pip install vllm==0.11.0 -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

在这里插入图片描述

服务启动命令(openai标准)

直接启动我们上面微调合并后的模型:

# 启动 vLLM OpenAI 兼容 API 服务器# 核心功能:将指定大模型以 OpenAI API 格式暴露服务,支持高并发、低延迟推理exportCUDA_VISIBLE_DEVICES=6# 指定使用哪个gpu python -m vllm.entrypoints.openai.api_server \ --host 0.0.0.0 \# 绑定所有网络接口,允许外部机器访问(仅内网环境建议使用) --port 8003\# API 服务监听端口,客户端通过该端口调用(自定义) --model /data/hcb/LLaMA-Factory-main/output/qwen3vl_lora_sft \# 模型文件本地路径 --served-model-name qwen3_vl \# 对外暴露的模型名称(客户端调用时指定该名称) --trust-remote-code \# 信任模型仓库中的自定义代码(部分模型需要自定义加载逻辑) --dtype float16 \# 模型推理数据类型(float16 平衡性能和精度,适配多数GPU) --gpu-memory-utilization 0.8\# GPU 显存利用率上限(根据实际情况调整) --tp 1\# 张量并行度(1 表示单卡推理,多卡时需调整为显卡数量)# 上面是命令介绍 可以直接用下面这行启动CUDA_VISIBLE_DEVICES=6 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8003 --model /data/hcb/LLaMA-Factory-main/output/qwen3vl_lora_sft --served-model-name qwen3_vl --trust-remote-code --dtype float16 --gpu-memory-utilization 0.8

启动成功:

在这里插入图片描述

服务请求

代码请求
""" @version: python3.9 @author: hcb @software: PyCharm @file: multimodal_request.py @time: 2025/11/15 07:20 """import openai import base64 import os from openai import OpenAI defencode_image(image_path):"""将图像文件编码为base64"""withopen(image_path,"rb")as image_file:return base64.b64encode(image_file.read()).decode('utf-8')defmultimodal_chat(image_path=None, text_prompt="描述这张图片"):""" 多模态聊天请求 Args: image_path: 图像文件路径 text_prompt: 文本提示 """ client = OpenAI( api_key="Empty", base_url="http://10.10.185.9:8803/v1/"# 你的vLLM服务器地址和端口)# 构建消息内容 messages =[{"role":"system","content":"你是一个多模态智能助手,可以理解和分析图像内容。"}]# 如果有图像,添加多模态内容if image_path and os.path.exists(image_path): base64_image = encode_image(image_path) user_content =[{"type":"text","text": text_prompt },{"type":"image_url","image_url":{"url":f"data:image/jpeg;base64,{base64_image}"}}]else:# 如果没有图像,只发送文本 user_content = text_prompt messages.append({"role":"user","content": user_content }) payload ={"model":"qwen3_vl",# 你设置的模型名称"messages": messages,"temperature":0.1,"max_tokens":2000}print("请求payload结构:")print(f"- 模型: {payload['model']}")print(f"- 消息数量: {len(payload['messages'])}")if image_path:print(f"- 包含图像: {image_path}")print(f"- 提示词: {text_prompt}")try:# 发送请求 response = client.chat.completions.create(**payload, timeout=30# 多模态请求可能需要更长时间)return response except Exception as e:print(f"请求失败: {e}")returnNoneif __name__ =="__main__":# 直接测试特定图片 image_path =r"C:\Users\15941\Desktop\临时\副业\宠物\狗头舔脚\2.png"# 修改为你的图片路径 prompt ="描述这张图片中有什么"if os.path.exists(image_path):print(f"正在分析图片: {image_path}") res = multimodal_chat(image_path=image_path, text_prompt=prompt)if res and res.choices:print("\n模型回复:")print(res.choices[0].message.content)else:print("请求失败")

结果:

在这里插入图片描述

Read more

马年新春|AIGC快速生成企业新春营销素材(附Python实操+效果论证)

马年新春|AIGC快速生成企业新春营销素材(附Python实操+效果论证)

摘要:马年新春临近,企业营销进入高峰期,新春海报、祝福文案、短视频素材等需求激增,传统人工制作模式存在效率低、成本高、同质化严重等痛点。本文结合2026年AIGC产业发展趋势,聚焦企业新春营销场景,提供基于Python+Stable Diffusion的AIGC素材生成完整实操方案,包含环境搭建、参数调试、效果优化,结合真实行业数据与文献论证方案可行性,帮助企业快速落地AI生成营销素材,兼顾效率与创意,同时规避版权与合规风险,为马年新春营销赋能。本文所有引用内容均标注下划线,确保引用规范且无链接,原创度达标。 一、引言:马年新春营销痛点与AIGC的解决方案 随着马年新春的临近,企业营销迎来年度关键节点,无论是线下物料(海报、展架)还是线上推广(朋友圈文案、短视频封面),都需要大量贴合新春氛围、融入马年元素的专属素材。据艾瑞咨询发布的《2024年中国AIGC产业研究报告》数据显示,2023年中国AIGC产业整体市场规模已达142亿元人民币,同比增长217.8%,其中营销场景占比超30%,成为AIGC应用最广泛的领域之一下划线[1]。 当前企业新春营销素材制作普遍面临三大痛点:一是效

AIGC联动PS黑科技:一张原画秒出Spine 2D骨骼动画拆件级PSD

AIGC联动PS黑科技:一张原画秒出Spine 2D骨骼动画拆件级PSD

我们正在冲刺一款二次元风格的横版动作抽卡手游。下周二,发行商要来看最新SSR女角色的“大招动画”实机演示。结果,原定外包团队交上来的拆件PSD文件出了大纰漏——外包不仅把层级合并错了,而且所有被遮挡的身体部位(比如被大剑挡住的胸口、被头发遮住的肩膀)完全没有做“补图”处理!主美咆哮着说:“这怎么绑骨骼?角色一转身或者头发一飘,底下的透明窟窿就全露出来了!周末必须把这套极其复杂的哥特洛丽塔裙装加双马尾角色重新拆件、完美补图,周一早上我要看到她在Spine里生龙活虎地动起来!” 做过2D骨骼动画的兄弟们都懂,立绘拆件和补图,简直就是2D美术管线里的“顶级酷刑”。 如果在传统的2D工作流里,你要处理这么一张高精度的二次元角色,过程能把人逼疯。首先,你得在绘画软件里,拿套索工具把头发分为前发、中发、后发、鬓角,把手臂分为大臂、小臂、手掌,把裙子分为前摆、侧摆、后摆……足足拆出上百个图层;这还不算完,最绝望的是“补图”。当你把前面的手臂单独抠出来后,身后的衣服上就会留下一个巨大的空白窟窿。为了让动画运转时没有死角,你必须纯手工、用画笔去脑补并画完那些原本看不见的衣服褶皱、身体结构和光影。

Lingyuxiu MXJ LoRA集成教程:嵌入Stable Diffusion WebUI插件方案

Lingyuxiu MXJ LoRA集成教程:嵌入Stable Diffusion WebUI插件方案 1. 为什么需要这个LoRA引擎?——从“想画出她”到“真的画出来” 你有没有试过在Stable Diffusion里输入“温柔的东方少女,柔光侧脸,细腻皮肤,电影感胶片色调”,结果生成的脸部模糊、光影生硬、发丝粘连,甚至五官比例奇怪?不是模型不行,而是通用底座模型(如SDXL)并不天然懂“Lingyuxiu MXJ”这种高度风格化的审美语言。 Lingyuxiu MXJ不是一张图、一个提示词模板,而是一套可复现、可迭代、可部署的真人人像美学系统:它聚焦于东方女性面部结构的精准刻画(眼距、鼻梁弧度、下颌线过渡)、皮肤质感的物理级模拟(绒毛级细节+亚光漫反射)、以及光影情绪的统一调度(非高光堆砌,而是用软阴影塑造呼吸感)。这套风格无法靠调参或换Lora随便凑出来——它需要被“教懂”,而本项目,就是那个把“

提升开发效率:如何在VsCode中完美配置GitHub Copilot(含settings.json详解)

提升开发效率:VsCode与GitHub Copilot深度集成实战指南 在代码编辑器的演进历程中,GitHub Copilot的出现无疑是一次革命性的突破。作为AI驱动的编程助手,它正在改变开发者与代码交互的方式。但很多用户仅仅停留在基础功能的使用层面,未能充分发挥其潜力。本文将带你深入探索如何通过精细配置settings.json文件,让Copilot真正成为你的编码"副驾驶"。 1. 环境准备与基础配置 在开始高级配置之前,确保你的开发环境已经做好充分准备。首先需要检查VsCode的版本是否在1.60以上,这是支持Copilot所有功能的最低要求。同时,建议安装最新版本的Git,因为Copilot的部分功能会与版本控制系统深度交互。 安装Copilot扩展非常简单: 1. 在VsCode中按下Ctrl+Shift+X(Windows/Linux)或Cmd+Shift+X(Mac)打开扩展面板 2. 搜索"GitHub Copilot" 3. 点击安装按钮 安装完成后,你会注意到编辑器右下角出现Copilot的图标。点击它并完成GitHub账号授权是使用服务的前