Qwen3-VL + LLama-Factory进行针对Grounding任务LoRA微调

Qwen3-VL + LLama-Factory进行针对Grounding任务LoRA微调

0.官方GitHub网站:

GitHub - QwenLM/Qwen3-VL:Qwen3-VL 是由阿里云 Qwen 团队开发的多模态大语言模型系列。https://github.com/QwenLM/Qwen3-VL

空间感知能力大幅提升:2D grounding 从绝对坐标变为相对坐标,支持判断物体方位、视角变化、遮挡关系,能实现 3D grounding,为复杂场景下的空间推理和具身场景打下基础。

OCR 支持更多语言及复杂场景:支持的中英外的语言从 10 种扩展到 32 种,覆盖更多国家和地区;在复杂光线、模糊、倾斜等实拍挑战性场景下表现更稳定;对生僻字、古籍字、专业术语的识别准确率也显著提升;超长文档理解和精细结构还原能力进一步提升。

一是采用 MRoPE-Interleave原始MRoPE将特征维度按照时间(t)、高度(h)和宽度(w)的顺序分块划分,使得时间信息全部分布在高频维度上。在 Qwen3-VL 中采取了 t,h,w 交错分布的形式,实现对时间,高度和宽度的全频率覆盖,这样更加鲁棒的位置编码能够保证模型在图片理解能力相当的情况下,提升对长视频的理解能力;

二是引入 DeepStack 技术,融合 ViT 多层次特征,提升视觉细节捕捉能力和图文对齐精度;我们沿用 DeepStack 的核心思想,将以往多模态大模型(LMM)单层输入视觉tokens的范式,改为在大型语言模型 (LLM) 的多层中进行注入。这种多层注入方式旨在实现更精细化的视觉理解。在此基础上,进一步优化了视觉特征 token 化的策略。具体而言,我们将来自 ViT 不同层的视觉特征进行 token 化,并以此作为视觉输入。这种设计能够有效保留从底层(low-level)到高层(high-level)的丰富视觉信息。实验结果表明,该方法在多种视觉理解任务上均展现出显著的性能提升。

三是将原有的视频时序建模机制 T-RoPE 升级为 文本时间戳对齐机制。该机采用“时间戳-视频帧”交错的输入形式,实现帧级别的时间信息与视觉内容的细粒度对齐。同时,模型原生支持“秒数”与“时:分:秒”(HMS)两种时间输出格式。这一改进显著提升了模型对视频中动作、事件的语义感知与时间定位精度,使其在复杂时序推理任务——如事件定位、动作边界检测、跨模态时间问答等——中表现更稳健、响应更精准。

1.配置环境

conda create Qwen3-vl python=3.10 conda activate Qwen3-vl pip install accelerate pip install qwen-vl-utils==0.0.14 # Install the latest version of vLLM 'vllm>=0.11.0' uv pip install -U vllm

2.下载代码

有科学上网的

git clone https://github.com/QwenLM/Qwen3-VL

没有科学上网的就上github下载压缩包

3.下载权重文件

权重文件挺大的,需要下载一会,我选择用国内阿里的modelscope下

# 在下载前,请先通过如下命令安装ModelScope pip install modelscope # 下载完整模型库 modelscope download --model Qwen/Qwen3-VL-2B-Instruct

4.推理代码

修改一下Qwen/Qwen3-VL-4B-Instruct为你下载的参数的地址

还有图片地址

我是本地3080 10GB推理的

from transformers import Qwen3VLForConditionalGeneration, AutoProcessor import torch from PIL import Image def load_qwen3_vl_4b_model(): """ 加载Qwen3-VL-4B-Instruct模型和处理器 """ model = Qwen3VLForConditionalGeneration.from_pretrained( "Qwen/Qwen3-VL-4B-Instruct", torch_dtype=torch.bfloat16, device_map="auto", attn_implementation="flash_attention_2" # 可选,用于加速 ) processor = AutoProcessor.from_pretrained("Qwen/Qwen3-VL-4B-Instruct") return model, processor def process_multimodal_query(model, processor, image_path, text_query): """ 处理多模态查询(图像+文本) """ # 加载图像 image = Image.open(image_path).convert('RGB') # 构建消息格式 messages = [ { "role": "user", "content": [ {"type": "image", "image": image}, {"type": "text", "text": text_query} ] } ] # 预处理输入 inputs = processor.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt" ) # 生成输出 generated_ids = model.generate( **inputs, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.8 ) # 解码输出 generated_ids_trimmed = [ out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids) ] output_text = processor.batch_decode( generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False ) return output_text[0] if output_text else "" # 使用示例 if __name__ == "__main__": model, processor = load_qwen3_vl_4b_model() image_path = "example.jpg" #改为你的图片路径 query = "描述这张图片中的场景和主要对象" #改为你的提示词,想问的问题 result = process_multimodal_query(model, processor, image_path, query) print("模型回复:", result) 

5.微调部分

5.1使用LLaMA-Factory项目进行微调:

5.1.1下载项目:

网址是:

LLaMA-Factory/README_zh.md at main · hiyouga/LLaMA-Factory · GitHubhttps://github.com/hiyouga/LLaMA-Factory/blob/main/README_zh.md

或者使用git下载:

git clone https://github.com/hiyouga/LLaMA-Factory

5.1.2创建虚拟环境 

conda create -n llama-factory python=3.12 conda activate llama-factory

安装环境:

pip install -e ".[torch,metrics]" --no-build-isolation

卸载默认的cpu版本的torch:

pip unisntall torch torchvision 

安装gpu版本的torch,根据你的cuda版本选择;下面是cuda11.8版本的torch安装指令:

pip install torch==2.8.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

5.2准备微调数据集

5.2.1所需数据集格式

        下方LLaMA-Factory网站微调所需要的数据格式:

LLaMA-Factory/data/README_zh.md at main · hiyouga/LLaMA-Factory · GitHub

 

 

        然后需要注意的是Qwen2.5-VL使用的绝对坐标,Qwen3-VL使用的0-1000的相对坐标记得归一化坐标的大小;

        还有需要注意的是我们准备好数据集后还需要进行修改LLaMA-Factory/data/dataset_info.json文件,在里面增加上我们所需的文件夹

5.2.2YOLO格式转换为qwen3-vl-grounding格式

        其中,我的数据集来源是YOLO格式转换而来,因为我要做的是Grounding任务,转换代码如下:
        可以通过这个代码将YOLO格式转换为Qwen3-VL-Grounding格式

import os import json from tqdm import tqdm # ================== 需要你修改的路径 ================== # 图片所在目录 IMAGE_DIR = "images" # 例如: qwen3_vl_grounding_train/images # YOLO 标签所在目录 LABEL_DIR = "labels" # 例如: qwen3_vl_grounding_train/labels # 输出的 JSON 文件 OUTPUT_JSON = "qwen3_vl_grounding_mllm.json" # 类别 id -> 名称(可选) CLASS_ID2NAME = { 0: "house", # 1: "car", # ... } # 只保留哪些类别(可选) USE_ONLY_CLASS_IDS = None # 例如只保留房子: # USE_ONLY_CLASS_IDS = {0} # 给模型的提示词(你可以改成中文) USER_PROMPT = ( "<image>\n" "Locate all objects in this image and output the bbox coordinates " "in JSON format using relative coordinates in the range [0, 1000]." ) # ================== 坐标工具函数 ================== def yolo_to_xyxy_relative(xc, yc, w, h): """ YOLO 归一化坐标 (xc, yc, w, h) ∈ [0,1] -> 相对坐标系下的四点 [x_min, y_min, x_max, y_max](仍然是 [0,1]) """ x_min = xc - w / 2 y_min = yc - h / 2 x_max = xc + w / 2 y_max = yc + h / 2 x_min = max(0.0, min(1.0, x_min)) y_min = max(0.0, min(1.0, y_min)) x_max = max(0.0, min(1.0, x_max)) y_max = max(0.0, min(1.0, y_max)) return [x_min, y_min, x_max, y_max] def scale_to_qwen_coords(xyxy_rel, scale=1000): """ [0,1] -> [0, scale],Qwen3-VL 默认 scale=1000 返回整数坐标 [x_min, y_min, x_max, y_max] """ x_min, y_min, x_max, y_max = xyxy_rel return [ int(round(x_min * scale)), int(round(y_min * scale)), int(round(x_max * scale)), int(round(y_max * scale)), ] def collect_image_files(image_dir): exts = {".jpg", ".jpeg", ".png", ".bmp", ".webp"} files = [] for fname in os.listdir(image_dir): if os.path.splitext(fname)[1].lower() in exts: files.append(fname) return sorted(files) # ================== 主逻辑 ================== def main(): image_files = collect_image_files(IMAGE_DIR) if not image_files: print(f"No images found in {IMAGE_DIR}") return dataset = [] for img_name in tqdm(image_files, desc="Converting"): img_path = os.path.join(IMAGE_DIR, img_name) # 可以用绝对路径,也可以在这里 os.path.abspath img_rel_or_abs = os.path.abspath(img_path) # 你也可以改成相对路径 base, _ = os.path.splitext(img_name) label_path = os.path.join(LABEL_DIR, base + ".txt") if not os.path.exists(label_path): continue bboxes_qwen = [] cls_ids = [] # 读取 YOLO 标签 with open(label_path, "r", encoding="utf-8") as f: for line in f: line = line.strip() if not line: continue parts = line.split() if len(parts) < 5: print(f"Label format error in {label_path}: {line}") continue cls_id = int(parts[0]) if USE_ONLY_CLASS_IDS is not None and cls_id not in USE_ONLY_CLASS_IDS: continue xc = float(parts[1]) yc = float(parts[2]) w = float(parts[3]) h = float(parts[4]) xyxy_rel = yolo_to_xyxy_relative(xc, yc, w, h) xyxy_qwen = scale_to_qwen_coords(xyxy_rel, scale=1000) bboxes_qwen.append(xyxy_qwen) cls_ids.append(cls_id) if not bboxes_qwen: continue # 构建 objects 列表 objects = [] for cid, box in zip(cls_ids, bboxes_qwen): obj = { "cls_id": cid, "bbox_2d": box } if cid in CLASS_ID2NAME: obj["cls_name"] = CLASS_ID2NAME[cid] objects.append(obj) answer_obj = {"objects": objects} # 序列化为字符串,作为 gpt 的回复文本 answer_str = json.dumps(answer_obj, ensure_ascii=False) sample = { "conversations": [ { "from": "human", "value": USER_PROMPT }, { "from": "gpt", "value": answer_str } ], "images": [ img_rel_or_abs ] } dataset.append(sample) with open(OUTPUT_JSON, "w", encoding="utf-8") as f: json.dump(dataset, f, ensure_ascii=False, indent=2) print(f"Done. Wrote {len(dataset)} samples to {OUTPUT_JSON}") if __name__ == "__main__": main() 

然后将生成的json文件放在LLaMA-Factory/data路径下面

5.3使用LLama-Factory可视化界面进行微调

cd LLaMA-Factory 

5.3.1启动可视化界面:

llamafactory-cli webui 

5.3.2修改训练参数

图片中用红框圈起来的是可能需要修改的参数:

语言;模型;模型路径;模型下载源;计算类型等等

其中计算类型为Pure_bf16更省显存;下面为预估显存需要

修改dataset_info.json

将下面代码夹在文件的最前面;然后可视化界面的数据集那栏 就能找到自己的数据集了;

"qwen3_vl_grounding_mllm": { "file_name": "qwen3_vl_grounding_mllm.json", "formatting": "sharegpt", "columns": { "messages": "conversations", "images": "images" } } 

然后一次点击 保存训练参数、载入训练参数、开始 就可以开始训练了

5.3.3对话测试模型

点击chat、选择训练好模型路径、点击加载模型、进行问答

输入图片和提示词进行问答

导出模型

Read more

论文降AIGC实测:9个免费降AI率提示词与笔灵AI降重效果对比

论文降AIGC实测:9个免费降AI率提示词与笔灵AI降重效果对比

凌晨两点,看着查重报告上那依旧居高不下的ai率,心态真的崩了。 这应该就是在这个毕业季,无数熬夜赶论文的兄弟姐妹们的真实写照。你最后可能会破罐子破摔地觉得,ai率高?这有啥的,反正我的论文确确实实就是自己写的,如果有人来问,我甚至能给我的论文背一遍! 但其实,ai率这东西,查的还真不是这文章是不是你自己写的,而是你文章里的逻辑是否过于通顺?思维是否太过顺滑?你可能会觉得有点反人类,但事实的确如此╮(╯﹏╰)╭ 为了测出最有效的法子,我拿废稿把市面上能叫得出名字的方法都试了一遍。不管你是想白嫖免费降ai率的指令,还是想找个稳妥的降ai率工具,这篇文章直接把饭喂到你嘴边。 一、 9个去AI味指令(免费方案) 先上不需要花钱的硬菜。免费降ai率工具其实就在你手边,就看你会不会用提示词。 大模型写东西有个死穴:太完美,太顺滑,像个没有感情的播音员。免费降低ai率的第一步,就是逼它说人话。 我琢磨了这9个改写指令,专治各种机器味。用法很简单:把标红段落 + 下面的提示词,扔回给AI。 👉 第一类:打碎逻辑链 提示词01(反线性叙事): 改写这段话。不要用“首先、其次、再次”

Stable-Diffusion-v1-5-archive创意设计师指南:将SD1.5嵌入Figma/PS工作流

Stable-Diffusion-v1.5-archive创意设计师指南:将SD1.5嵌入Figma/PS工作流 你是不是也遇到过这种情况?在Figma里画了半天,总觉得缺一张完美的背景图;在PS里修图,想找个合适的素材却要翻遍图库。灵感来了,但手头的素材库却跟不上。 今天,我们来聊聊一个能彻底改变你工作流的“创意外挂”——Stable Diffusion v1.5 Archive。它不是要取代你的设计软件,而是要成为你最得力的“素材生成器”和“灵感加速器”。想象一下,在Figma里画个草图,就能立刻生成一张风格匹配的渲染图;在PS里想换个背景,输入一句话就能得到。这不再是科幻,而是可以立刻上手的现实。 这篇文章,就是为你——创意设计师、UI/UX设计师、视觉艺术家——量身定制的实战指南。我们不谈复杂的算法,只聚焦一件事:如何把SD1.5这个强大的文生图模型,无缝嵌入到你熟悉的Figma或Photoshop工作流中,让它真正为你所用。 1. 为什么设计师需要关注SD1.5? 在开始动手之前,我们先搞清楚,

Qwen3-TTS部署教程:Qwen3-TTS与Whisper ASR构建双向语音对话系统

Qwen3-TTS部署教程:Qwen3-TTS与Whisper ASR构建双向语音对话系统 想象一下,你对着电脑说一句话,电脑不仅能听懂,还能用自然、有感情的声音回答你,整个过程流畅得就像在和朋友聊天。这听起来像是科幻电影里的场景,但现在,通过Qwen3-TTS和Whisper ASR这两个强大的开源模型,我们完全可以自己动手搭建这样一个系统。 今天,我就带你一步步实现这个目标。无论你是想做一个智能语音助手,还是想为你的应用增加语音交互功能,这篇教程都会给你一个清晰的路线图。我们会从最基础的部署开始,到最终实现一个能听会说的双向对话系统。 1. 准备工作与环境搭建 在开始之前,我们先来了解一下今天要用到的两个核心工具。 Qwen3-TTS 是一个强大的文本转语音模型。它最吸引人的地方在于,它支持10种主要语言,包括中文、英文、日文等,还能生成多种方言和语音风格。更厉害的是,它能理解你文本里的情感和意图,自动调整说话的语调、语速,让生成的声音听起来特别自然。 Whisper ASR 则是OpenAI开源的语音识别模型,它的识别准确率非常高,支持多种语言,而且对带口音、有噪声

AIGC电商实战:OpenCSG公益课厘清“品牌叙事”与“商品素材”的AI应用边界

AIGC电商实战:OpenCSG公益课厘清“品牌叙事”与“商品素材”的AI应用边界

电商内容最现实的痛点是“量”:同一件衣服有多颜色、多尺码、多场景图;同一款商品要适配不同渠道、不同风格与不同活动节点。内容生产一旦靠人工,就会在成本与速度上同时崩溃。公益课里用“营销内容生成”串起了一个完整逻辑:品牌级广告要慎用AI替代,但商品级内容可以用AI把长尾做起来。 一、先分清两种内容:品牌宣传 vs 商品宣传 课程把“传统媒体、专业模特、机构制作”的内容视为品牌宣传,而把网店、素人模特、商品展示视为商品宣传,并明确后续重点放在商品宣传:因为这里存在大量真实、可规模化的生产需求。 二、为什么大品牌用AI会被骂,小商家反而更适合 课程举了可口可乐的例子:2023年“Masterpiece”更像AI辅助创作,而后续更激进的全AI生成广告引发强烈争议,原因之一是公众对“替代人类创意劳动”的敏感。 从行业信息看,可口可乐近年的AI广告确实多次引发讨论与批评。这也解释了课程给出的策略:品牌大叙事要谨慎,但商品图、长尾素材、低预算内容,AI的投入产出比极高。 三、