多模态赋能情绪理解:Qwen3-VL+LLaMA-Factory 的人脸情绪识别实战

多模态赋能情绪理解:Qwen3-VL+LLaMA-Factory 的人脸情绪识别实战

近年来,人脸情绪识别在智慧监控、教育辅助、人机交互、行为理解等应用场景中迅速发展。

传统的人脸表情识别方法通常依赖CNN或轻量化视觉网络,只基于单一视觉特征进行分类判断。

这类方法虽然在标准数据集上表现优秀,但在真实环境中往往容易受到光照变化、遮挡、拍摄角度、人脸姿态、表情强度差异等因素干扰,导致泛化能力不足。

随着多模态大语言模型(MLLM)的快速突破,一种新的可能性出现——让模型不仅能“看见”图像,还能理解图像背后的语义,并利用语言能力进行辅助推理。

MLLM将视觉+语言融合到统一的表示空间,使模型能够在视觉判断中加入语言逻辑、常识知识及推理能力,为传统视觉任务带来新的发展趋势。

基于此,本项目将探索:

  • 是否可以通过大模型微调提升人脸情绪识别性能?
  • 传统分类任务是否可以转换为 多模态推理任务,从而提升鲁棒性?
  • 使用 LLaMA-Factory 框架微调 Qwen3-VL 是否能在 FER-2013 数据集上获得稳健表现?

项目核心思路

为实现这些目标,本项目基于Qwen3-VL模型,并在FER-2013数据集上进行了深度改造:

1. 任务重构:借助多模态技术突破传统局限

FER-2013作为经典的人脸表情识别数据集,其原始结构为“图片+标签”的纯视觉分类形式,但多模态大语言模型(MLLM)所需的数据集结构为 “图片+prompt(提示词)+答案”

为此,我们需要对该数据集进行提示词重构,将传统的表情分类任务转化为多模态推理任务。

本项目已预置好数据重构的相关代码,执行数据处理流程后,即可将数据集中的每张人脸图片(face.png)封装为 “图片→提示词(instruction)→情绪标签(output)”的结构化形式

这种格式调整将原本单纯的表情识别任务转化为跨模态问答任务,能够帮助大模型更好地利用语言知识完成推理过程。

2.定向微调:使用高效框架提升任务专属性能

基于Qwen3-VL多模态大模型,我们采用LLaMA-Factory框架进行针对性微调,显著增强了模型对人脸情绪识别任务的适配能力。

本项目配置简洁、支持一键启动,可自动完成数据加载、训练与评估,大幅降低显存占用,实现单卡训练。

3.方法转型:从传统视觉分类转向多模态大模型推理

摆脱依赖单一视觉特征的传统模型,引入具备强大自然语言理解与跨模态推理能力的多模态大语言模型(Qwen3-VL),将人脸情绪识别从纯粹的图像分类问题转化为结合视觉与文本推理的复杂任务。

👉Lab4AI一键体验链接

项目操作

Step1 进入项目

在 Lab4AI 平台中搜索或点击对应项目LLaMA-Factory微调Qwen3-VL进行人脸情感识别 ,点击立即体验,使用1卡GPU,大约需要6h,也可以选择多卡。

Step2 激活环境

打开project_reproduce.ipynb,第四部分是快速复现,根据文档指引,在终端激活环境。

Step3 微调训练

在激活环境后,进行微调训练,训练时长视具体配置而定。

训练完成后,您可以在输出文件夹内查看checkpoints和其他训练记录文件,如loss曲线。

Step4 模型评估

根据project_reproduce.ipynb文件在终端运行评估代码。

完成评估后,我们提供了可视化脚本,用于绘制checkpoints准确率变化曲线。

根据训练结果,Step=5000时,模型的准确率达到最佳。

通过该过程,您可以直观地看到微调前后准确率的提升,具体数值显示微调后准确率从基线模型的55.2%提升到73%,提升幅度达到17.8%。

此外,您还可以尝试优化超参数,进一步提升训练效果。

注意: 如果您希望体验从零开始的完整过程,请参考附录中的指南,按照文档进行数据集下载、环境配置等操作。

项目总结

本项目依托Lab4AI平台,基于LLaMA-Factory成功对Qwen3-VL进行了完整的微调流程。

我们将传统的人脸情绪识别任务与多模态大语言模型(MLLM)相结合,探索了MLLM在视觉情绪理解中的应用。

通过微调Qwen3-VL,我们成功将传统的分类任务转化为多模态推理任务,显著提升了模型在复杂场景下的鲁棒性和准确率。

这一方案不仅在人脸情绪识别上取得了显著提升,还为其他视觉任务的多模态大模型应用提供了新的思路,具有广泛的应用前景。

创作者招募中!Lab4AIxLLaMA-Factory邀你共创实战资源

想解锁大模型微调实战,却愁无算力、缺平台?现在机会来了!Lab4AI 联合 LLaMA-Factory 启动创作者招募,诚邀 AI 开发者、学生及技术爱好者提交微调实战案例,通过审核即享算力补贴与官方证书等,共创AI实践新生态。

大模型实验室Lab4AI实现算力与实践场景无缝衔接,具备充足的H卡算力,支持模型复现、训练、推理全流程使用,且具备灵活弹性、按需计费、低价高效的特点,解决用户缺高端算力、算力成本高的核心痛点。

Read more

玩转Llama Factory:打造你的第一个角色扮演AI

玩转Llama Factory:打造你的第一个角色扮演AI 你是否想过为游戏中的NPC赋予智能对话能力,却苦于没有机器学习背景?Llama Factory正是为解决这类问题而生的开源工具。它能让你无需编写复杂代码,就能快速训练和部署角色扮演AI。本文将带你从零开始,使用Llama Factory为游戏NPC创建个性化的对话系统。 这类任务通常需要GPU环境支持,目前ZEEKLOG算力平台提供了包含该镜像的预置环境,可快速部署验证。下面我们就来详细探索如何用最简单的方法实现这一目标。 什么是Llama Factory? Llama Factory是一个专注于大模型训练、微调和部署的开源框架。它的核心优势在于: * 低门槛:提供可视化Web界面,无需编程基础也能操作 * 多功能:支持角色设定、对话训练、模型量化等完整流程 * 兼容性强:适配LLaMA、Mistral、Qwen等多种主流大模型 对于游戏开发者来说,这意味着可以快速为NPC添加符合角色设定的对话能力,而不必从零开始学习深度学习。 快速部署Llama Factory环境 1. 在支持GPU的环境中启动

【愚公系列】《AI短视频创作一本通》012-AI 短视频分镜头设计(AI绘画提示词入门)

【愚公系列】《AI短视频创作一本通》012-AI 短视频分镜头设计(AI绘画提示词入门)

💎【行业认证·权威头衔】 ✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家 ✔ 开发者社区全满贯:ZEEKLOG博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主 ✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者 🏆【荣誉殿堂】 🎖 连续三年蝉联"华为云十佳博主"(2022-2024) 🎖 双冠加冕ZEEKLOG"年度博客之星TOP2"(2022&2023) 🎖 十余个技术社区年度杰出贡献奖得主 📚【知识宝库】 覆盖全栈技术矩阵: ◾ 编程语言:.NET/Java/Python/Go/Node… ◾ 移动生态:HarmonyOS/iOS/Android/小程序 ◾ 前沿领域:

探索云开发Copilot,AI如何重塑开发流程?

探索云开发Copilot,AI如何重塑开发流程?

文章目录 * 1 AI与低代码 * 2 Copilot功能 * 3 案例解析 * 4 Copilot不足 * 5 改进建议 刚接触 Copilot 时, Copilot 的 AI 低代码生成功能让我眼前一亮,使得我开发变得更简洁高效。 以前,我总是依赖手写代码,从搭建环境到实现功能,每一步都非常耗时。 虽然这个过程有助于技术成长,但在面对复杂需求时,常常觉得费时费力。 1 AI与低代码 低代码平台通过拖拽组件和模块化开发,极大地降低了技术门槛,让没有开发背景的人也能轻松实现自己的创意。 这种方式不仅快速,而且灵活,适合那些想要快速搭建应用的用户。再加上人工智能在自然语言理解和代码生成方面的突破,开发效率也得到了极大的提升。 云开发 Copilot 正好是这种结合的典型代表。它不仅利用低代码技术简化开发过程,还融合了AI智能生成和优化的功能,帮助开发者更高效地从需求到最终实现。 通过这种方式,不管是技术新手还是有一定开发经验的人,都能更轻松地完成项目,云开发 Copilot 体验地址:https://tcb.

手把手教你在AutoDL上用LLaMA-Factory微调GPT-OSS-20B模型(LoRA版)

手把手教你在AutoDL上用LLaMA-Factory微调GPT-OSS-20B模型(LoRA版)

本教程详细讲解如何在AutoDL云GPU上使用LLaMA-Factory框架微调GPT-OSS-20B大语言模型,包含完整的环境配置、训练流程、权重合并以及vLLM推理部署全流程。文章最后还分享了笔者踩过的坑和解决方案,建议收藏备用! 前言 最近在做一个智能采购相关的项目,需要对大语言模型进行微调,让它能够更好地理解采购场景的业务需求。在对比了多种方案后,最终选择了LLaMA-Factory + LoRA的组合,原因主要有三点: 1. 开箱即用:LLaMA-Factory提供了非常完善的训练框架,支持多种微调方式 2. 显存友好:LoRA相比全参数微调,显存占用大幅降低 3. 效果不错:在采购对话场景下,LoRA微调已经能够满足业务需求 本文将完整记录从环境配置到模型部署的全过程,希望能够帮助到有同样需求的小伙伴。 一、方案概览 在开始之前,先来看一下整体的技術方案: 组件选择说明微调框架LLaMA-Factory 0.9.4开源的大模型训练框架基础模型GPT-OSS-20B200亿参数的MoE大模型微调方式LoRA低秩适配,显存友好推理引擎vLLM高性能推