通义千问Qwen3-VL全面解析:从图像理解到视频分析的AI视觉大模型实战指南!

通义千问Qwen3-VL全面解析:从图像理解到视频分析的AI视觉大模型实战指南!

通义千问VL模型可以根据您传入的图片或视频来进行回答。

应用场景

  • 图像问答:描述图像中的内容或者对其进行分类打标,如识别人物、地点、动植物等。
  • 数学题目解答:解答图像中的数学问题,适用于中小学、大学以及成人教育阶段。
  • 视频理解:分析视频内容,如对具体事件进行定位并获取时间戳,或生成关键时间段的摘要。
  • 物体定位:支持二维和三维定位,可用于判断物体方位、视角变化、遮挡关系。
  • 文档解析:将图像类的文档(如扫描件/图片PDF)解析为 QwenVL HTML或 Markdown格式,该格式不仅能精准识别文本,还能获取图像、表格等元素的位置信息。
  • 视觉编码:可通过图像或视频生成代码,可用于将设计图、网站截图等生成HTML、CSS、JS 代码。
  • 文字识别与信息抽取:识别图像中的文字、公式,或者抽取票据、证件、表单中的信息,支持格式化输出文本;Qwen3-VL模型支持的语言已增加至33种。

这一代在各个方面都进行了全面升级:更优秀的文本理解和生成能力、更深入的视觉感知和推理能力、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力。

提供密集型和 MoE 架构,适用于从边缘到云端的各种规模,并提供 Instruct 和增强推理的 Thinking 版本,以实现灵活的按需部署。

主要增强:

  • 视觉代理:操作 PC/移动 GUI — 识别元素、理解功能、调用工具、完成任务。
  • 视觉编码增强:从图像/视频生成 Draw.io/HTML/CSS/JS。
  • 高级空间感知:判断物体位置、视角和遮挡;提供更强的 2D 接地并启用 3D 接地,用于空间推理和具身 AI。
  • 长上下文和视频理解:原生 256K 上下文,可扩展到 1M;处理书籍和长达数小时的视频,具有完整的回忆和秒级索引。
  • 增强的多模态推理:在 STEM/数学方面表现出色 — 因果分析和基于逻辑、证据的答案。
  • 升级的视觉识别:更广泛、更高质量的预训练能够“识别一切”——名人、动漫、产品、地标、动植物等。
  • 扩展的 OCR:支持 32 种语言(从 19 种增加);在低光、模糊和倾斜条件下表现稳健;更好地处理罕见/古代字符和术语;改进了长文档结构解析。
  • 与纯 LLM 相当的文本理解:无缝的文本-视觉融合,实现无损、统一的理解。

模型架构更新:

img

  1. 交错 MRoPE:通过鲁棒的位置嵌入,在时间、宽度和高度上进行全频分配,增强长时间范围的视频推理。
  2. DeepStack:融合多层 ViT 特征以捕捉细粒度细节并锐化图像-文本对齐。
  3. 文本-时间戳对齐:超越 T-RoPE,实现精确的时间戳基础事件定位,以增强视频时间建模

Qwen3-VL模型合集

可登录ModelScope魔搭社区查看Qwen3-VL模型合集。

有如下红框的模型支持推理API。

每天有2000免费的用量额度。

关于API推理的介绍和使用可以查看该网址:https://www.modelscope.cn/docs/model-service/API-Inference/intro#%E4%BD%BF%E7%94%A8%E6%96%B9%E6%B3%95

注册完后,可在此页面查看访问令牌:https://www.modelscope.cn/my/myaccesstoken

为了快速体验Qwen3-VL的视觉理解能力,我们直接使用API推理。

一直在更新,更多的大模型学习和面试资料已经上传带到ZEEKLOG的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

使用Qwen3-VL进行视觉理解

我们直接使用Qwen3-VL-235B-A22B-Instruct模型进行视觉理解。

可通过右侧的推理API-Inference查看代码示例或者在线体验。

在右侧的聊天窗口可以上传图片,并输入图中描述的是什么景象?

得到的回答还是非常不错的。

此时,使用了一次免费额度。

我们还可以让他识别图中物体,输入内容图中有哪些物体,概率分别多少

以下是完整回答。

在图像分析中,“概率”通常用于机器学习模型对物体检测或分类的置信度,而我们作为人类观察者无法精确量化“概率”。不过,我们可以根据图像内容,以主观置信度(接近100%)判断图中存在哪些物体,并用“极大概率”、“高概率”等描述其确定性

以下是图中可识别的主要物体及其存在可能性评估:


1. 一位女性(年轻女子)

  • 存在概率:≈99.9%
  • 她坐在沙滩上,穿着格子衬衫,面带微笑,与狗互动。面部特征、衣着和姿态都非常清晰。

2. 一只金毛犬(或类似品种的黄色大型犬)

  • 存在概率:≈99.9%
  • 狗坐姿端正,抬起前爪与人击掌,佩戴胸背带,毛色、体型、品种特征明显。

3. 沙滩

  • 存在概率:≈100%
  • 整个前景和中景都是细腻的沙地,有脚印和被风吹过的纹理。

4. 大海/海洋

  • 存在概率:≈100%
  • 背景是广阔的水面,有微小波浪拍打岸边,与天空相接。

5. 夕阳/落日光线

  • 存在概率:≈99.5%
  • 画面右侧有强烈的暖金色光晕,阳光从右后方照射,形成逆光效果和柔和光斑,符合日落时分特征。

6. 狗的牵引绳与胸背带

  • 存在概率:≈99%
  • 狗身上佩戴彩色图案的胸背带,红色牵引绳部分可见于沙地上。

7. 女子佩戴的手表

  • 存在概率:≈98%
  • 左手腕上戴有一块白色表带的手表,在击掌动作中清晰可见。

8. 海浪

  • 存在概率:≈97%
  • 在中景处可见一道正在向岸边推进的白色浪花。

9. 天空

  • 存在概率:≈100%
  • 图像上半部分为明亮的天空,因逆光而呈过曝的白色,但仍可辨识为天空区域。

10. 女子的衣物(格子衬衫、深色裤子)

  • 存在概率:≈99%
  • 衣物材质、颜色、款式清晰可见。

不太可能存在的物体

  • 人以外的其他动物(如海鸟、螃蟹等)——未见。
  • 其他人类(如游客、摄影师)——未见。
  • 建筑物、遮阳伞、沙滩椅等人工设施——未见。
  • 飞机、船只等远处物体——未见。

📌 总结

图中主要物体均清晰可辨,不存在模糊或争议对象。若需用“概率”表达,所有核心物体的存在概率均高于 97%,多数接近 100%。这是一幅构图明确、主题突出的摄影作品,物体识别几乎没有歧义。

💡 如果你希望获得“AI模型输出的概率数值”,那需要使用如 YOLO、Detectron2 等目标检测模型进行推理。但在当前语境下,以上基于视觉观察的“高置信度判断”是最合理的回答方式。

最后结论提到如果需要概率值,可以用YOLO系列的模型。

我们使用代码的方式来进行视觉理解,点击查看代码范例。

可以点击在Notebook中打开直接使用ModelScope提供的免费服务器打开,或者将代码复制到本地的Notebook打开。

示例代码如下:

from openai import OpenAIclient = OpenAI( base_url='https://api-inference.modelscope.cn/v1', api_key='YOUR_API_KEY', # ModelScope Token)response = client.chat.completions.create( model='Qwen/Qwen3-VL-235B-A22B-Instruct', # ModelScope Model-Id, required messages=[{ 'role': 'user', 'content': [{ 'type': 'text', 'text': '描述这幅图', }, { 'type': 'image_url', 'image_url': { 'url': 'https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/audrey_hepburn.jpg', }, }], }], stream=True)for chunk in response: print(chunk.choices[0].delta.content,, flush=True) 

url地址的图片如下:

生成的内容如下:

这是一张经典的黑白照片,拍摄于1950年代,主角是著名影星奥黛丽·赫本(Audrey Hepburn)。照片中,赫本身穿一件轻盈的、带有花卉图案的吊带连衣裙,赤着双脚,蹲在厨房的地板上。她正专注地打开一个老式烤箱的门,身体微微前倾,目光投向烤箱内部,神情显得既认真又略带一丝俏皮和好奇。她的发型是标志性的短发,妆容精致,即使在日常场景中也散发着优雅的气质。厨房环境简洁,背景可见白色的橱柜和窗户,左侧有一个铺着报纸的垃圾桶,整体氛围真实而生活化。这张照片捕捉了赫本在荧幕之外自然、亲切的一面,展现了她作为“邻家女孩”的魅力,与她在电影中的经典形象形成有趣的对比,成为影史中极具代表性和亲和力的一幕。 

我们也可以同时对多张图片进行理解,代码如下:

response = client.chat.completions.create( model='Qwen/Qwen3-VL-235B-A22B-Instruct', # ModelScope Model-Id, required messages=[{ 'role': 'user', 'content': [{ 'type': 'text', 'text': '这些图片描绘了什么内容?', }, { 'type': 'image_url', 'image_url': { 'url': 'https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/audrey_hepburn.jpg', }, }, { 'type': 'image_url', 'image_url': { 'url': 'https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241022/emyrja/dog_and_girl.jpeg', }, } ], }], stream=True)for chunk in response: print(chunk.choices[0].delta.content,, flush=True) 

返回结果:

这两张图片描绘了截然不同但都充满生活气息的场景:

第一张图片(黑白照片):

这张经典的照片拍摄的是著名影星奥黛丽·赫本 (Audrey Hepburn)。她身处一个厨房环境中,正蹲在地上,专注地打开或检查一个老式烤箱的底部抽屉。她穿着一件带有花卉图案的吊带连衣裙,赤着脚,神情认真。整个画面捕捉了一个明星在私密、日常生活中非常接地气的瞬间,展现了她优雅外表下亲和、自然的一面。

第二张图片(彩色照片):

这张温馨的照片展现了一位年轻女子和她的宠物狗在海滩上互动的场景。在夕阳的金色光芒下,女子盘腿坐在沙滩上,面带微笑地看着她的拉布拉多犬。狗狗则乖巧地坐着,将一只前爪搭在主人的手上,仿佛在“击掌”或进行训练互动。背景是平静的海面和柔和的天空,整个画面充满了宁静、快乐与人与宠物之间深厚的情感纽带。


总而言之,第一张图描绘的是名人奥黛丽·赫本在厨房的日常生活瞬间,而第二张图则描绘了一位女子与爱犬在海边享受温馨时光的幸福画面。两者都聚焦于人物与环境的互动,传递出真实而动人的生活感。

视频理解

  • 视频地址:https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241115/cqqkru/1.mp4

代码如下:

response = client.chat.completions.create( model='Qwen/Qwen3-VL-235B-A22B-Instruct', # ModelScope Model-Id, required messages=[{ 'role': 'user', 'content': [{ 'type': 'text', 'text': '这段视频的内容是什么?', }, { 'type': 'video_url', 'video_url': { 'url': 'https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241115/cqqkru/1.mp4', }, }], }], stream=True)for chunk in response: print(chunk.choices[0].delta.content,, flush=True) 

输入内容:

这段视频展示了一位年轻女性的面部特写,背景模糊,焦点集中在她的表情和动作上。她留着齐肩短发,带有刘海,穿着一件粉色针织开衫,内搭白色T恤,佩戴一条细项链。整个视频中,她面带微笑,表情自然生动,时而微笑、时而张嘴说话或轻笑,眼神明亮,充满亲和力。她的笑容温暖,偶尔露出牙齿,显得活泼可爱。整体氛围轻松愉快,给人一种阳光、积极的感觉。右上角有“通义·AI合成”的水印,表明该视频是由AI生成或合成的内容,而非真实拍摄。总结:这是一段由AI生成的女性面部特写视频,展现其自然微笑与生动表情,旨在传递愉悦、亲切的情绪。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到ZEEKLOG的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述
在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传ZEEKLOG,朋友们如果需要可以微信扫描下方ZEEKLOG官方认证二维码免费领取【保证100%免费
在这里插入图片描述

Read more

Neo4j下载安装教程手把手演示(Windows、MacOS、Linux等平台安装包&官方文档、查询语言文档&均附下载链接)

Neo4j下载安装教程手把手演示(Windows、MacOS、Linux等平台安装包&官方文档、查询语言文档&均附下载链接)

目录 * Neo4j 简介 * Neo4j 下载 * Neo4j 安装(演示为Windows10环境) * 配置环境变量 * 启动和访问 * 参考文档下载 Neo4j 简介 最近正好做项目需要用到知识图谱,记录一下。 Neo4j 是一个高性能、基于图形数据库的 NoSQL 数据库,支持复杂的关系建模和查询,使用 Cypher 语言进行查询操作。它广泛应用于社交网络、推荐系统、知识图谱等领域。 官方网站: https://neo4j.com Neo4j 下载 方式①: * Windows * Linux/MacOS * Red Hat Linux * Debian/Ubuntu 访问官网:Neo4j 下载页面 方式②:离线下载安装包,点击即下(推荐!!!): Neo4j

多模态大模型核心原理与实战:从Stable Diffusion到Sora全面解析

多模态大模型核心原理与实战:从Stable Diffusion到Sora全面解析

多模态大模型通过Embedding、信息融合与任务学习处理多源数据。Stable Diffusion利用CLIP和UNet实现文本到图像生成,Sora扩展到视频领域,加入时空切块和一致性模块保证连贯性。大模型赋能推荐系统实现个性化内容生成,如GeneRec和PMG。工程实践中需关注模型瘦身、流式训练及多层级评估体系,平衡效率与正确性。 多模态大模型的基本原理 多模态大模型的整体架构,与纯文本大模型没本质区别,都要经原始数据的 Embedding、信息融合与目标任务学习及微调等过程。 5阶段模型训练: (1) 理解数据并将其 Embedding化。 (2)多模态 Embedding 对齐。 (3)多模态信息交互与融合。 (4)多任务学习。 (5)多模态微调。 Stable Diffusion(稳定扩散模型) (1)文本编码器:负责把输入的 Prompt 映射到 Embedding 空间。 (2)图像信息生成器:负责在 Embedding 空间把文本 Embedding 转换成包含这些文本信息的图像 Embedding。 (3)

YOLO+OpenClaw+SAM微调实战:工业缺陷自动标注的低代码落地

YOLO+OpenClaw+SAM微调实战:工业缺陷自动标注的低代码落地

YOLO+OpenClaw+SAM微调实战:工业缺陷自动标注的低代码落地 不能实时,不代表不能用。微调SAM+云端部署,让工业标注从“人工描边”变“一键验收”。 大家好,我是AI小怪兽。上周有位做PCB质检的读者发来一段视频:标注员正对着一块电路板缺陷图,用鼠标一点点勾勒划痕的边界,一张图花了8分钟。他说:“YOLO能框,但框不准;SAM能分割,但通用模型到我们产线就水土不服。有没有办法让标注员少点鼠标?” 当然有。今天我就结合工业缺陷检测场景,展示一套低代码落地路径:YOLO粗定位 + 微调SAM精分割 + OpenClaw自动调度,让标注员从“动手画”变成“动口验收”。 一、工业自动标注的三道坎 坎1:OpenClaw无法实时推理 OpenClaw从接收指令到调用模型返回结果,5秒以上是常态。产线上的产品不可能等5秒,但标注任务可以——把数千张图丢给AI,让它半夜慢慢跑,员工早上来验收结果,不香吗? 坎2:边缘端算力要求大,且存在安全风险 OpenClaw调用大模型需要至少8GB显存,

银发浪潮下的智能护理革命:全球老龄化社会护理机器人发展研究

银发浪潮下的智能护理革命:全球老龄化社会护理机器人发展研究

一、全球老龄化态势与护理需求激增 1.1 人口结构剧变下的养老挑战 当前,全球人口结构正经历着深刻变革,老龄化浪潮汹涌来袭。世界卫生组织数据清晰地勾勒出未来的图景:到 2050 年,全球 60 岁以上人口预计将飙升至 21 亿,老龄化率一举突破 25%。这一趋势在部分国家尤为显著,日本、韩国、德国等已深陷超深度老龄化的泥沼,养老问题成为社会发展的沉重负担。 以日本为例,这个高度发达的经济体,如今正面临着老龄化的严峻考验。其 65 岁以上人口占比接近 30%,每三个国民中就有一位老人。在街头巷尾,随处可见步履蹒跚的老人,他们的生活需求成为社会关注的焦点。韩国的老龄化速度同样惊人,从老龄化社会迈向超级老龄化社会仅仅用了短短 16 年,预计到 2050 年,65 岁以上人口占比将突破 40%,社会养老压力与日俱增。 而在我国,养老形势也不容乐观。截至 2024