【AI大模型前沿】Stream-Omni:多模态交互的黄金三角 - 视觉、语音、文本的完美融合

【AI大模型前沿】Stream-Omni:多模态交互的黄金三角 - 视觉、语音、文本的完美融合

系列篇章💥

No.文章
1【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath:如何革新癌症病理诊断技术
2【AI大模型前沿】清华大学 CLAMP-3:多模态技术引领音乐检索新潮流
3【AI大模型前沿】浙大携手阿里推出HealthGPT:医学视觉语言大模型助力智能医疗新突破
4【AI大模型前沿】阿里 QwQ-32B:320 亿参数推理大模型,性能比肩 DeepSeek-R1,免费开源
5【AI大模型前沿】TRELLIS:微软、清华、中科大联合推出的高质量3D生成模型
6【AI大模型前沿】Migician:清华、北大、华科联手打造的多图像定位大模型,一键解决安防监控与自动驾驶难题
7【AI大模型前沿】DeepSeek-V3-0324:AI 模型的全面升级与技术突破
8【AI大模型前沿】BioMedGPT-R1:清华联合水木分子打造的多模态生物医药大模型,开启智能研发新纪元
9【AI大模型前沿】DiffRhythm:西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型
10【AI大模型前沿】R1-Omni:阿里开源全模态情感识别与强化学习的创新结合
11【AI大模型前沿】Qwen2.5-Omni:阿里巴巴的多模态大模型,实现看、听、说、写一体化
12【AI大模型前沿】SmolDocling:256M参数的轻量级多模态文档处理利器,10分钟搞定百页PDF
13【AI大模型前沿】Stable Virtual Camera:Stability AI 推出的2D图像转3D视频模型,一键生成沉浸式视频
14【AI大模型前沿】阿里 Qwen3 震撼开源,模型新王诞生,开启全球大模型新纪元
15【AI大模型前沿】InternVL:OpenGVLab开源多模态大模型,解锁视觉问答与多语言翻译的全能应用图鉴
16【AI大模型前沿】Fin-R1:上海财经大学联合财跃星辰推出的金融推理大模型,凭7B参数拿下评测第二,离行业第一仅差3分
17【AI大模型前沿】Med-R1:基于强化学习的医疗视觉语言模型,突破跨模态医学推理的普适性
18【AI大模型前沿】Baichuan-M1-14B:百川智能推出专为医疗优化的开源大语言模型
19【AI大模型前沿】一键生成宫崎骏动画风,EasyControl Ghibli 让照片秒变吉卜力艺术品
20【AI大模型前沿】TxGemma:谷歌推出的高效药物研发大模型,临床试验预测准确率超90%
21【AI大模型前沿】F5R-TTS:腾讯推出TTS领域的新王者,又快又准又自然,零样本语音克隆新高度
22【AI大模型前沿】MiniMind-V:低成本打造超小多模态视觉语言模型(仅需1.3元人民币和1小时)
23【AI大模型前沿】MoCha:端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作
24【AI大模型前沿】HuatuoGPT-o1-7B:中英文双语医学推理,打破语言障碍的AI大模型
25【AI大模型前沿】MedReason:大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家
26【AI大模型前沿】SkyReels-V2:昆仑万维开源的无限时长电影生成模型,开启视频生成新纪元
27【AI大模型前沿】Dia:Nari Labs开源16亿参数TTS模型,只需文本输入,生成媲美真人对话的语音
28【AI大模型前沿】阿里巴巴开源LHM:单图生成可动画3D人体模型,开启3D建模新纪元
29【AI大模型前沿】TinyLLaVA-Video-R1:北航开源视频推理模型、小尺寸大智慧、参数少一半,性能翻一番
30【AI大模型前沿】TTRL:测试时强化学习,开启无标签数据推理新篇章
31【AI大模型前沿】Aero-1-Audio:Qwen2.5架构加持,轻量级音频模型天花板、吊打Whisper
32【AI大模型前沿】DianJin-R1:阿里云通义点金联合苏大推出的金融推理增强大模型
33【AI大模型前沿】VITA-Audio:腾讯开源的高效语音交互多模态大语言模型
34【AI大模型前沿】Multiverse:全球首个AI多人游戏世界模型,低成本高效率新突破
35【AI大模型前沿】Seed1.5-VL:多模态理解的效率革新者,以小博大,性能惊艳
36【AI大模型前沿】ViLAMP:蚂蚁集团和人民大学联手打造的长视频理解利器,单卡处理3小时视频
37【AI大模型前沿】Muyan-TTS:开源零样本语音合成模型、0.33秒极速生成播客级语音、小白也能玩转AI配音
38【AI大模型前沿】Dolphin:字节跳动开源文档解析大模型,轻量级、高效、多格式,开启文档处理新时代
39【AI大模型前沿】ChatTS:字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理
40【AI大模型前沿】Index-AniSora:B站开源的动漫视频生成模型,助力高效创作
41【AI大模型前沿】RelightVid:上海 AI Lab联合复旦等高校推出的视频重照明模型
42【AI大模型前沿】BAGEL:字节跳动开源、多模态大模型的创新突破与实践指南
43【AI大模型前沿】Matrix-Game:昆仑万维开源大模型,一键生成你的专属虚拟世界
44【AI大模型前沿】Pixel Reasoner:滑铁卢联合港科大等高校推出的视觉语言模型,助力视觉推理新突破
45【AI大模型前沿】CoGenAV:多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+
46【AI大模型前沿】Ming-Lite-Omni:蚂蚁集团开源的统一多模态大模型的创新实践
47【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型
48【AI大模型前沿】OmniAudio:阿里通义实验室的空间音频生成模型,开启沉浸式体验新时代
49【AI大模型前沿】MiniCPM 4.0:面壁智能开源的极致高效端侧大模型(小版本、低消耗、220倍极致提速)
50【AI大模型前沿】SmolVLA:Hugging Face开源的轻量级视觉-语言-行动机器人模型
51【AI大模型前沿】Time-R1:伊利诺伊大学香槟分校开源的时间推理语言模型、实现过去→未来全链路推演
52【AI大模型前沿】MonkeyOCR:基于结构-识别-关系三元组范式的文档解析模型
53【AI大模型前沿】GLM-4.5:智谱打造的开源SOTA模型,推理、代码与智能体能力融合先锋
54【AI大模型前沿】百度飞桨PaddleOCR 3.0开源发布,支持多语言、手写体识别,赋能智能文档处理
55【AI大模型前沿】Stream-Omni:多模态交互的“黄金三角”——视觉、语音、文本的完美融合

目录


前言

随着人工智能技术的飞速发展,多模态大模型(Multimodal Large Models, LMMs)逐渐成为研究和应用的热点。

Stream-Omni 是中国科学院计算技术研究所、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的类似 GPT-4o 的大型语言-视觉-语音模型,能够同时支持文本、图像和语音等多种模态的交互。该模型不仅在视觉理解、语音交互和视觉引导的语音交互任务上表现出色,还通过高效的模态对齐机制,实现了在少量全模态数据(如 23000 小时语音数据)下的高效训练,为用户提供更丰富的多模态交互体验。

Stream-Omni 的核心优势在于其灵活的交互模式和高效的训练策略,使其在智能车载系统、教育辅助工具、智能家居控制、医疗辅助诊断和智能客服服务等多个领域具有广泛的应用前景。


在这里插入图片描述

一、项目概述

Stream-Omni 是一个基于大型语言模型(LLM)的多模态交互模型,能够同时处理文本、图像和语音三种模态的输入,并生成相应的文本和语音输出。该模型通过序列维度拼接和层维度映射的方式,实现了视觉与文本的对齐,以及语音与文本的对齐,从而在视觉理解、语音交互和视觉引导的语音交互任务上表现出色。Stream-Omni 的训练仅需少量全模态数据,训练效率高,适合在资源有限的环境中部署。


二、技术原理

1. 基于 LLM 的骨干架构

Stream-Omni 的核心是基于大型语言模型(LLM)的骨干架构。LLM 作为模型的核心,提供了强大的语言理解和生成能力,为多模态交互提供了基础支持。通过将 LLM 与视觉和语音模态进行对齐,Stream-Omni 实现了跨模态的交互能力。

2. 视觉文本对齐

为了实现视觉与文本的对齐,Stream-Omni 使用序列维度拼接的方式,将视觉编码器提取的视觉特征与文本输入进行拼接,再共同输入到 LLM 中,实现视觉和文本模态的对齐。这种方式使得模型能够更好地理解图像内容,并生成与之相关的文本信息。

3. 语音文本对齐

对于语音与文本的对齐,Stream-Omni 引入了基于 CTC(Connectionist Temporal Classification)的层维度映射。在 LLM 的底部和顶部添加语音层,实现语音到文本的映射和文本到语音的生成,从而将语音模态与文本模态对齐。这种对齐方式使得模型能够在语音交互过程中实时生成语音输出,提供流畅的交互体验。

4. 多任务学习

Stream-Omni 采用多任务学习策略,同时训练视觉文本、语音文本及全模态(视觉+文本+语音)的任务,让模型更好地理解和生成多模态内容。这种策略不仅提高了模型的泛化能力,还增强了其在不同任务上的适应性。

5. 实时语音生成

基于特殊的语音层设计和层维度映射,Stream-Omni 在生成文本的同时,实时生成对应的语音输出,实现流畅的语音交互。这种能力使得用户在语音交互过程中能够同时看到文本和听到语音,从而获得更全面的交互体验。

6. 数据驱动与监督学习结合

Stream-Omni 依赖少量多模态数据进行训练,基于精心设计的对齐机制和多任务学习,能在有限的数据上实现高效的模态对齐和交互能力。这种设计使得模型在数据稀缺的情况下仍能保持良好的性能。


在这里插入图片描述

三、主要功能

1. 多模态输入与输出

Stream-Omni 支持文本、图像和语音等多种模态的输入,并能同时生成文本和语音输出。这种能力使得模型能够处理复杂的多模态交互任务,满足不同场景下的需求。

2. 无缝“边听边看”体验

在语音交互过程中,Stream-Omni 能实时输出中间文本结果(如自动语音识别 ASR 转录和模型响应),为用户提供更丰富的交互体验。这种无缝的交互体验类似于 GPT-4o 的高级语音服务,提升了用户的交互满意度。

3. 高效训练

Stream-Omni 仅需少量全模态数据(如 23000 小时语音数据)进行训练,对数据需求量小,训练效率高。这种高效训练能力使得模型能够在资源有限的环境中快速部署和使用。

4. 灵活的交互模式

Stream-Omni 支持多种模态组合的交互,包括文本+视觉→文本、文本+视觉→语音、语音+视觉→文本、语音+视觉→语音等,满足不同场景下的交互需求。这种灵活性使得模型能够适应各种应用场景,提高其适用性。

5. 视觉理解与语音交互

Stream-Omni 在视觉理解任务和语音交互任务上表现出色,能准确理解和生成与视觉内容相关的文本和语音信息。这种能力使得模型在智能车载系统、教育辅助工具、智能家居控制、医疗辅助诊断和智能客服服务等多个领域具有广泛的应用前景。


四、评测结果

1. 视觉理解能力

在多个视觉理解基准测试中,Stream-Omni 表现出色。例如,在 VQA-v2、GQA、VizWiz、ScienceQA-IMG、TextVQA、POPE、MME、MMBench、SEED-Bench 和 LLaVA-Bench-in-the-Wild 等基准测试中,Stream-Omni 的性能接近或超越了最先进的视觉导向 LMMs,如 LLaVA、BLIP-2、InstructBLIP、Qwen-VL、SPHINX 和 mPLUG-Owl2 等。

在这里插入图片描述

2. 语音交互能力

在语音交互任务中,Stream-Omni 也表现出色。在 Llama Questions 和 Web Questions 等基准测试中,Stream-Omni 的准确率分别为 76.3% 和 65.0%,在语音到文本(S→T)和语音到语音(S→S)任务中均优于其他模型。此外,Stream-Omni 在语音识别任务中的 WER(Word Error Rate)也优于其他模型,如 Whisper、SpeechGPT、Moshi、Mini-Omni、Freeze-Omni 和 GLM-4-Voice 等。

3. 视觉引导的语音交互能力

在视觉引导的语音交互任务中,Stream-Omni 也表现出色。在 SpokenVisIT 基准测试中,Stream-Omni 的评分分别为 3.93 分(视觉+文本→文本)和 3.68 分(视觉+语音→文本),在语音生成任务中也表现出色。这种能力使得模型在真实世界中能够更好地理解和生成语音信息。

4. 语音-文本映射质量

在语音-文本映射任务中,Stream-Omni 的表现也优于其他模型。在 LibriSpeech 基准测试中,Stream-Omni 的 WER 为 3.0%,在语音识别任务中的推理时间也优于其他模型。这种高质量的映射能力使得模型在语音交互任务中能够提供更准确的语音输出。


五、应用场景

1. 智能车载系统

在智能车载系统中,司机可以通过语音指令查询路线、获取路况,系统结合视觉信息(如导航地图、路况摄像头图像)实时显示文本提示和语音反馈,提升驾驶安全性和交互效率。

2. 教育辅助工具

在教育场景中,学生可以通过语音提问,系统依据教材视觉内容(如图表、图片)给出详细文本解释和语音回答,帮助学生更好地理解和学习知识。

3. 智能家居控制

作为智能家居助手,用户可以通过语音指令控制家电设备,系统结合视觉输入(如摄像头捕捉的环境信息)提供文本或语音反馈,实现更智能、便捷的家居控制。

4. 医疗辅助诊断

在医疗场景中,医生可以通过语音指令查询关键信息,系统结合视觉报告(如 X 光片、CT 图像)提供详细的文本分析和语音解释,辅助医生更准确地做出诊断。

5. 智能客服服务

在客服领域,客服人员可以通过语音与客户交流,系统实时显示相关文本信息和视觉提示(如产品图片、操作流程图),帮助客服人员快速理解客户需求并提供准确解答,提升服务质量和效率。


六、快速使用

1. 模型下载

1)从这里下载 Stream-Omni 模型,放入 ${STREAMOMNI_CKPT} 。
https://huggingface.co/ICTNLP/stream-omni-8b

2)从这里下载 CosyVoice(分词器 & 流模型),放入 COSYVOICE_CKPT=./CosyVoice-300M-25Hz :
https://modelscope.cn/models/iic/CosyVoice-300M-25Hz/files

2. 安装依赖

conda create -n streamomni python=3.10 -y conda activate streamomni pip install -e . pip install flash-attn --no-build-isolation pip install -r requirements.txt pip install -r CosyVoice/requirements.txt 

3. 命令交互

运行这些脚本以进行基于视觉的语音交互:

exportCUDA_VISIBLE_DEVICES=0exportPYTHONPATH=CosyVoice/third_party/Matcha-TTS STREAMOMNI_CKPT=path_to_stream-omni-8b # Replace the path of cosyvoice model in run_stream_omni.py (e.g., cosyvoice = CosyVoiceModel('./CosyVoice-300M-25Hz')) # add --load-8bit for VRAM lower than 32GB  python ./stream_omni/eval/run_stream_omni.py \ --model-path ${STREAMOMNI_CKPT}\ --image-file ./stream_omni/serve/examples/cat.jpg --conv-mode stream_omni_llama_3_1 --model-name stream-omni \ --query ./stream_omni/serve/examples/cat_color.wav 

你应该得到以下输出:

ASR Outputs: What is the color of the cat LLM Outputs: The cat is gray and black. Speech Tokens: <Audio_2164><Audio_2247><Audio_671><Audio_246><Audio_2172><Audio_1406><Audio_119><Audio_203><Audio_2858><Audio_2099><Audio_1716><Audio_22><Audio_1736><Audio_1038><Audio_4082><Audio_1655><Audio_2409><Audio_2104><Audio_571><Audio_2255><Audio_73><Audio_760><Audio_822><Audio_701><Audio_2583><Audio_1038><Audio_2203><Audio_1185><Audio_2103><Audio_1718><Audio_2610><Audio_1883><Audio_16><Audio_792><Audio_8><Audio_8><Audio_535><Audio_67> Speech Outputs: Audio saved at ./output_893af1597afe2551d76c37a75c813b16.wav 

结语

Stream-Omni 是一个强大的多模态交互模型,能够同时处理文本、图像和语音等多种模态的输入,并生成相应的文本和语音输出。其灵活的交互模式、高效的训练策略和广泛的应用场景,使其在智能车载系统、教育辅助工具、智能家居控制、医疗辅助诊断和智能客服服务等多个领域具有广泛的应用前景。通过本文的详细介绍,相信读者能够全面了解 Stream-Omni 的技术原理、主要功能和应用场景,并在实际项目中灵活应用。

项目资料

  • 论文地址:https://arxiv.org/pdf/2506.13642
  • GitHub 仓库:https://github.com/ictnlp/Stream-Omni

在这里插入图片描述

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南AI大模型探索之路(零基础入门)AI大模型预训练微调进阶AI大模型开源精选实践AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(ZEEKLOG博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!

Read more

颠覆级里程碑:Whisper Large-V3-Turbo重构语音交互技术范式

颠覆级里程碑:Whisper Large-V3-Turbo重构语音交互技术范式 【免费下载链接】whisper-large-v3-turbo 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-large-v3-turbo 技术背景:实时交互时代的语音识别困境 在智能座舱、远程医疗、元宇宙社交等新兴场景推动下,语音交互正从"可用"向"自然"跨越。行业数据显示,当语音识别延迟超过180ms时,用户对话流畅度将下降47%,而多语言混合场景的识别错误率普遍高达23%。传统语音模型面临三重矛盾:高性能模型推理成本过高(单句识别需GPU支持)、轻量化方案精度损失显著(WER提升11-15%)、多语言支持与识别速度难以兼得。OpenAI此次推出的Whisper Large-V3-Turbo,通过解码层重构+注意力机制优化的组合策略,正在改写语音识别技术的效率边界。 核心特性:解码革命与性能跃迁 架构突破:从32层到4层的极限压缩 Whisper Large-V3-Turbo实现了87.5%

Spec-Kit+Copilot打造AI规格驱动开发

Spec-Kit+Copilot打造AI规格驱动开发

作者:算力魔方创始人/英特尔创新大使 刘力 一,什么是Spec-Kit? 在传统的软件开发中,通常先有需求→ 写规格 → 再写代码;规格多数是“指导性文档”,而真正的业务逻辑和边界由程序员“翻译”出来。Spec-Driven Development(规格驱动开发)的理念是,将规格(spec)从“仅供参考”提升为可执行、可驱动的核心工件,直接引导后续设计、计划、任务拆解、实现等流程。spec-kit 是 GitHub 提供的一个工具集 / CLI / 模板库,用来在项目中落地这种流程! Github: https://github.com/github/spec-kit 二,搭建运行环境 本节将指导您从零开发搭建Spec-Kit的运行环境。 第一步:在Ubuntu24.04上安装uv: curl -LsSf

AI绘画新选择:对比Stable Diffusion与Z-Image-Turbo的快速搭建方案

AI绘画新选择:对比Stable Diffusion与Z-Image-Turbo的快速搭建方案 为什么需要快速切换AI绘画模型? 作为一名数字艺术家,我经常需要在不同AI绘画模型之间切换测试效果。传统方式每次都要重新配置环境,不仅耗时耗力,还可能遇到依赖冲突等问题。本文将分享如何通过预置环境快速对比Stable Diffusion和Z-Image-Turbo这两个热门模型。 这类任务通常需要GPU环境支持,目前ZEEKLOG算力平台提供了包含这两个模型的预置镜像,可以快速部署验证。下面我会从实际使用角度,带你了解两种模型的特性差异和部署技巧。 环境准备与快速启动 基础环境要求 * GPU:建议NVIDIA显卡,显存≥8GB(Z-Image-Turbo最低6GB也可运行) * 系统:Linux/Windows WSL2 * 驱动:CUDA 11.7+ 一键启动命令 # 拉取预置镜像(已包含双模型) docker pull ZEEKLOG/ai-painting:sd-zimage # 启动容器(自动挂载输出目录) docker run -it --gpus al

OpenClaw 和 Claude Code、Cursor、Copilot 有什么区别

在了解了 OpenClaw 的基本能力之后,很多人都会产生一个很自然的问题: 它和常见的 AI 编程工具到底有什么区别? 比如: * Claude Code * Cursor * GitHub Copilot 这些工具看起来都能: * 写代码 * 改代码 * 提供建议 但如果你真正用过一段时间,就会发现: 它们解决的问题,其实不在一个层面。 这一篇我们就从实际使用角度,把它们的区别讲清楚。 一、先说结论:它们不是“替代关系” 很多人会下意识认为: OpenClaw 是不是 Cursor / Copilot 的升级版? 其实不是。 更准确的理解是: 它们分属于不同类型的工具,可以配合使用,而不是互相替代。 简单划分一下: * Copilot / Cursor:写代码的助手 * Claude Code:理解和修改代码的助手 * OpenClaw:执行任务的 Agent 接下来我们分别看。 二、