小型语言模型（SLM）新进展：Falcon3、Ivy-VL 与 Phi-4 性能解析

小型语言模型（SLM）凭借高效性和低成本优势在多个领域应用广泛。近期阿联酋 TII 发布 Falcon3 系列开源模型，支持多语言并优化训练成本；AI Safeguard 联合高校推出 Ivy-VL 轻量级多模态模型，适合边缘设备部署；微软发布 Phi-4 模型，在小参数量下实现超越 GPT-4o 的推理与数学能力。这些进展标志着 AI 轻量化趋势显著，为开发者提供了更多高性能低成本的解决方案。

性能调优发布于 2025/2/7更新于 2026/4/190 浏览

与传统的大型语言模型（LLM）相比，SLM 模型因其较少的参数和更简洁的设计，具备高效性和低成本优势，尤其适合在客户服务、医疗保健、物联网等领域中应用。根据市场研究公司 Valuates Reports 的数据，SLM 市场预计将在未来五年实现 18% 的年均增长。

阿联酋 TII 发布 Falcon3，开启 AI 轻量化时代

近日，阿布扎比技术创新研究所（TII）推出其新一代开源小型语言模型 (SLM)——Falcon3 系列，包括四个不同规模的模型：1B、3B、7B 和 10B。该项目旨在通过提升性能和训练效率，推动开放和可访问的大型基础模型的发展，为开发人员、研究人员和企业提供一种高效且成本低廉的 AI 解决方案。

Falcon3 系列的训练数据规模达到了 14 万亿 tokens，是其前身 Falcon2 的两倍多。

Falcon3 支持英语、法语、西班牙语和葡萄牙语四种语言，并配备了 32K 的上下文窗口，能够处理长输入文本，满足各类行业的需求。

Falcon 3 系列包括五个基础模型，专注于扩展科学、数学和代码能力，并在训练成本上进行了优化。

Falcon3 系列模型性能对比图

Hugging Face 模型链接：https://huggingface.co/blog/falcon3

Falcon3 的表现已在 Hugging Face 排行榜上脱颖而出，超越了与之尺寸相同的开源模型，如 Meta 的 Llama 和 Qwen-2.5。特别是 7B 和 10B 版本在推理速度、语言理解、指令执行以及代码和数学任务等方面，展现了领先的技术优势，甚至在多个基准测试中超越了谷歌、Meta 和阿里巴巴等竞争对手。

Falcon3 基准测试结果

AI Safeguard 联合 CMU 及斯坦福开发 Ivy-VL，轻量级 3B 参数多模态模型

Ivy-VL 是由 AI Safeguard 联合 CMU 与斯坦福开发的一款轻量级多模态模型，拥有仅 3B 的参数，与 7B 以几十 B 的多模态模型相比，具有更小的硬件占用。

Ivy-VL 可以接受图像和文本输入，并生成文本输出。

由于其轻量化设计，该模型可以部署在如 AI 眼镜、智能手机等边缘设备上，具有低内存使用和高速度的特点，同时在多模态任务中保持强大的性能。

Ivy-VL 模型架构示意图

Hugging Face 模型链接：https://huggingface.co/AI-Safeguard/Ivy-VL-llava

通过结合先进的视觉编码器（google/siglip-so400m-patch14-384）与强大的语言模型（Qwen2.5-3B-Instruct），Ivy-VL 在视觉问答、图像描述、复杂推理等任务中表现优异，完美满足端侧应用的多模态需求。

Ivy-VL 在多个基准测试中表现优于其他知名的小型模型。

在专业多模态模型评测榜单 OpenCompass 上面，做到了 4B 以下开源模型第一的性能。超越了顶尖的端侧 SOTA 模型，包括 Qwen2-VL-2B，InternVL2-2B，InternVL2.5-2B，SmolVLM-Instruct, Aquila-VL-2B 以及 PaliGemma 3B 等模型。

Ivy-VL 评测成绩