llama.cpp加载多模态gguf模型

优质文章学习记录

06 Apr 2026 — 1 min read

llama.cpp预编译包还不支持cuda12.6

llama.cpp的编译，也有各种坑

llama.cpp.python的也需要编译

llama.cpp命令行加载多模态模型

llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg

**模型主gguf文件要和mmporj文件从一个库里下载，否则会有兼容问题，建议从ggml的官方库里下载
Multimodal GGUFs官方库

llama.cpp.python加载多模态模型

看官方文档
要使用LlamaChatHandler类，官方已经写好了不少多模态模型的加载类，比如qwen2.5vl的写法：

from llama_cpp import Llama

把 Whisper、Moonshine、SenseVoice 统统装进手机：sherpa-onnx 离线语音部署框架，GitHub 10.9K Star

导读：语音 AI 模型更新很快——Whisper、Moonshine、SenseVoice、FireRedASR、Paraformer，几乎每个月都有新模型发布。但对开发者来说，选好模型只是第一步，真正的工程挑战在后面：怎么把它跑在手机上？嵌入式设备上？浏览器里？怎么接入 NPU 加速？怎么在没有网络的环境下运行？ sherpa-onnx 是 next-gen Kaldi 团队开源的语音推理部署框架（GitHub 10.9k stars，Apache 2.0 协议），它的定位很明确：将多种语音模型统一转成 ONNX 格式，部署到各类平台上，支持离线运行。覆盖 12 项语音功能、12 种编程语言、从服务器到嵌入式的多平台支持，最新版 v1.12.29 于

文心一言开源版部署及多维度测评实例

文章目录 * 第一章文心一言开源模型简介 * 第二章模型性能深度实测 * 2.1 通用能力基准测试 * 2.1.1 文本生成质量 * 2.1.2 数学推理能力 * 2.2 极端场景压力测试 * 2.2.1 高并发性能 * 2.2.2 长上下文记忆 * 第三章中文特色能力解析 * 3.1.2 文化特定理解 * 3.2 行业术语处理 * 3.2.1 法律文书解析 * 3.2.2 医疗报告生成 * 第四章开源生态建设评估 * 4.1 模型可扩展性验证 * 4.

（长期有效）接入第三方 OpenAI 兼容模型到 GitHub Copilot

目前 GitHub Copilot 仅支持接入国外的几家模型提供商，无法直接调用 OpenAI 兼容的自定义 API 进行扩展。参考相关解决方案，我总结了一下Copilot中接入OpenAI 兼容 API 的方法。实现方法主要分为两种：方案一：修改 Copilot Chat 源代码在模型选择器中新增自定义提供商选项。方案二：API 兼容适配将 OpenAI 兼容的自定义 API 虚拟化封装为与 Ollama 兼容的 API（运行期间占用 Ollama 端口），从而利用 Copilot 模型选择器中原生的 Ollama 选项。方法一（目前存在问题）具体做法可参考修改Copilot chat插件增加自定义模型提供商这里只说一下这个方法存在的问题： 1. 官方开源的Copilot chat插件版本通常滞后于最新版，可能存在未来兼容性问题 2.

Trae、Cursor、Copilot、Windsurf对比

我最开始用Copilot（主要是结合IDE开发时进行代码补全，生成单元测试用例），但是后面又接触了Cursor，发现Cursor比Copilot更加实用，Cursor生成的单元测试用例更加全面。多以网上查了查资料，这里记录分享一下。这篇文章资料来自于网络，是对部分知识整理，这里只是记录一下，仅供参考前言随着AI技术的爆发式发展，AI编程工具正在重塑软件开发流程。GitHub Copilot作为先驱者长期占据市场主导地位，但新一代工具如Cursor、Windsurf和Trae正以颠覆性创新发起挑战。本文基于多维度实测数据，深度解析三款工具的核心竞争力，揭示AI编程工具的格局演变趋势。工具定位与核心技术 1. Cursor：智能化的全能助手基于VS Code生态深度改造，Cursor融合GPT-4和Claude 3.5模型，支持自然语言转代码生成、跨文件智能补全和自动文档生成。其核心优势在于： * 上下文感知能力：可同时分析10+个关联文件的语义逻辑 * Agent模