llama.cpp加载多模态gguf模型

优质文章学习记录

11 Apr 2026 — 1 min read

llama.cpp预编译包还不支持cuda12.6

llama.cpp的编译，也有各种坑

llama.cpp.python的也需要编译

llama.cpp命令行加载多模态模型

llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg

**模型主gguf文件要和mmporj文件从一个库里下载，否则会有兼容问题，建议从ggml的官方库里下载
Multimodal GGUFs官方库

llama.cpp.python加载多模态模型

看官方文档
要使用LlamaChatHandler类，官方已经写好了不少多模态模型的加载类，比如qwen2.5vl的写法：

from llama_cpp import Llama

扣子（Coze） Skills+OpenClaw 实战：零基础玩转AI智能体

最近龙虾太火了，但大家满怀期待地装好小龙虾，面对界面却无从下手，最后只能让这么强大的智能体在电脑里吃灰，甚至还要再花钱找人帮忙卸载。同样部署了OpenClaw，为什么别人能用它提效工作、做账号，你的小龙虾却只会陪聊、不断失忆，最终空耗Token，白白烧光你的钱包？答案很扎心：因为你的小龙虾，缺少最关键的核心武器——Skills（技能）！当Agent装备上Skills，它会瞬间进化成能替你跑腿、帮你创收的“数字分身”！别再让你的“小龙虾”在无效对话中白白浪费算力了。资深AI专家邢云阳倾力打造的新书《扣子（Coze） Skills+OpenClaw 实战：零基础玩转AI智能体》，将带你打通从“零基础部署”到“高阶应用”的全链路。本书不仅教你用上龙虾，更手把手教你玩转Skills，让这只龙虾真正成为替你打工的超级利器！看完这本书，AI真的会替你干活！ ▼点击下方，即可购书 Part.1 什么是Skills？ Skills是Anthropic专为Claude打造的模块化能力框架，现今已被众多大语言模型工具借鉴沿用。简单

让“小爱音箱PRO”智能起来：接入豆包AI

下面提供从 0 到 1 的完整流程，包含豆包 API 申请、MiGPT 部署、配置与使用，确保你能顺利让小爱音箱 Pro 用上豆包的强大能力。一、准备工作（必做）二、申请豆包 API 密钥（关键步骤）豆包 API 需通过火山引擎方舟平台申请，以下是详细步骤： 1. 注册与实名认证 1. 访问火山引擎官网：https://www.volcengine.com/ 2. 注册账号并完成实名认证（个人 / 企业均可） 3. 登录后进入方舟大模型平台 2. 创建 API 密钥与推理接入点 1. 进入控制台 → API 密钥管理 → 点击 "

Kubernetes与AI推理服务最佳实践

Kubernetes与AI推理服务最佳实践 1. AI推理服务核心概念 1.1 什么是AI推理服务 AI推理服务是指将训练好的AI模型部署为可访问的服务，用于实时或批量处理推理请求。在Kubernetes环境中，AI推理服务需要考虑资源管理、性能优化和高可用性。 1.2 常见的AI推理框架 * TensorFlow Serving：Google开源的机器学习模型服务框架 * TorchServe：PyTorch官方的模型服务框架 * ONNX Runtime：微软开源的跨平台推理引擎 * Triton Inference Server：NVIDIA开源的高性能推理服务器 2. GPU资源管理 2.1 安装GPU驱动和NVIDIA Device Plugin # 安装NVIDIA驱动（在节点上执行） apt-get install -y nvidia-driver-535 # 安装NVIDIA Device Plugin kubectl apply -f https://raw.githubusercontent.com/NVIDIA/

无线联邦学习：在保护隐私的无线网络中，让AI协同进化

🔥作者简介：一个平凡而乐于分享的小比特，中南民族大学通信工程专业研究生，研究方向无线联邦学习 🎬擅长领域：驱动开发，嵌入式软件开发，BSP开发 ❄️作者主页：一个平凡而乐于分享的小比特的个人主页 ✨收录专栏：无线通信技术，本专栏介绍无线通信相关技术欢迎大家点赞 👍 收藏 ⭐ 加关注哦！💖💖 无线联邦学习：在保护隐私的无线网络中，让AI协同进化一、什么无线联邦学习？想象这样一个场景：全国各地的医院都想联合训练一个AI模型来诊断疾病，但患者的医疗数据极其敏感，不能离开医院。传统方法是把所有数据集中到一个中心服务器，但这会造成隐私泄露风险。怎么办？无线联邦学习就像一位“知识快递员”——它不收集原始数据，而是让各地的医院在本地训练模型，然后只把模型“更新心得”（梯度或参数）通过无线网络传给中心服务器，由服务器汇总大家的智慧，形成一个更强大的模型。核心思想 * 数据不动模型动：原始数据永远留在本地设备 * 仅上传模型更新：只传输学习到的参数，而非数据本身 * 无线传输媒介：通过Wi-Fi、5G等无线网络进行通信本地设备3 本地设备2 本地设