llama.cpp加载多模态gguf模型

llama.cpp预编译包还不支持cuda12.6
llama.cpp的编译,也有各种坑
llama.cpp.python的也需要编译
llama.cpp命令行加载多模态模型
llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg 

**模型主gguf文件要和mmporj文件从一个库里下载,否则会有兼容问题,建议从ggml的官方库里下载
Multimodal GGUFs官方库

llama.cpp.python加载多模态模型

看官方文档
要使用LlamaChatHandler类,官方已经写好了不少多模态模型的加载类,比如qwen2.5vl的写法:

from llama_cpp import Llama 

Read more

OpenCode 完全使用指南:开源 AI 编程助手入门到精通

OpenCode 完全使用指南:开源 AI 编程助手入门到精通 本教程基于 OpenCode 官方文档(https://opencode.ai/docs)和 GitHub 仓库(https://github.com/anomalyco/opencode)编写,适合零基础新手入门。 📚 目录 1. 什么是 OpenCode 2. 安装指南 3. 快速开始 4. 配置文件详解 5. Provider 配置 6. TUI 终端界面使用 7. Agent 系统 8. 自定义命令 9. 快捷键配置 10. MCP 服务器 11. LSP

颠覆级里程碑:Whisper Large-V3-Turbo重构语音交互技术范式

颠覆级里程碑:Whisper Large-V3-Turbo重构语音交互技术范式 【免费下载链接】whisper-large-v3-turbo 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-large-v3-turbo 技术背景:实时交互时代的语音识别困境 在智能座舱、远程医疗、元宇宙社交等新兴场景推动下,语音交互正从"可用"向"自然"跨越。行业数据显示,当语音识别延迟超过180ms时,用户对话流畅度将下降47%,而多语言混合场景的识别错误率普遍高达23%。传统语音模型面临三重矛盾:高性能模型推理成本过高(单句识别需GPU支持)、轻量化方案精度损失显著(WER提升11-15%)、多语言支持与识别速度难以兼得。OpenAI此次推出的Whisper Large-V3-Turbo,通过解码层重构+注意力机制优化的组合策略,正在改写语音识别技术的效率边界。 核心特性:解码革命与性能跃迁 架构突破:从32层到4层的极限压缩 Whisper Large-V3-Turbo实现了87.5%

如何在Mac上实现离线AI绘画:Mochi Diffusion完全指南

如何在Mac上实现离线AI绘画:Mochi Diffusion完全指南 【免费下载链接】MochiDiffusionRun Stable Diffusion on Mac natively 项目地址: https://gitcode.com/gh_mirrors/mo/MochiDiffusion 在AI绘画技术日益普及的今天,Mochi Diffusion 为您提供了在Mac设备上原生运行的稳定扩散模型解决方案。这款基于SwiftUI开发的应用程序专为Apple Silicon芯片深度优化,让您无需网络连接即可享受高效的本地AI图像创作体验。🎨 为什么选择本地AI绘画工具? Mochi Diffusion 与其他云端AI绘画工具相比,具有以下显著优势: * 数据隐私绝对保障:所有图像生成过程都在您的设备上完成,敏感信息不会离开本地 * 离线创作无忧:无论身处何地,只要有Mac就能进行AI艺术创作 * 性能极致优化:针对M1、M2等Apple Silicon芯片的Neural Engine进行专门调优 快速入门:从零开始搭建创作环境 获取应用程序源码 通过以

【GitHub开源AI精选】WhisperLiveKi:开源实时语音识别利器,实时转写+说话人识别+完全本地部署,一键搞定会议纪要

【GitHub开源AI精选】WhisperLiveKi:开源实时语音识别利器,实时转写+说话人识别+完全本地部署,一键搞定会议纪要

系列篇章💥 No.文章1【GitHub开源AI精选】LLM 驱动的影视解说工具:Narrato AI 一站式高效创作实践2【GitHub开源AI精选】德国比勒费尔德大学TryOffDiff——高保真服装重建的虚拟试穿技术新突破3【GitHub开源AI精选】哈工大(深圳)& 清华力作 FilmAgent:剧本自动生成 + 镜头智能规划,开启 AI 电影制作新时代4【GitHub开源AI精选】Lumina - Image 2.0 文生图模型,以小参数量实现高分辨率多图生成新突破5【GitHub开源AI精选】探索 Mobile-Agent:X-PLUG 推出的创新型移动智能操作代理6【GitHub开源AI精选】吴恩达团队开源VisionAgent:用自然语言开启计算机视觉新时代7【GitHub开源AI精选】Oumi:一站式AI开发平台,涵盖训练、评估与部署全流程8【GitHub开源AI精选】深入剖析RealtimeSTT:开源实时语音转文本库的强大功能与应用9【GitHub开源AI精选】PodAgent:多智能体协作播客生成框架,