记录一下使用llama.cpp过程中遇到的一些问题和解决方法

优质文章学习记录

05 Apr 2026 — 8 min read

写在前面：

什么未操作即同意的条款？我写的东西免费分享也不是你能随意搬运的理由啊

特此声明，若该文章被搬运到除ZEEKLOG（www.ZEEKLOG.net）以外的其他社区如2048 AI社区，则视为该社区同意将所有收益无偿捐赠给我所有

此外，我写的所有分享都是免费的，如有VIP文章也是ZEEKLOG干的，请私信我修改成免费

起因：使用LMStudio调用AI模型时发现显存占用率一直不超过80%，询问AI解决办法无果后一怒之下换用llama.cpp，遇到了一堆AI解决不了的问题，遂记录

llama.cpp下载地址如下

https://github.com/ggml-org/llama.cpp/releases

以防万一我老年痴呆说一下如何使用llama.cpp调用模型，把下面的代码保存成bat，放在和llama-server.exe同目录下，然后运行这个bat（确保模型位置选对，GPU_LAYERS和THREADS根据机器能力）

@echo off setlocal set "MODEL_PATH=F:\Models\Yakyu" set "MODEL_FILE=Qwen3-235B-A22B-Instruct-2507-UD-Q8.gguf" set CTX_SIZE=32768 set HOST=127.0.0.1 set PORT=1234 echo 正在启动 OpenAI 兼容 API 服务... echo 模型: %MODEL_PATH%\%MODEL_FILE% echo 端口: http://%HOST%:%PORT% echo. llama-server.exe ^ -m "%MODEL_PATH%\%MODEL_FILE%" ^ --ctx-size %CTX_SIZE% ^ --host %HOST% ^ --port %PORT% echo. echo 服务已停止。按任意键关闭窗口... pause >nul

cmd窗口出现上图的“all slots are idle”说明模型加载完，此时可以调用了，如果出现乱码将 .bat 文件保存为 ANSI 编码格式即可，如果还解决不了那就是不需要管的乱码，不影响使用

注：通过 llama-server.exe -h 命令可以看到：
-fit, --fit [on|off] whether to adjust unset arguments to fit in device memory ('on' or 'off', default: 'on')

也就是默认打开了自动适应， --gpu-layers、--n-cpu-moe等等这些参数不填也行，倒不如说在我的机器上不填效果最好，也有大概率每个人的设备情况不一样，

根据https://www.hardware-corner.net/gpt-oss-offloading-moe-layers/

这篇文章所写，合理设置--n-cpu-moe的值能提速（虽然对我不适用）

所以下面是可调参数多一点的版本：

@echo off setlocal set "MODEL_PATH=F:\Models\Yakyu" set "MODEL_FILE=Qwen3-Next-80B-A3B-Instruct-abliterated-Q8_0.gguf" set GPU_LAYERS=64 set THREADS=64 set CTX_SIZE=32768 set HOST=127.0.0.1 set PORT=1234 echo 正在启动 OpenAI 兼容 API 服务... echo 模型: %MODEL_PATH%\%MODEL_FILE% echo 端口: http://%HOST%:%PORT% echo. llama-server.exe ^ -m "%MODEL_PATH%\%MODEL_FILE%" ^ --gpu-layers %GPU_LAYERS% ^ --threads %THREADS% ^ --ctx-size %CTX_SIZE% ^ --n-cpu-moe 10 ^ --host %HOST% ^ --port %PORT% echo. echo 服务已停止。按任意键关闭窗口... pause >nul

多个分片（shard）组成的 GGUF 分片模型用llama-gguf-split合并成一个才能用，参考代码如下：

D:\Yakyu\llama-b7640-bin-win-cuda-12.4-x64\llama-gguf-split.exe --merge F:/Models/Yakyu/Qwen3-235B-A22B-Instruct-2507/Qwen3-235B-A22B-Instruct-2507-UD-Q8_K_XL-00001-of-00006.gguf F:/Models/Yakyu/Qwen3-235B-A22B-Instruct-2507-UD-Q8.gguf

打开cmd输一下代码就行

上图是AI（Qwen3 Max）（不是广告）的错误回答，太相信AI导致走错了不少路，仅供批判

1、SillyTavern调用时报错：Chat Completion API Assistant response prefill is incompatible with enable_thinking

当我加载的模型是DeepSeek时酒馆就会报这个错

解决办法：
①换用文本补全模式

②bat代码中增加--reasoning-budget 0来关闭思考，全代码如下：

@echo off setlocal set "MODEL_PATH=F:\Models\Yakyu" set "MODEL_FILE=DeepSeek-V3.1-Terminus-MXFP4_MOE.gguf" set CTX_SIZE=32768 set HOST=127.0.0.1 set PORT=1234 echo 模型: %MODEL_PATH%\%MODEL_FILE% echo 端口: http://%HOST%:%PORT% echo. llama-server.exe ^ -m "%MODEL_PATH%\%MODEL_FILE%" ^ --reasoning-budget 0 ^ --chat-template-file "Unslothdeepseek-v3-chat-template.jinja" ^ --ctx-size %CTX_SIZE% ^ --host %HOST% ^ --port %PORT% echo. echo 服务已停止。按任意键关闭窗口... pause >nul

你可以看到代码中还指定了chat-template，这是因为关闭思考后又出现了新的问题：

设置“--reasoning-budget 0”发现模型刚输出空白就停止了，或者ai的输出和输入没有关系，无论输入什么，输出都是“DeepSeek is an AI assistant developed by……”这是内置自动加载的聊天模板有问题，我使用了内置的deepseek3聊天模板发现不行，我不确定这与我从网上下载的gguf模型是否有关。

按照Unsloth的说法：“我们的 DeepSeek-V3.1 GGUF 包含 Unsloth 聊天模板修复用于 llama.cpp 支持的后端。”我不是从他那里下载的模型，但他的模板确实能解决我的问题，模板如下：

{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% if enable_thinking is defined and enable_thinking is false %}{% set thinking = false %}{% elif enable_thinking is defined and enable_thinking is true %}{% set thinking = true %}{% elif not thinking is defined %}{% set thinking = false %}{% endif %}{% set ns = namespace(is_first=false, is_tool=false,, is_first_sp=true, is_last_user=false) %}{%- for message in messages %}{%- if message['role'] == 'system' %}{%- if ns.is_first_sp %}{% set ns.system_prompt = ns.system_prompt + message['content'] %}{% set ns.is_first_sp = false %}{%- else %}{% set ns.system_prompt = ns.system_prompt + '\n\n' + message['content'] %}{%- endif %}{%- endif %}{%- endfor %}{{ bos_token }}{{ ns.system_prompt }}{%- for message in messages %}{%- if message['role'] == 'user' %}{%- set ns.is_tool = false -%}{%- set ns.is_first = false -%}{%- set ns.is_last_user = true -%}{{'<｜User｜>' + message['content']}}{%- endif %}{%- if message['role'] == 'assistant' and message['tool_calls'] is defined and message['tool_calls'] is not none %}{%- if ns.is_last_user %}{{'<｜Assistant｜></think>'}}{%- endif %}{%- set ns.is_last_user = false -%}{%- set ns.is_first = false %}{%- set ns.is_tool = false -%}{%- for tool in message['tool_calls'] %}{%- if not ns.is_first %}{%- if message['content'] is none %}{{'<｜tool▁calls▁begin｜><｜tool▁call▁begin｜>'+ tool['function']['name'] + '<｜tool▁sep｜>' + (tool['function']['arguments'] if tool['function']['arguments'] is string else tool['function']['arguments'] | tojson) + '<｜tool▁call▁end｜>'}}{%- else %}{{message['content'] + '<｜tool▁calls▁begin｜><｜tool▁call▁begin｜>' + tool['function']['name'] + '<｜tool▁sep｜>' + (tool['function']['arguments'] if tool['function']['arguments'] is string else tool['function']['arguments'] | tojson) + '<｜tool▁call▁end｜>'}}{%- endif %}{%- set ns.is_first = true -%}{%- else %}{{'<｜tool▁call▁begin｜>'+ tool['function']['name'] + '<｜tool▁sep｜>' + (tool['function']['arguments'] if tool['function']['arguments'] is string else tool['function']['arguments'] | tojson) + '<｜tool▁call▁end｜>'}}{%- endif %}{%- endfor %}{{'<｜tool▁calls▁end｜><｜end▁of▁sentence｜>'}}{%- endif %}{%- if message['role'] == 'assistant' and (message['tool_calls'] is not defined or message['tool_calls'] is none) %}{%- if ns.is_last_user %}{{'<｜Assistant｜>'}}{%- if message['prefix'] is defined and message['prefix'] and thinking %}{{'<think>'}} {%- else %}{{'</think>'}}{%- endif %}{%- endif %}{%- set ns.is_last_user = false -%}{%- if ns.is_tool %}{{message['content'] + '<｜end▁of▁sentence｜>'}}{%- set ns.is_tool = false -%}{%- else %}{%- set content = message['content'] -%}{%- if '</think>' in content %}{%- set splitted = content.split('</think>') -%}{%- set content = splitted[1:] | join('</think>') -%}{%- endif %}{{content + '<｜end▁of▁sentence｜>'}}{%- endif %}{%- endif %}{%- if message['role'] == 'tool' %}{%- set ns.is_last_user = false -%}{%- set ns.is_tool = true -%}{{'<｜tool▁output▁begin｜>' + message['content'] + '<｜tool▁output▁end｜>'}}{%- endif %}{%- endfor -%}{%- if add_generation_prompt and ns.is_last_user and not ns.is_tool %}{{'<｜Assistant｜>'}}{%- if not thinking %}{{'</think>'}}{%- else %}{{'<think>'}}{%- endif %}{% endif %}

模板文件放置如图所示，都在同一文件夹内

2、llama-server端口绑定失败

如图所示，我使用bat脚本来启动llama-server，并指定了1234端口，即上图右边代码中的：

set PORT=1234

但实际运行后，cmd 日志（上图左上）显示：server is listening on http://127.0.0.1:8080

这是默认端口，说明 --port 1234 被忽略了或未生效。

我通过 netstat -ano | findstr :1234 一查看（上图左下），发现没有程序占用1234端口，我就纳闷了，端口没被占用那为什么指定了不用？嫌1234数字不够吉利？

一问AI，经典无中生有，各种幻觉

注：上图中AI的回答是错的

琢磨了一圈才发现是另一台电脑在向这个端口发送请求，我在另一台电脑上的酒馆通过端口转发一直在连这个1234端口

解决方法：把酒馆关了，完美解决

AI绘画师转型指南：用LLaMA Factory定制你的提示词生成器

AI绘画师转型指南：用LLaMA Factory定制你的提示词生成器作为一名Stable Diffusion资深用户，你是否经常遇到这样的困扰：精心设计的画面构思，却因为提示词（Prompt）质量不佳而无法准确呈现？语言模型生成的描述总是不够精准或缺乏创意。本文将介绍如何通过LLaMA Factory框架快速微调大语言模型，打造专属于你的提示词生成器。这类任务通常需要GPU环境，目前ZEEKLOG算力平台提供了包含该镜像的预置环境，可快速部署验证。为什么需要定制提示词生成器 Stable Diffusion等AI绘画工具对提示词极为敏感，好的提示词需要： * 准确描述画面元素（主体、风格、构图等） * 合理使用权重符号和分隔符 * 包含艺术风格术语和专业技术词汇 * 保持语义连贯性通用语言模型生成的提示词往往过于笼统或不符合绘画领域的特殊表达习惯。通过微调，我们可以让模型： 1. 学习优质提示词的语法结构 2. 掌握绘画领域的专业术语 3. 适应你的个人创作风格 LLaMA Factory快速入门 LLaMA Factory是一个开源的低代码大模

OpenClaw机器人引爆天网，首次拥有记忆，逆天了！

手把手教你一键部署OpenClaw，连接微信、QQ、飞书、钉钉等，1分钟全搞定！ OpenClaw这款开源机器人最近彻底火了，它让机器人第一次有了“记性”。这种原本只在科幻片里出现的“天网”级技术，居然直接在GitHub上公开了源代码。就在刚刚，全球搞开源机器人的圈子被推特上的一条动态给点燃了！手把手教你一键部署OpenClaw，连接微信、QQ、飞书、钉钉等，1分钟全搞定！视频里，一台装了OpenClaw系统的宇树人形机器人在屋里四处走动。它全身上下都是传感器——激光雷达、双目视觉外加RGB相机，这些设备捕捉到的海量数据都被喂进了一个大脑里。紧接着，奇迹发生了：这台宇树机器人竟然开始理解空间和时间了！这种事儿在以前的机器人身上压根没出现过。手把手教你一键部署OpenClaw，连接微信、QQ、飞书、钉钉等，1分钟全搞定！它不仅分得清房间、人和东西都在哪儿，甚至还记得在什么时间点发生了什么事。开发团队给这种神技起名叫“空间智能体记忆”。简单来说，就是机器人从此以后也有了关于世界的“长期记忆”！而把这种科幻照进现实的，正是最近在国际上大红大紫的开源项目OpenClaw。

吃透 AM32 无人机电调：从源码架构到工作原理的全方位解析（附实践指南）（上）

开篇：为什么要深度剖析 AM32 电调？作为多旋翼无人机的 “动力心脏”，电调（电子调速器）的性能直接决定了无人机的飞行稳定性、响应速度和续航能力。而 AM32 系列电调凭借开源性、高性价比、适配性强三大优势，成为了开源无人机社区的热门选择 —— 从入门级的 2204 电机到专业级的 2306 电机，从 3S 锂电池到 6S 高压电池，AM32 都能稳定驱动。但很多开发者和爱好者在接触 AM32 源码时，常会陷入 “看得懂代码，看不懂逻辑” 的困境：为什么 FOC 算法要做坐标变换？DShot 协议的脉冲怎么解析？保护机制是如何实时触发的？这篇博客将从硬件基础→源码架构→模块解析→工作原理→实践操作五个维度，逐行拆解 AM32 电调固件源码，帮你彻底搞懂

基于阿里云ASR的AI电销机器人源码解析与部署指南

快速体验在开始今天关于基于阿里云ASR的AI电销机器人源码解析与部署指南的探讨之前，我想先分享一个最近让我觉得很有意思的全栈技术挑战。我们常说 AI 是未来，但作为开发者，如何将大模型（LLM）真正落地为一个低延迟、可交互的实时系统，而不仅仅是调个 API？这里有一个非常硬核的动手实验：基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。从0到1构建生产级别应用，脱离Demo，点击打开从0打造个人豆包实时通话AI动手实验基于阿里云ASR的AI电销机器人源码解析与部署指南背景痛点分析传统电销系统在智能化转型过程中常遇到几个典型问题： 1. 语音识别准确率低：开源ASR模型在电话场景下（背景噪音、方言等）识别准确率普遍低于70%，导致后续意图分析失效 2. 并发处理能力弱：自建语音识别服务难以应对突发流量，