本地多模型切换利器——Llama-Swap全攻略

优质文章学习记录

09 Apr 2026 — 4 min read

运行多个大语言模型（LLM）非常有用：
无论是用于比较模型输出、设置备用方案（当一个模型失败时自动切换）、还是实现行为定制（例如一个模型专注写代码，另一个模型专注技术写作），实践中我们经常以这种方式使用 LLM。

一些应用（如 poe.com）已经提供了多模型运行的平台。但如果你希望完全在本地运行、多省 API 成本，并保证数据隐私，情况就会复杂许多。

问题在于：本地设置通常意味着要处理多个端口、运行不同进程，并且手动切换，不够理想。

这正是 Llama-Swap 要解决的痛点。它是一个超轻量的开源代理服务（仅需一个二进制文件），能够让你轻松在多个本地 LLM 之间切换。简单来说，它会在本地监听 OpenAI 风格的 API 请求，并根据请求的模型名称，自动启动或停止对应的模型服务。客户端无需感知底层切换，使用体验完全透明。

📌 Llama-Swap 工作原理

概念上，Llama-Swap 就像一个智能路由器，位于多个 LLM 服务进程之前。
当 API 请求到达（如 POST /v1/chat/completions），它会检查 JSON 里的 "model" 字段，加载对应的服务进程，如果需要，还会停止其他已经运行的模型。

例如：

先请求模型 A，再请求模型 B
→ 代理会自动关掉 A 的进程，再启动 B，让每次请求都由正确的模型响应。

默认情况下，Llama-Swap 每次只允许运行一个模型。但它的 Groups 功能 可以调整：

swap: false → 组内的多个小模型可以同时运行，不会互相卸载
大模型组 → 每次只启动一个，节省资源
这样你可以灵活掌控系统资源与并发能力。

📌 环境准备

确保系统具备以下条件：

Python 3 (>=3.8)：用于脚本和工具。
llama.cpp (llama-server)：兼容 OpenAI API 的服务程序。
硬件：现代 CPU 足够；GPU 可加速。
Docker（可选）：运行预构建镜像，x86 更佳，Apple M1/M2 建议裸机安装。

Hugging Face CLI：便捷下载模型文件：

pip install -U "huggingface_hub[cli]"

Homebrew（macOS）：快速安装运行环境，例如：

brew install llama.cpp

提供 llama-server 二进制文件来运行本地模型。

📌 分步操作

1. 安装 Llama-Swap

curl -L -o llama-swap.tar.gz \ https://github.com/mostlygeek/llama-swap/releases/download/v126/llama-swap_126_darwin_arm64.tar.gz tar -xzf llama-swap.tar.gz chmod +x llama-swap ./llama-swap --version

2. 下载示例模型

以 SmolLM2-135M 和 Qwen2.5-0.5B 为例：

mkdir -p ~/llm-models huggingface-cli download bartowski/SmolLM2-135M-Instruct-GGUF \ --include "SmolLM2-135M-Instruct-Q4_K_M.gguf" --local-dir ~/llm-models huggingface-cli download bartowski/Qwen2.5-0.5B-Instruct-GGUF \ --include "Qwen2.5-0.5B-Instruct-Q4_K_M.gguf" --local-dir ~/llm-models

3. 配置文件（config.yaml）

models: "smollm2": cmd: | llama-server --model /path/to/models/llm-models/SmolLM2-135M-Instruct-Q4_K_M.gguf --port ${PORT} "qwen2.5": cmd: | llama-server --model /path/to/models/llm-models/Qwen2.5-0.5B-Instruct-Q4_K_M.gguf --port ${PORT}

4. 启动 Llama-Swap

./llama-swap --config config.yaml --listen 127.0.0.1:8080

5. 调用 API 测试

👉 使用 Qwen2.5

curl -s http://localhost:8080/v1/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer no-key" \ -d '{ "model": "qwen2.5", "prompt": "User: What is Python?\nAssistant:", "max_tokens": 100 }' | jq '.choices[0].text'

👉 使用 SmolLM2

curl -s http://localhost:8080/v1/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer no-key" \ -d '{ "model": "smollm2", "prompt": "User: What is Python?\nAssistant:", "max_tokens": 100 }' | jq '.choices[0].text'

不同模型输出风格不同：

Qwen2.5 → 更技术性、更详细
SmolLM2 → 更简洁直观

📌 结论

恭喜！你已在本地成功配置 Llama-Swap，实现双模型动态切换。
你可以扩展更多模型（如 TinyLlama、Phi-2、Mistral），并结合 LangChain、FastAPI 等框架，打造强大的个性化应用环境。

Vibe Coding - 用 UI UX Pro Max 把你的 AI 编码助手变成“会设计”的前端搭档

文章目录 * Pre * 一、UI UX Pro Max 是什么？ * 1.1 一个“给 AI 用的设计系统” * 1.2 工作方式：AI 调用“设计智库” * 二、在本地安装 UI UX Pro Max * 2.1 环境前提 * 2.2 CLI 一键安装（推荐） * 2.3 手动安装（适合定制） * 2.4 确认 Skill 可用 * 三、第一个实战：做一个专业感的 SaaS 登录页 * 3.1

基于YOLO26/11/v8算法的Web目标检测系统，人脸表情识别系统，Django+Vue3 的前后端分离，实现摄像头实时识别，YOLO26/YOLO11/v8 + LLM大模型智能分析，科研必备

✨ 更新日志 * ✔️ 2026/3/3，2.0 版本，前端导航栏改为侧边栏系统，视频流采用websocket框架延迟更低， YOLO26/YOLO11/YOLOv8 视频流更稳定，在之前的系统增加 LLM 大模型智能分析，是科研必备，支持 YOLO26/11/v8 分类模型、目标检测、分割、obb、关键点检测任务，还支持双模型联合检测与识别，如人脸表情识别、人脸识别等一些识别任务需要检测模型与分类模型共同完成，在人脸表情识别中，单独使用检测模型去识别人脸表情也不是不可以，但有一个问题数据集如果全是头部照片的话，当模型预测的照片是全身照片时，模型识别准确率就没有这么高了，那么这时候可以用检测模型识别人脸，把人脸信息输入到表情分类模型进行分类即可，反正这是一个通用的系统，更换自己模型即可，大家懂得都懂的，更多功能看下文即可。摘要在人工智能迈向通用化（AGI）的今天，“视觉感知 + 语言理解”的多模态联合是未来的趋势。单纯的检测画框已经无法满足复杂的业务需求，如何让系统“看懂”

2026年，给大家普及一下字节前端岗需要达到的强度

字节跳动前端开发工程师岗一面 1. 平时负责或深入的技术栈与业务方向，核心用户场景与技术价值主张 2. 前端开发生命周期管理，从需求分析、UI/UX协作到开发测试、性能优化的全流程实践与质量保障 3. 技术选型调研与用户体验数据应用，如何验证框架/方案选择并定位体验瓶颈 4. 项目开发中如何实现高效跨职能协同（产品、设计、后端、测试），关键协作流程与工具链 5. 竞品或业界方案分析框架与技术差异化策略制定，关注性能体验、工程效率与可维护性 6. 用户交互路径分析与体验优化项目（如加载性能、交互动效、无障碍访问）的构建机制 7. 关键性能指标监控与项目质量评估体系（如LCP、FCP、CLS、错误率） 8. 现代前端开发与传统网页开发模式区别，业务在不同阶段（初创、增长、复杂化）的技术重点与架构演进 9. 案例分析：给定新业务场景（如互动玩法、复杂中后台）

Spring Boot 中基于 WebClient 的 SSE 流式接口实战

—— 从 Feign 到 WebClient 的一次真实踩坑记录一、背景：为什么我要做 SSE？在最近的一个项目中，我负责接入一个 AI 问答服务。一开始的接口形态非常常规： @PostMapping("/health_manager") public RespBean<HealthManagerQueryDataVO> sendQuery(...) 客户端发请求，服务端等 AI 全部生成完内容，再一次性返回。问题很快就暴露了： * AI 返回慢（10 秒甚至更久） * 用户页面“卡死”，体验极差 * 其实 AI 是“边生成边返回”的，但我们完全浪费了这个能力于是，目标就很明确了：把原有同步接口，改造成支持 SSE（Server-Sent