DeepSeek-R1-Distill-Qwen-1.5B部署教程：Open-WebUI网页访问配置详解

优质文章学习记录

09 Apr 2026 — 10 min read

DeepSeek-R1-Distill-Qwen-1.5B部署教程：Open-WebUI网页访问配置详解

1. 为什么这款1.5B模型值得你花10分钟部署

你有没有试过在一台只有4GB显存的旧笔记本上跑大模型？不是卡顿、不是报错，而是根本启动不了——直到遇见DeepSeek-R1-Distill-Qwen-1.5B。

它不是“缩水版”，而是实打实的“小钢炮”：用80万条高质量R1推理链样本，对通义千问Qwen-1.5B做深度蒸馏，把原本需要7B参数才能完成的数学推理和代码生成任务，压缩进仅15亿参数里。更关键的是，它不挑硬件——RTX 3060能跑满速，树莓派5+USB加速棒能稳推，RK3588嵌入式板卡实测16秒完成1k token推理，连iPhone上的A17芯片量化后都能达到120 tokens/s。

一句话说透它的价值：3GB显存起步，数学MATH得分80+，HumanEval代码通过率50+，Apache 2.0协议免费商用，开箱即用，零配置门槛。

这不是“能跑就行”的玩具模型，而是真正能在边缘设备、轻量服务器、甚至开发测试机上长期驻留、稳定响应的生产力工具。

2. 部署前必读：搞懂它能做什么、适合谁用

2.1 它不是全能选手，但专精领域足够硬核

DeepSeek-R1-Distill-Qwen-1.5B不是用来写长篇小说或生成4K图片的。它的设计目标非常明确：在极小体积下，守住逻辑推理与代码生成的基本盘。

强项清晰：
数学推理（MATH数据集80+分，接近Qwen-7B水平）
代码补全与调试（HumanEval 50+，支持Python/JS/Shell常见语法）
多步推理链还原（85%保留度，能清晰展示“为什么选这个解法”）
JSON结构化输出 + 函数调用能力（可直接对接Agent插件）
边界明确：
不适合超长文档摘要（上下文4k token，长文需手动分段）
不支持多模态（纯文本模型，不能看图说话）
图像/语音/视频类任务完全不在能力范围内

如果你日常要：
→ 给学生讲题时快速生成带步骤的解题过程；
→ 写脚本前先让模型帮你理清逻辑再补全代码；
→ 在没有公网的内网环境里部署一个可交互的本地助手；
→ 或者只是想在树莓派上搭个能算数、能写Python的“口袋AI”——
那它就是目前1.5B级别里，最稳、最准、最省的那一款。

2.2 硬件要求：比你想象中更低

很多人看到“大模型”就默认要A100或H100，其实完全没必要。我们实测了三类典型环境：

设备类型	显存/内存	模型格式	启动方式	实测表现
RTX 3060	12GB显存	fp16原模（3.0 GB）	vLLM + Open-WebUI	启动<15s，200 tokens/s，响应无卡顿
NVIDIA Jetson Orin	8GB共享内存	GGUF-Q4_K_M（0.8 GB）	Ollama + WebUI	可运行，适合离线轻量服务
RK3588开发板（带NPU）	4GB LPDDR4	GGUF-Q4量化版	llama.cpp + 自定义前端	16秒完成1k token推理，功耗<8W

重点提醒：如果你的GPU只有4GB显存（比如GTX 1650），别犹豫——直接拉GGUF-Q4镜像，0.8GB体积，vLLM也能加载，速度略降但完全可用。所谓“小钢炮”，就是不靠堆料，靠算法提效。

3. 一键部署实战：vLLM + Open-WebUI组合拳

3.1 环境准备：只需Docker和基础命令行

整个部署过程不需要编译、不装Python依赖、不碰CUDA版本冲突。我们全程基于Docker镜像实现，兼容Linux/macOS/WSL2（Windows用户推荐开启WSL2）。

前提条件：

已安装 Docker（≥24.0）和 Docker Compose（≥2.20）
至少4GB可用磁盘空间（GGUF模型包+镜像约2.3GB）
网络通畅（首次拉取镜像需下载约1.8GB）

无需手动安装vLLM或Open-WebUI——所有依赖已预置在镜像中，你只需要一条命令。

3.2 三步启动：从空白系统到网页对话

第一步：拉取并启动一体化镜像

打开终端，执行以下命令（复制粘贴即可）：

# 创建项目目录 mkdir deepseek-r1-webui && cd deepseek-r1-webui # 下载启动脚本（含docker-compose.yml和模型配置） curl -O https://raw.githubusercontent.com/kakajiang/ai-mirror/main/deepseek-r1-qwen-1.5b/docker-compose.yml # 启动服务（自动拉取镜像+加载模型+启动WebUI） docker compose up -d

注意：首次运行会自动下载约1.8GB的GGUF模型文件（deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf）和Open-WebUI镜像。国内用户建议提前配置Docker镜像加速器（如阿里云、腾讯云源），可提速3–5倍。

第二步：等待服务就绪（约2–5分钟）

启动后，可通过以下命令观察日志：

docker compose logs -f vllm-server

你会看到类似输出：

INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

同时，Open-WebUI服务也会启动：

INFO: Started server process [1] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:3000 (Press CTRL+C to quit)

当两行 Application startup complete. 都出现，说明服务已就绪。

第三步：网页访问与登录

打开浏览器，访问：
http://localhost:3000

你会看到Open-WebUI登录页。使用演示账号登录：

邮箱：[email protected]
密码：kakajiang

登录后，界面右上角点击「Models」→「Add Model」→ 选择 deepseek-r1-distill-qwen-1.5b（已预置），点击「Save」即可开始对话。

小技巧：如果想跳过登录直接体验，可在 docker-compose.yml 中将 ENABLE_LOGIN: "false" 改为 "true"，重启服务后首页即为对话界面。

3.3 进阶配置：自定义模型路径与API端口

默认配置已适配大多数场景，但如果你有特殊需求，可修改 docker-compose.yml 中以下字段：

environment: - VLLM_MODEL=/models/deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf - VLLM_GPU_MEMORY_UTILIZATION=0.95 - VLLM_MAX_NUM_SEQS=256 - WEBUI_PORT=3000 - VLLM_PORT=8000

VLLM_MODEL：指向你的GGUF模型绝对路径（挂载进容器后）
VLLM_GPU_MEMORY_UTILIZATION：显存占用率，默认0.95，低显存设备可设为0.8
WEBUI_PORT：网页端口，如被占用可改为3001、8080等

修改后执行 docker compose down && docker compose up -d 重载生效。

4. 网页交互实操：从提问到获得结构化结果

4.1 第一次对话：试试它的数学底子

在Open-WebUI对话框中输入：

请解方程：x² + 5x + 6 = 0，并分步写出求根过程。

你会看到它不仅给出答案（x = -2, x = -3），还会完整展示：

判别式 Δ = b² - 4ac 的计算
求根公式代入过程
因式分解验证（x+2)(x+3)=0
最后用中文总结逻辑链条

这正是R1蒸馏带来的核心优势：不止给答案，更教你怎么想。

4.2 代码场景：让它帮你写一个检查文件MD5的Python脚本

输入提示词：

写一个Python脚本，接收一个文件路径作为参数，计算并打印该文件的MD5值。要求：支持中文路径，有错误处理，输出格式为"MD5: xxx"。

它会返回一段可直接运行的代码，包含：

argparse解析参数
try/except捕获文件不存在、权限错误
hashlib.md5()逐块读取防内存溢出
print(f"MD5: {md5_hash.hexdigest()}")标准输出

你复制粘贴到本地终端就能跑，无需修改。

4.3 高级玩法：启用JSON模式与函数调用

在Open-WebUI左下角点击「⚙ Settings」→「Model」→ 开启「JSON Mode」，然后输入：

请将以下信息整理成JSON格式，字段包括：姓名、年龄、城市、职业。张伟，32岁，杭州，前端工程师。

它会严格输出：

{ "姓名": "张伟", "年龄": 32, "城市": "杭州", "职业": "前端工程师" }

这种确定性输出，非常适合接入自动化流程（如低代码平台、RPA脚本、内部知识库ETL）。

5. 常见问题与避坑指南

5.1 启动失败？先查这三处

现象	原因	解决方案
`docker compose up` 报错 `port already in use`	3000或8000端口被占用	修改 `docker-compose.yml` 中 `WEBUI_PORT` 或 `VLLM_PORT`，或 `lsof -i :3000` 查杀进程
日志卡在 `Loading model...` 超过10分钟	模型文件未下载完成或路径错误	进入容器 `docker exec -it deepseek-vllm bash`，检查 `/models/` 下是否有 `.gguf` 文件；若无，手动下载并放入
登录后模型列表为空	Open-WebUI未正确连接vLLM API	检查 `docker-compose.yml` 中 `OPEN_WEBUI_API_BASE_URL: http://vllm-server:8000` 是否匹配vLLM服务名和端口

5.2 性能优化：让1.5B跑得更稳更快

显存不足时：强制使用GGUF-Q4_K_M格式（0.8GB），在 docker-compose.yml 中指定 VLLM_MODEL 路径，并确保 VLLM_ENFORCE_EAGER: "true"
响应慢：关闭Open-WebUI的「Stream Response」选项（设置→Advanced→Disable Streaming），改为整段返回，降低前端渲染压力
中文乱码：在提示词开头加一句 请用简体中文回答，不要使用繁体字或英文术语，模型对指令敏感度高，简单引导即可改善

5.3 安全提醒：本地部署 ≠ 无风险

Open-WebUI默认不启用HTTPS，切勿将3000端口直接暴露到公网。如需远程访问，请配合Nginx反向代理+Basic Auth，或使用Cloudflare Tunnel。
演示账号仅用于本地测试，正式使用前务必修改密码（Settings → Profile → Change Password）。
Apache 2.0协议允许商用，但禁止将本镜像二次打包销售，或用于训练其他模型——尊重原始作者与蒸馏工作。

6. 总结：1.5B不是妥协，而是精准选择

DeepSeek-R1-Distill-Qwen-1.5B的价值，不在于参数数字有多大，而在于它把“推理能力”这件事，真正做进了轻量级的壳子里。

它不追求泛化一切，但守住了数学、代码、逻辑链这三个工程师最常打交道的硬核场景；
它不依赖顶级显卡，却能在4GB显存设备上给出稳定、可预期的响应；
它不开源训练代码，但开放全部推理接口，支持vLLM/Ollama/Jan多引擎切换；
它不提供花哨UI，但通过Open-WebUI实现了开箱即用的对话体验。

如果你正在寻找一款：
能在老旧笔记本上长期运行的本地助手，
能嵌入边缘设备做实时决策的推理引擎，
或只是想在不联网环境下，拥有一个“会思考”的代码搭档——

那么，DeepSeek-R1-Distill-Qwen-1.5B不是备选，而是当前阶段最务实、最高效的选择。

现在，就打开终端，敲下那条 docker compose up -d，10分钟后，你将拥有一个属于自己的、会解方程、会写代码、会讲逻辑的AI伙伴。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek-R1-Distill-Qwen-1.5B部署教程：Open-WebUI网页访问配置详解

优质文章学习记录