5 分钟部署本地大模型（DeepSeek Coder 33B）+ VS Code 自动补全 + 纯本机 Web Chat

优质文章学习记录

12 Apr 2026 — 2 min read

环境：Windows｜128GB 内存｜24GB 显存
模型：deepseek-coder:33b-instruct-q4_0（备选：qwen2.5:14b）
目标：Ollama 本地推理服务（V）（11434）VS Code（Continue）配置 Chat / Autocomplete / Edit纯本机 Web Chat（Gradio，3000）Autocomplete 自动完成的规范约束：在 config 里配置 rules

关键节点配图

配图 4：本地web聊天服务运行成功后，浏览器打开 http://127.0.0.1:3000 的 Web Chat

配图 3：Continue配置完成

配图 2：GPU加载模型成功验证，通过任务管理器查看占用显存（19.8G）

配图 1，ollama安装完成后，ollama version is 0.15.2：

时间线（5 分钟）

0:00–1:30 安装/启动 Ollama + 拉取模型
1:30–3:00 VS Code Continue 配置（含 rules + 选择模型）
3:00–5:00 纯本机 Web Chat 启动（Gradio）

1）0:00–1:30：安装 Ollama + 拉取 DeepSeek 33B

1.1 安装 Ollama

直接网页下载安装即可。

1.2 拉取模型（PowerShell）

ollama pull deepseek-coder:33b-instruct-q4_0

查看是否拉取成功：

ollama list

验证 Ollama API，在ollama软件客户端界面选择：ollama pull deepseek-coder:33b-instruct-q4_0
聊天有回复后证明ollama加载模型成功。

说明：http://localhost:11434 是 Ollama API 地址，不是聊天网页。

2）1:30–3:00：VS Code 编程配置（Continue）

2.1 安装 Continue 插件

在 VS Code 扩展市场安装：Continue

2.2 配置 Continue（重点：rules + 模型）

编辑配置文件：config.yaml
将其整理为如下（可直接覆盖粘贴）：

name: Local Config version: 1.0.0 schema: v1 # 关键：rules 会影响 Chat / Edit / Autocomplete 的行为与风格

5 分钟部署本地大模型（DeepSeek Coder 33B）+ VS Code 自动补全 + 纯本机 Web Chat

优质文章学习记录

关键节点配图

时间线（5 分钟）

1）0:00–1:30：安装 Ollama + 拉取 DeepSeek 33B

1.1 安装 Ollama

1.2 拉取模型（PowerShell）

2）1:30–3:00：VS Code 编程配置（Continue）

2.1 安装 Continue 插件

2.2 配置 Continue（重点：rules + 模型）

Read more

GLM-4.6V-Flash-WEB Web界面使用指南，拖图就出结果

前端防范 XSS（跨站脚本攻击）

详细教程：如何从前端查看调用接口、传参及返回结果（附带图片案例）

Cursor+Codex隐藏技巧：用截图秒修前端Bug的保姆级教程（React/Chakra UI案例）