5 分钟部署本地大模型(DeepSeek Coder 33B)+ VS Code 自动补全 + 纯本机 Web Chat
环境:Windows|128GB 内存|24GB 显存
模型:deepseek-coder:33b-instruct-q4_0(备选:qwen2.5:14b)
目标:Ollama 本地推理服务(V)(11434)VS Code(Continue)配置 Chat / Autocomplete / Edit纯本机 Web Chat(Gradio,3000)Autocomplete 自动完成的规范约束:在 config 里配置 rules
关键节点配图
配图 4:本地web聊天服务运行成功后,浏览器打开 http://127.0.0.1:3000 的 Web Chat

配图 3:Continue配置完成

配图 2:GPU加载模型成功验证,通过任务管理器查看占用显存(19.8G)

配图 1,ollama安装完成后,ollama version is 0.15.2:

时间线(5 分钟)
- 0:00–1:30 安装/启动 Ollama + 拉取模型
- 1:30–3:00 VS Code Continue 配置(含
rules+ 选择模型) - 3:00–5:00 纯本机 Web Chat 启动(Gradio)
1)0:00–1:30:安装 Ollama + 拉取 DeepSeek 33B
1.1 安装 Ollama
直接网页下载安装即可。
1.2 拉取模型(PowerShell)
ollama pull deepseek-coder:33b-instruct-q4_0 查看是否拉取成功:
ollama list 验证 Ollama API,在ollama软件客户端界面选择:ollama pull deepseek-coder:33b-instruct-q4_0
聊天有回复后证明ollama加载模型成功。
说明:http://localhost:11434 是 Ollama API 地址,不是聊天网页。2)1:30–3:00:VS Code 编程配置(Continue)
2.1 安装 Continue 插件
在 VS Code 扩展市场安装:Continue
2.2 配置 Continue(重点:rules + 模型)
编辑配置文件:config.yaml
将其整理为如下(可直接覆盖粘贴):
name: Local Config version: 1.0.0 schema: v1 # 关键:rules 会影响 Chat / Edit / Autocomplete 的行为与风格