Ollama 模型 + VS Code：私有化部署 Copilot 使用教程

优质文章学习记录

09 Apr 2026 — 11 min read

Ollama 模型 + VS Code：私有化部署 Copilot 使用教程

在vscode中，copilot可以提高我们的工作效率但是github copilot每个月的使用有限制。购买价格较贵，那有没有什么其他的方法可以使用copilot呢？有一个利用ollama私有化部署模型并在vscode中辅助编程的方法。

Ollama 是一款开源、轻量且高效的本地AI模型运行工具，支持一键部署 Llama 3、Qwen2.5、DeepSeek、Mistral 等上百款主流大语言模型，无需复杂配置，普通电脑也能轻松运行本地AI。本教程将详细讲解 Ollama 的全平台安装、AI模型部署，并手把手教你在 VS Code 中集成使用，实现代码辅助、问答交互等功能，全程实操无冗余，新手也能快速上手。

一、教程前置准备

1. 硬件要求（关键）

Ollama 对硬件的要求主要取决于部署的模型大小，核心是内存和显卡（无独立显卡也可使用CPU运行轻量模型），推荐配置如下，可根据模型选择灵活调整：

轻量模型（如 Qwen2.5:7B、Phi3:mini）：内存 ≥ 8GB，CPU 支持虚拟化（大部分现代CPU都满足），无需独立显卡，适合日常办公本。
标准模型（如 Qwen2.5:14B、Llama3.2:8B）：内存 ≥ 16GB，推荐 NVIDIA 独立显卡（支持CUDA加速），显存 ≥ 6GB，运行更流畅。
高性能模型（如 Llama3.1:70B）：内存 ≥ 32GB，NVIDIA 独立显卡（显存 ≥ 24GB），适合专业开发或高性能设备。

2. 软件要求

操作系统：Windows 10/11、macOS（Intel/M系列芯片）、Linux（Ubuntu 20.04+ 优先，如你之前使用的Ubuntu系统）。
VS Code：最新版本（下载地址：https://code.visualstudio.com/），确保能正常安装扩展。
网络环境：部署模型时需要联网下载模型文件（建议稳定网络，模型大小从几百MB到几十GB不等），国内用户建议配置镜像加速。

二、Ollama 安装（全平台教程）

Ollama 支持全平台一键安装，不同系统操作略有差异，以下是详细步骤，选择对应系统操作即可。

1. Linux 系统（以Ubuntu为例，你当前使用的系统）

Ubuntu 系统推荐两种安装方式，一键脚本安装便捷，手动安装适合国内网络较慢的情况，任选其一即可。

方式一：一键脚本安装（推荐，网络良好时）

安装完成后，验证是否成功，输入命令： ollama --version 若输出类似“ollama version is 0.12.0”的信息，说明安装成功。

打开终端（Ctrl+Alt+T），输入以下命令，一键下载并安装 Ollama：

curl -fsSL https://ollama.com/install.sh | sh

方式二：手动安装（国内网络较慢时）

查看服务状态，确认启动成功： sudo systemctl status ollama 出现“active (running)”即为启动成功。ollama默认服务地址为服务器端口号的11434

加载配置并启动服务：

sudo systemctl daemon-reload sudo systemctl enable ollama sudo systemctl start ollama

在文件中输入以下内容（注意替换 User 和 Group 为你的当前用户名，如 ubuntu等配置信息）：

[Unit] Description=Ollama Service After=network-online.target [Service] ExecStart=/usr/bin/ollama serve User=ubuntu Group=ubuntu Restart=always RestartSec=3 Environment="OLLAMA_HOST=0.0.0.0:11434" [Install] WantedBy=multi-user.target

创建 Ollama 启动服务，编辑服务配置文件：

sudo vim /etc/systemd/system/ollama.service

解压压缩包到 /usr 目录：

sudo tar -C /usr -xzf ollama-linux-amd64.tgz

下载 Ollama 压缩包：

wget https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64.tgz

三、Ollama 部署 AI 模型（核心步骤）

Ollama 部署模型极其简单，一行命令即可完成模型下载和启动，无需额外配置。

下载并部署 AI 模型

Ollama 支持上百款模型，可访问 Ollama 官方模型库查看所有模型，以下推荐几款常用中文模型，按需选择（模型名称区分大小写）：

模型名称	说明	显存占用参考	下载命令
qwen2.5:72b-instruct	中文+代码+长上下文能力出色，适配聊天、复杂代码辅助等场景，私有化部署核心模型	~36GB（72B参数，需高性能设备）	ollama pull qwen2.5:72b-instruct
codellama:70b-code-q4_K_M	代码补全模型，仅适合代码补全，不适合聊天，适配 VS Code 代码自动补全场景	~35GB（70B参数，代码专项优化）（需高性能设备）	ollama pull codellama:70b-code-q4_K_M
deepseek-coder:33b	“综合代码强，速度快”的模型，兼顾代码辅助与响应速度，适合日常开发代码调试、生成	~16.5GB（33B参数，平衡性能与速度）（需高性能设备）	ollama pull deepseek-coder:33b
llama3:8b-instruct-q4_0	“轻量快速”的模型，适合日常提问、轻量化代码辅助，低配置设备也可流畅运行	~5GB（8B参数，轻量高效）	ollama pull llama3:8b-instruct-q4_0

部署步骤（以 llama3:8b-instruct-q4_0 为例）

启动成功后，终端会出现 >>> 提示符，此时可直接与模型对话（如输入“帮我写一段Python快排代码”），输入 /bye 可退出交互模式。

下载完成后，启动模型，进入交互模式：

ollama run llama3:8b-instruct-q4_0

打开终端（Linux/macOS）或 PowerShell（Windows），输入下载命令：

ollama pull llama3:8b-instruct-q4_0

下载速度取决于网络，耐心等待（4.5GB 模型，正常网络约10-20分钟）。

4. 常用 Ollama 命令（必备）

ollama --version # 查看 Ollama 版本 ollama list # 查看已安装的所有模型 ollama run 模型名 # 启动模型，进入交互模式 ollama pull 模型名 # 下载模型 ollama rm 模型名 # 删除不需要的模型 ollama prune # 清理未使用的模型（谨慎操作） ollama show 模型名 --modelfile # 查看模型详细信息

四、VS Code 集成 Ollama（核心操作）

使用 VS Code 插件“Continue”集成 Ollama，步骤简单，适配所有 Ollama 版本，且功能更丰富，适合日常开发。

步骤1：安装 Continue 插件

安装完成后，重启 VS Code，左侧边栏会出现“Continue”图标，说明插件安装成功。

搜索并安装插件continue

步骤2：配置 Continue 插件，连接 Ollama

点击 VS Code 左侧边栏的“Continue”图标，弹出插件窗口。新建一个配置文件点击配置按钮
在配置文件中配置信息后即可在continue插件中进行对话（<your-ip>填写你的ip地址）

# This is an example configuration file # To learn more, see the full config.yaml reference: https://docs.continue.dev/reference name: 我的代码大模型配置 version: 1.0.0 schema: v1 enableStreaming: true models: # 你最强的模型：中文+代码+长上下文+不乱说 - name: Qwen2.5 72B Instruct provider: ollama model: qwen2.5:72b-instruct apiBase: http://<your-ip>:11434 # 顶级代码补全模型（只适合补全代码，不适合聊天） - name: CodeLlama 70B provider: ollama model: codellama:70b-code-q4_K_M apiBase: http://<your-ip>:11434 # 综合代码强，速度快 - name: DeepSeek 33B provider: ollama model: deepseek-coder:33b apiBase: http://<your-ip>:11434 # 轻量快速，日常提问 - name: Llama3 8B provider: ollama model: llama3:8b-instruct-q4_0 apiBase: http://<your-ip>:11434 mcpServers: - uses: anthropic/memory-mcp

步骤3：验证连接是否成功

连接完成后，在 Continue 插件的聊天框中输入问题（如“帮我解释一下Python的装饰器”），点击发送，若模型能正常返回回复，说明连接成功，可正常使用。

五、VS Code 中使用 Ollama 的核心场景（实操）

集成完成后，Ollama 可全程在 VS Code 中使用，无需切换终端，核心场景如下，覆盖日常开发需求：

1. 代码辅助（最常用）

代码生成：在 Continue 聊天框输入需求（如“写一段Python读取Excel文件的代码，使用pandas库”），模型会生成完整代码，并附带注释。
代码调试：将报错的代码复制到聊天框，输入“帮我调试这段代码，解决报错问题”，模型会定位错误并给出修改方案。
代码优化：复制已写好的代码，输入“优化这段代码，提升运行效率”，模型会对代码进行重构、简化。

2. 交互式问答

在 Continue 聊天框中，可直接与模型对话，比如：

技术问题：“Docker 数据卷和绑定挂载的区别是什么？”
语法查询：“JavaScript 中 async/await 的使用场景和注意事项”
文档解读：“帮我解读这段JSON配置文件的含义”

模型会结合上下文，给出简洁、准确的回答，无需切换浏览器搜索。

3. 快捷操作（提升效率）

快捷键唤醒：按 Ctrl+I（Windows/Linux）或 Cmd+I（macOS），可快速调出 Continue 聊天框，无需点击侧边栏。
代码应用：模型生成代码后，点击代码下方的“Apply Code”（应用代码），可直接将代码插入到当前打开的文件中，无需复制粘贴。

六、常见问题排查（避坑指南）

操作过程中，可能会遇到一些小问题，以下是高频问题及解决方案，帮你快速排查：

1. 问题1：Ollama 服务启动失败，提示“Error: ollama server not responding”

解决方案：

确认已执行 ollama serve 启动服务，且终端未关闭（前台启动方式）。
检查端口 11434 是否被占用：
- Linux/macOS：输入 lsof -i :11434，查看占用进程，杀死占用进程（kill -9 进程ID）。
- Windows：输入 netstat -ano | findstr :11434，找到进程ID，在任务管理器中结束该进程。
重启 Ollama 服务，重新执行 ollama serve。

2. 问题2：模型下载缓慢，或下载失败

解决方案：

重新配置国内镜像，确保 OLLAMA_MODEL_SERVER 环境变量设置正确，重启终端后再尝试下载。
若镜像仍无法解决，更换网络（如手机热点），或使用手动下载模型包（参考 Linux 手动安装步骤）。

3. 问题3：VS Code 插件无法连接 Ollama，提示“连接失败”

解决方案：

确认 Ollama 服务已启动，且能通过 curl http://localhost:11434/api/tags 正常访问。
检查 VS Code 插件配置，确保选择的模型名称与已安装的模型一致（区分大小写，如 qwen2.5:7b 不能写成 Qwen2.5:7b）。
重启 VS Code 和 Ollama 服务，重新配置插件连接。

4. 问题4：运行模型时，提示“out of memory”（内存不足）

解决方案：

更换更小的模型（如将 qwen2.5:7b 换成 phi3:mini），降低内存占用。
关闭终端中其他占用内存的进程，释放内存。
若有独立显卡，确保已安装对应驱动（NVIDIA 显卡安装 CUDA，AMD 显卡安装 ROCm），启用 GPU 加速，减少内存占用。

七、总结

本教程完整覆盖了 Ollama 的全平台安装、AI 模型部署，以及 VS Code 的集成方式，核心优势的是“简单、轻量、无门槛”——无需复杂的环境配置，一行命令部署模型，VS Code 集成后可直接在开发环境中使用本地 AI，实现代码辅助、交互式问答等功能，既保护数据隐私（本地运行，无需联网上传数据），又能提升开发效率。

后续可根据自己的硬件配置，尝试不同的模型，也可以通过 Ollama 的 API 接口，将本地模型集成到其他开发工具中，拓展更多使用场景。如果遇到其他未提及的问题，可参考 Ollama 官方文档（https://github.com/ollama/ollama）或留言咨询。

Ollama 模型 + VS Code：私有化部署 Copilot 使用教程

优质文章学习记录

Ollama 模型 + VS Code：私有化部署 Copilot 使用教程

一、教程前置准备

1. 硬件要求（关键）

2. 软件要求

二、Ollama 安装（全平台教程）

1. Linux 系统（以Ubuntu为例，你当前使用的系统）

方式一：一键脚本安装（推荐，网络良好时）

方式二：手动安装（国内网络较慢时）

三、Ollama 部署 AI 模型（核心步骤）

下载并部署 AI 模型

部署步骤（以 llama3:8b-instruct-q4_0 为例）

4. 常用 Ollama 命令（必备）

四、VS Code 集成 Ollama（核心操作）

步骤1：安装 Continue 插件

步骤2：配置 Continue 插件，连接 Ollama

步骤3：验证连接是否成功

五、VS Code 中使用 Ollama 的核心场景（实操）

1. 代码辅助（最常用）

2. 交互式问答

3. 快捷操作（提升效率）

六、常见问题排查（避坑指南）

1. 问题1：Ollama 服务启动失败，提示“Error: ollama server not responding”

2. 问题2：模型下载缓慢，或下载失败

3. 问题3：VS Code 插件无法连接 Ollama，提示“连接失败”

4. 问题4：运行模型时，提示“out of memory”（内存不足）

七、总结

Read more

突破性能瓶颈：llama.cpp多GPU分布式计算优化实践指南

node-llama-cpp安装与配置：Windows、Linux和Mac全平台教程

VSCode Github Copilot使用OpenAI兼容的自定义模型方法

解决VsCode远程服务器上Copilot无法使用Claude的问题