Ollama 模型 + VS Code:私有化部署 Copilot 使用教程

Ollama 模型 + VS Code:私有化部署 Copilot 使用教程

Ollama 模型 + VS Code:私有化部署 Copilot 使用教程

在vscode中,copilot可以提高我们的工作效率但是github copilot每个月的使用有限制。购买价格较贵,那有没有什么其他的方法可以使用copilot呢?有一个利用ollama私有化部署模型并在vscode中辅助编程的方法。

Ollama 是一款开源、轻量且高效的本地AI模型运行工具,支持一键部署 Llama 3、Qwen2.5、DeepSeek、Mistral 等上百款主流大语言模型,无需复杂配置,普通电脑也能轻松运行本地AI。本教程将详细讲解 Ollama 的全平台安装、AI模型部署,并手把手教你在 VS Code 中集成使用,实现代码辅助、问答交互等功能,全程实操无冗余,新手也能快速上手。

一、教程前置准备

1. 硬件要求(关键)

Ollama 对硬件的要求主要取决于部署的模型大小,核心是内存和显卡(无独立显卡也可使用CPU运行轻量模型),推荐配置如下,可根据模型选择灵活调整:

  • 轻量模型(如 Qwen2.5:7B、Phi3:mini):内存 ≥ 8GB,CPU 支持虚拟化(大部分现代CPU都满足),无需独立显卡,适合日常办公本。
  • 标准模型(如 Qwen2.5:14B、Llama3.2:8B):内存 ≥ 16GB,推荐 NVIDIA 独立显卡(支持CUDA加速),显存 ≥ 6GB,运行更流畅。
  • 高性能模型(如 Llama3.1:70B):内存 ≥ 32GB,NVIDIA 独立显卡(显存 ≥ 24GB),适合专业开发或高性能设备。

2. 软件要求

  • 操作系统:Windows 10/11、macOS(Intel/M系列芯片)、Linux(Ubuntu 20.04+ 优先,如你之前使用的Ubuntu系统)。
  • VS Code:最新版本(下载地址:https://code.visualstudio.com/),确保能正常安装扩展。
  • 网络环境:部署模型时需要联网下载模型文件(建议稳定网络,模型大小从几百MB到几十GB不等),国内用户建议配置镜像加速。

二、Ollama 安装(全平台教程)

Ollama 支持全平台一键安装,不同系统操作略有差异,以下是详细步骤,选择对应系统操作即可。

1. Linux 系统(以Ubuntu为例,你当前使用的系统)

Ubuntu 系统推荐两种安装方式,一键脚本安装便捷,手动安装适合国内网络较慢的情况,任选其一即可。

方式一:一键脚本安装(推荐,网络良好时)
  1. 安装完成后,验证是否成功,输入命令: ollama --version 若输出类似“ollama version is 0.12.0”的信息,说明安装成功。

打开终端(Ctrl+Alt+T),输入以下命令,一键下载并安装 Ollama:

curl -fsSL https://ollama.com/install.sh | sh
方式二:手动安装(国内网络较慢时)
  1. 查看服务状态,确认启动成功: sudo systemctl status ollama 出现“active (running)”即为启动成功。ollama默认服务地址为服务器端口号的11434

加载配置并启动服务:

sudo systemctl daemon-reload sudo systemctl enable ollama sudo systemctl start ollama

在文件中输入以下内容(注意替换 User 和 Group 为你的当前用户名,如 ubuntu等配置信息):

[Unit] Description=Ollama Service After=network-online.target [Service] ExecStart=/usr/bin/ollama serve User=ubuntu Group=ubuntu Restart=always RestartSec=3 Environment="OLLAMA_HOST=0.0.0.0:11434" [Install] WantedBy=multi-user.target

创建 Ollama 启动服务,编辑服务配置文件:

sudo vim /etc/systemd/system/ollama.service

解压压缩包到 /usr 目录:

sudo tar -C /usr -xzf ollama-linux-amd64.tgz

下载 Ollama 压缩包:  

wget https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64.tgz 

三、Ollama 部署 AI 模型(核心步骤)

Ollama 部署模型极其简单,一行命令即可完成模型下载和启动,无需额外配置。

下载并部署 AI 模型

Ollama 支持上百款模型,可访问 Ollama 官方模型库 查看所有模型,以下推荐几款常用中文模型,按需选择(模型名称区分大小写):

模型名称

说明

显存占用参考

下载命令

qwen2.5:72b-instruct

中文+代码+长上下文能力出色,适配聊天、复杂代码辅助等场景,私有化部署核心模型

~36GB(72B参数,需高性能设备)

ollama pull qwen2.5:72b-instruct

codellama:70b-code-q4_K_M

代码补全模型,仅适合代码补全,不适合聊天,适配 VS Code 代码自动补全场景

~35GB(70B参数,代码专项优化)(需高性能设备)

ollama pull codellama:70b-code-q4_K_M

deepseek-coder:33b

“综合代码强,速度快”的模型,兼顾代码辅助与响应速度,适合日常开发代码调试、生成

~16.5GB(33B参数,平衡性能与速度)(需高性能设备)

ollama pull deepseek-coder:33b

llama3:8b-instruct-q4_0

“轻量快速”的模型,适合日常提问、轻量化代码辅助,低配置设备也可流畅运行

~5GB(8B参数,轻量高效)

ollama pull llama3:8b-instruct-q4_0

部署步骤(以 llama3:8b-instruct-q4_0 为例)
  1. 启动成功后,终端会出现 >>> 提示符,此时可直接与模型对话(如输入“帮我写一段Python快排代码”),输入 /bye 可退出交互模式。

下载完成后,启动模型,进入交互模式: 

ollama run llama3:8b-instruct-q4_0

打开终端(Linux/macOS)或 PowerShell(Windows),输入下载命令:

ollama pull llama3:8b-instruct-q4_0

下载速度取决于网络,耐心等待(4.5GB 模型,正常网络约10-20分钟)。

4. 常用 Ollama 命令(必备)

ollama --version # 查看 Ollama 版本 ollama list # 查看已安装的所有模型 ollama run 模型名 # 启动模型,进入交互模式 ollama pull 模型名 # 下载模型 ollama rm 模型名 # 删除不需要的模型 ollama prune # 清理未使用的模型(谨慎操作) ollama show 模型名 --modelfile # 查看模型详细信息

四、VS Code 集成 Ollama(核心操作)

使用 VS Code 插件“Continue”集成 Ollama,步骤简单,适配所有 Ollama 版本,且功能更丰富,适合日常开发。

步骤1:安装 Continue 插件

安装完成后,重启 VS Code,左侧边栏会出现“Continue”图标,说明插件安装成功。

搜索并安装插件continue

步骤2:配置 Continue 插件,连接 Ollama
  1. 点击 VS Code 左侧边栏的“Continue”图标,弹出插件窗口。新建一个配置文件点击配置按钮
  2. 在配置文件中配置信息后即可在continue插件中进行对话(<your-ip>填写你的ip地址)
# This is an example configuration file # To learn more, see the full config.yaml reference: https://docs.continue.dev/reference name: 我的代码大模型配置 version: 1.0.0 schema: v1 enableStreaming: true models: # 你最强的模型:中文+代码+长上下文+不乱说 - name: Qwen2.5 72B Instruct provider: ollama model: qwen2.5:72b-instruct apiBase: http://<your-ip>:11434 # 顶级代码补全模型(只适合补全代码,不适合聊天) - name: CodeLlama 70B provider: ollama model: codellama:70b-code-q4_K_M apiBase: http://<your-ip>:11434 # 综合代码强,速度快 - name: DeepSeek 33B provider: ollama model: deepseek-coder:33b apiBase: http://<your-ip>:11434 # 轻量快速,日常提问 - name: Llama3 8B provider: ollama model: llama3:8b-instruct-q4_0 apiBase: http://<your-ip>:11434 mcpServers: - uses: anthropic/memory-mcp
步骤3:验证连接是否成功

连接完成后,在 Continue 插件的聊天框中输入问题(如“帮我解释一下Python的装饰器”),点击发送,若模型能正常返回回复,说明连接成功,可正常使用。

五、VS Code 中使用 Ollama 的核心场景(实操)

集成完成后,Ollama 可全程在 VS Code 中使用,无需切换终端,核心场景如下,覆盖日常开发需求:

1. 代码辅助(最常用)

  • 代码生成:在 Continue 聊天框输入需求(如“写一段Python读取Excel文件的代码,使用pandas库”),模型会生成完整代码,并附带注释。
  • 代码调试:将报错的代码复制到聊天框,输入“帮我调试这段代码,解决报错问题”,模型会定位错误并给出修改方案。
  • 代码优化:复制已写好的代码,输入“优化这段代码,提升运行效率”,模型会对代码进行重构、简化。

2. 交互式问答

在 Continue 聊天框中,可直接与模型对话,比如:

  • 技术问题:“Docker 数据卷和绑定挂载的区别是什么?”
  • 语法查询:“JavaScript 中 async/await 的使用场景和注意事项”
  • 文档解读:“帮我解读这段JSON配置文件的含义”

模型会结合上下文,给出简洁、准确的回答,无需切换浏览器搜索。

3. 快捷操作(提升效率)

  • 快捷键唤醒:按 Ctrl+I(Windows/Linux)或 Cmd+I(macOS),可快速调出 Continue 聊天框,无需点击侧边栏。
  • 代码应用:模型生成代码后,点击代码下方的“Apply Code”(应用代码),可直接将代码插入到当前打开的文件中,无需复制粘贴。

六、常见问题排查(避坑指南)

操作过程中,可能会遇到一些小问题,以下是高频问题及解决方案,帮你快速排查:

1. 问题1:Ollama 服务启动失败,提示“Error: ollama server not responding”

解决方案:

  • 确认已执行 ollama serve 启动服务,且终端未关闭(前台启动方式)。
  • 检查端口 11434 是否被占用:
    • Linux/macOS:输入 lsof -i :11434,查看占用进程,杀死占用进程(kill -9 进程ID)。
    • Windows:输入 netstat -ano | findstr :11434,找到进程ID,在任务管理器中结束该进程。
  • 重启 Ollama 服务,重新执行 ollama serve

2. 问题2:模型下载缓慢,或下载失败

解决方案:

  • 重新配置国内镜像,确保 OLLAMA_MODEL_SERVER 环境变量设置正确,重启终端后再尝试下载。
  • 若镜像仍无法解决,更换网络(如手机热点),或使用手动下载模型包(参考 Linux 手动安装步骤)。

3. 问题3:VS Code 插件无法连接 Ollama,提示“连接失败”

解决方案:

  • 确认 Ollama 服务已启动,且能通过 curl http://localhost:11434/api/tags 正常访问。
  • 检查 VS Code 插件配置,确保选择的模型名称与已安装的模型一致(区分大小写,如 qwen2.5:7b 不能写成 Qwen2.5:7b)。
  • 重启 VS Code 和 Ollama 服务,重新配置插件连接。

4. 问题4:运行模型时,提示“out of memory”(内存不足)

解决方案:

  • 更换更小的模型(如将 qwen2.5:7b 换成 phi3:mini),降低内存占用。
  • 关闭终端中其他占用内存的进程,释放内存。
  • 若有独立显卡,确保已安装对应驱动(NVIDIA 显卡安装 CUDA,AMD 显卡安装 ROCm),启用 GPU 加速,减少内存占用。

七、总结

本教程完整覆盖了 Ollama 的全平台安装、AI 模型部署,以及 VS Code 的集成方式,核心优势的是“简单、轻量、无门槛”——无需复杂的环境配置,一行命令部署模型,VS Code 集成后可直接在开发环境中使用本地 AI,实现代码辅助、交互式问答等功能,既保护数据隐私(本地运行,无需联网上传数据),又能提升开发效率。

后续可根据自己的硬件配置,尝试不同的模型,也可以通过 Ollama 的 API 接口,将本地模型集成到其他开发工具中,拓展更多使用场景。如果遇到其他未提及的问题,可参考 Ollama 官方文档(https://github.com/ollama/ollama)或留言咨询。

Read more

2026必备10个降AIGC工具,研究生必看!

2026必备10个降AIGC工具,研究生必看!

2026必备10个降AIGC工具,研究生必看! AI降重工具:论文写作的新助手 在当前学术研究日益依赖人工智能的背景下,越来越多的研究生开始关注如何有效降低论文中的AIGC率。随着各大高校和期刊对AI生成内容的审查愈发严格,传统的写作方式已难以满足现代学术规范的需求。因此,借助专业的AI降重工具,成为许多研究生提升论文质量、确保原创性的关键选择。 AI降重工具不仅能够帮助用户去除AI痕迹,还能在保持原文语义不变的前提下,优化语言表达,使论文更符合学术标准。这些工具通过智能分析、同义词替换、句式重构等技术手段,显著降低了论文的查重率,同时提升了整体可读性与逻辑性。无论是初稿撰写还是定稿润色,AI降重工具都能提供高效支持,成为研究生们不可或缺的得力助手。 工具名称主要功能适用场景千笔强力去除AI痕迹、保语义降重AI率过高急需降重云笔AI多模式降重初稿快速处理锐智 AI综合查重与降重定稿前自查文途AI操作简单片段修改降重鸟同义词替换小幅度修改笔杆在线写作辅助辅助润色维普官方查重最终检测万方数据库查重数据对比Turnitin国际通用检测留学生降重ChatGPT辅助润色指令手动辅助

AI编程工具对比:Cursor、GitHub Copilot与Claude Code

AI编程工具对比:Cursor、GitHub Copilot与Claude Code

文章目录 * AI编程工具对比:Cursor、GitHub Copilot与Claude Code * 一、产品定位与核心架构 * 1.1 Cursor:AI原生IDE的代表 * 1.2 GitHub Copilot:代码补全的行业标杆 * 1.3 Claude Code:终端Agent的革新者 * 二、核心功能深度对比 * 2.1 代码生成与理解能力 * 2.2 自动化与工作流集成 * 2.3 隐私与数据安全 * 三、成本效益分析 * 3.1 定价模式对比 * 3.2 投资回报比 * 四、适用场景与用户画像 * 4.1 最佳应用场景 * 4.2 用户反馈摘要 * 五、

Fooocus深度攻略:零基础玩转AI绘画的终极秘籍

Fooocus深度攻略:零基础玩转AI绘画的终极秘籍 【免费下载链接】FooocusFocus on prompting and generating 项目地址: https://gitcode.com/GitHub_Trending/fo/Fooocus 还在为复杂的AI绘画工具望而却步吗?Fooocus作为一款基于Stable Diffusion XL的开源AI绘画软件,通过智能化的提示词处理和丰富的艺术风格预设,让每个人都能轻松创作出专业级视觉作品。这款专注于提示词优化和风格选择的AI图像生成工具,将复杂的技术流程转化为简单直观的创作体验。 核心功能揭秘:三大技术亮点解析 智能化提示词增强引擎 Fooocus内置了先进的提示词自动优化系统,能够智能识别和丰富用户输入的描述内容。无论你是专业设计师还是完全的新手,只需简单的文字描述就能获得理想的生成效果。 实战操作示例: * 输入:"森林中的魔法小屋" * 选择:"奇幻风格"模板 * 点击生成按钮 系统会自动完善提示词结构,优化描述逻辑,确保生成图像的质量和创意表达。 多样化艺术风格库 项目内置了超过20

DeepSeek-R1-Distill-Llama-8B参数详解:LoRA微调适配、上下文长度扩展与KV Cache优化

DeepSeek-R1-Distill-Llama-8B参数详解:LoRA微调适配、上下文长度扩展与KV Cache优化 1. 模型定位与核心价值 DeepSeek-R1-Distill-Llama-8B不是一款普通的小尺寸语言模型,而是一次精准的“能力浓缩”实践——它把DeepSeek-R1在数学推理、代码生成和复杂逻辑任务上的扎实表现,通过知识蒸馏技术,高效迁移到Llama架构的8B参数量级上。对开发者而言,这意味着:不用牺牲太多性能,就能获得轻量、可部署、易定制的推理能力。 很多人会疑惑:为什么选Llama架构做蒸馏?答案很实际:Llama生态成熟、工具链完善、社区支持丰富。相比Qwen蒸馏系列(如32B版本),Llama-8B版本在体积和速度上更具优势;相比原生Llama-3-8B,它又继承了DeepSeek-R1经过强化学习锤炼出的推理结构偏好——比如更长的思维链展开、更稳定的多步推导、更少的无意义重复。这不是简单地“换壳”,而是把高阶推理能力“编译”进一个更友好的运行时环境里。 你不需要从零训练一个大模型,也不必为部署o1-mini级别的模型准备A100集群。De