GitHub Copilot 调用第三方模型API

Ne0inhk

24 Mar 2026 — 3 min read

一、说明

OAI Compatible Provider for Copilot 的作用是：把 Copilot/Copilot Chat 发出的“类似 OpenAI API 的请求”，转发到指定的 OpenAI-Compatible 服务端（例如 ModelScope 推理网关、自建的兼容网关等）。

⚠️ Warning

登录 GitHub Copilot 的账号一定要是非组织方式开通 pro 会员的，不然无法管理模型。

推荐直接用免费的free账号登录即可。

二、插件安装

在 VS Code 扩展市场安装并启用：

GitHub Copilot
GitHub Copilot Chat
OAI Compatible Provider for Copilot（johnny-zhao.oai-compatible-copilot）

安装后：Developer: Reload Window 重载窗口一次。

确保已在 VS Code 中登录 GitHub，并且 Copilot 正常可用（不然你分不清是 Copilot 本身问题还是 provider 转发问题）。

三、配置示例

建议将配置放置在项目内的： .vscode/settings.json

1、单模型示例

{ "oaicopilot.baseUrl": "https://api.soraharu.com/v1", "oaicopilot.delay": 0, "oaicopilot.readFileLines": 0, "oaicopilot.retry": { "enabled": true, "max_attempts": 3, "interval_ms": 1000, "status_codes": [] }, "oaicopilot.commitLanguage": "English", "oaicopilot.models": [ { "id": "__provider__soraharu", "owned_by": "soraharu", "baseUrl": "https://api.api.soraharu.com/v1", "apiMode": "openai" }, { "id": "google/gemini-3-pro-preview", "owned_by": "soraharu", "baseUrl": "https://api.soraharu.com/v1", "context_length": 128000, "max_tokens": 4096, "vision": true, "apiMode": "openai", "temperature": 0 } ] }

2、多模型示例

{ "oaicopilot.baseUrl": "https://api.soraharu.com/v1", "oaicopilot.delay": 0, "oaicopilot.readFileLines": 0, "oaicopilot.retry": { "enabled": true, "max_attempts": 3, "interval_ms": 1000, "status_codes": [] }, "oaicopilot.commitLanguage": "English", "oaicopilot.models": [ { "id": "__provider__soraharu", "owned_by": "soraharu", "baseUrl": "https://api.soraharu.com/v1", "apiMode": "openai" }, { "id": "google/gemini-3-pro-preview", "owned_by": "soraharu", "baseUrl": "https://api.soraharu.com/v1", "context_length": 128000, "max_tokens": 4096, "vision": true, "apiMode": "openai", "temperature": 0 }, { "id": "anthropic/claude-opus-4-5-thinking", "owned_by": "soraharu", "baseUrl": "https://api.soraharu.com/v1", "context_length": 128000, "max_tokens": 4096, "vision": true, "apiMode": "openai", "temperature": 0 }, { "id": "anthropic/claude-sonnet-4-thinking", "owned_by": "soraharu", "baseUrl": "https://api.soraharu.com/v1", "context_length": 128000, "max_tokens": 8192, "vision": true, "apiMode": "openai", "temperature": 0 } ] }

3、配置讲解

配置主要分为两块：

顶层通用项（全局 API 地址、重试等）
oaicopilot.models数组（定义可选的大模型）

顶层通用项

字段	作用
oaicopilot.baseUrl	通用 API 基地址，推荐全局只用一处。
oaicopilot.delay	控制 Copilot 插件调用接口时的延迟，一般设 0（默认即可）
oaicopilot.readFileLines	配合 Copilot 文件分段补全时用，设 0 即可
oaicopilot.retry	Copilot Chat请求失败时的自动重试策略。
oaicopilot.commitLanguage	Copilot建议生成commit的语言，通常填"English"即可

模型池 oaicopilot.models

字段	作用
id	必须和/v1/models能获得的模型id一致（如"google/gemini-3-pro-preview"）
owned_by	一般填"provider名"即可，描述归属或来源
baseUrl	建议只在顶层写一处，模型对象里不强制（写也可以，冲突时顶层优先）
apiMode	绝大多数 Soraharu/OneAPI都填"openai"，如果是anthropic/olllama/自定义才需变
context_length	最大上下文长度（token数，依照模型能力填）
max_tokens	每次回应的最大输出（token数，官方建议4096/8192之类）
vision	支持多模态（如Gemini/Claude/Sonnet等具备图文能力才设true）
temperature	控制AI输出随机性，越低回答越稳定，代码任务建议设为0

4、配置KEY

在 VSCode 页面进行操作：

Windows/Linux 环境：Ctrl+Shift+P
Mac 环境：Cmd+Shift+P

输入下面的命令，然后将KEY输入进去：

Set OAl Compatible Multi-Provider Apikey

四、模型使用

点击进入 Copilot 聊天框
点击模型选择框
点击模型管理（Manage Modules....）
选择 OAI Compatible 将左侧的隐藏眼睛关闭，这样我们自己设定的模型就会出现在选择框了。

【年终总结】从非科班无实习到准字节前端：我始终相信，开发之外的事，才是破局关键

目录【年终总结】从非科班无实习到准字节前端：我始终相信，开发之外的事，才是破局关键一、求其外，善其内 1、坚持出发点正确的博文写作 2、博文更新对我心态的淬炼 3、社区交流对我视野的启发 4、向外拓展，反哺内修二、陷入前端则前端死，跳出前端则前端活 1、从不务正业到泛前端 2、从泛前端到大前端，从有形到无形三、秋招多少事四、结语作者：watermelo37 ZEEKLOG优质创作者、华为云云享专家、阿里云专家博主、腾讯云“创作之星”特邀作者、火山KOL、支付宝合作作者，全平台博客昵称watermelo37。一个假装是giser的coder，做不只专注于业务逻辑的前端工程师，Java、Docker、Python、LLM均有涉猎。 --------------------------------------------------------------------- 温柔地对待温柔的人，包容的三观就是最大的温柔。

【WASM跨浏览器兼容性突破】：基于C语言的高性能前端方案设计

第一章：C 语言 WASM 浏览器兼容性概述 WebAssembly（简称 WASM）是一种低级的可移植字节码格式，旨在以接近原生速度运行高性能应用。使用 C 语言编写的程序可通过 Emscripten 工具链编译为 WASM 模块，从而在现代浏览器中高效执行。由于 WASM 被设计为与 JavaScript 协同工作，因此其浏览器兼容性直接决定了 C 语言应用在 Web 环境中的可用范围。主流浏览器支持情况目前所有现代主流浏览器均原生支持 WebAssembly，包括： * Google Chrome（v57 及以上） * Mozilla Firefox（v52 及以上） * Apple Safari（v11 及以上） * Microsoft Edge（v16 及以上）这些浏览器对 WASM

【DGX Spark 实战】部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0 兼容版）-修订

感谢Qwen3-Coder-Next-FP8为本文进行润色，调整，绘制架构图。但是所有的文字及链接经过手工修订。需要SGLang推理框架，移步【DGX Spark 实战】部署SGLang，千问3.5-27B模型初探我们已严格按您提供的原始内容（包括 CUDA_VERSION=130、CPU_ARCH=aarch64、路径 ~/vllm、用户 admin 等）进行全量修正与标准化，确保所有命令与 DGX Spark 实际环境一致。摘要本文详细记录在 NVIDIA DGX Spark（Grace Blackwell 架构）上部署 vLLM 推理服务并接入 Open WebUI 的完整流程，包含 FlashAttention 编译、vLLM wheel 安装、Qwen3-Coder-Next-FP8

前端新手必看：理解并解决‘Failed to fetch‘的完整指南

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 点击'项目生成'按钮，等待项目生成完整后预览效果输入框内输入如下内容：创建一个交互式学习模块，包含：1. 动画演示fetch工作原理 2. 常见错误场景可视化 3. 可修改的代码沙盒 4. 逐步修复向导 5. 知识测验。使用纯HTML/CSS/JS实现，适合初学者直接运行学习。最近在学前端开发时，经常遇到一个让人头疼的错误提示：TypeError: Failed to fetch。刚开始完全摸不着头脑，经过一番摸索后，终于搞清楚了它的来龙去脉。今天就用最直白的语言，分享这个错误的原因和解决方法，希望能帮到同样踩坑的你。为什么会出现'Failed to