低成本运行 Claude Code:通过 LiteLLM 接入 GitHub Copilot Chat API 的完整指南

低成本运行 Claude Code:通过 LiteLLM 接入 GitHub Copilot Chat API 的完整指南

阅读原文

一、背景与动机

Claude Code 是 Anthropic 推出的编程 Agent 工具,很多人会用它做 “vibe coding”:一边写代码一边提问,在对话中重构、重组、查 bug,体验非常接近“和聪明同事结对编程”。

但在实际使用中,它有两个比较现实的问题:

  1. 成本高:频繁的对话请求,会很快消耗你的 Anthropic API 配额;
  2. 网络不稳:在一些网络环境下,直接请求 Anthropic API 可能经常超时或失败。

与此同时,很多开发者已经在使用 GitHub Copilot。GitHub 在 Copilot 背后接入了包括 Claude 在内的多种大模型(具体组合会随时间调整),而你已经为这部分算力付过费了。

于是,一个很自然的问题出现了:

能不能让 Claude Code 直接“吃” GitHub Copilot 的额度?

答案是肯定的。

本文会介绍如何使用 LiteLLM 作为本地中间层,让 Claude Code 对着本地代理讲话,再由本地代理去请求 GitHub Copilot Chat API(下文简称 Copilot API)。

1.1 使用前的合规提示

在继续之前,需要特别说明:

⚠️ 注意:通过中间层将 Claude Code 接入 Copilot API 的方式,并非 GitHub 官方公开文档中主推或保证支持的使用场景。
实际操作前,请自行阅读并评估 GitHub Copilot 的最新服务条款、使用限制与风控策略,确认自己的使用方式是合规且可接受风险的。

如果你清楚了解这一点,并愿意自行承担相应风险,可以继续往下。

二、整体架构

Claude Code 支持通过环境变量配置自定义的 BASE_URL。我们正是利用这一点,将它“接入” LiteLLM,再由 LiteLLM 去调用 Copilot API。

整体流程可以概括为:

  1. 客户端:Claude Code
    • 使用 claude CLI 客户端(本文中的 claude 命令,即 Claude Code 的命令行工具);
    • 配置为向本地 http://localhost:4000 发送请求。
  2. 中间件:LiteLLM 代理
    • 在本地启动一个 LiteLLM 代理服务;
    • 接收来自 Claude Code(Anthropic 风格)的请求;
    • 将请求参数转换为 Copilot API 支持的格式;
    • 添加必要的请求头,将自己伪装成编辑器插件客户端;
    • 将 Copilot API 的返回结果再转回给 Claude Code。
  3. 后端:GitHub Copilot Chat API(Copilot API)
    • 接收 LiteLLM 转换后的请求;
    • 返回模型输出,由 LiteLLM 原样转发给 Claude Code。

通过这种方式,你保留了完整的 Claude Code 交互体验,但实际计算由 GitHub Copilot 提供,从而:

  • 利用现有 Copilot 订阅额度,减少额外 API 支出
  • 通过本地代理和 Copilot 的网络优势,提高请求稳定性

三、准备工作

在开始动手之前,你需要:

  • 一个有效的 GitHub Copilot 订阅
  • 一台可以本地运行以下工具的电脑:
    • uv(推荐)或者 pip
    • claude(Claude Code CLI 工具)。

假设你已经可以在终端中直接运行:

claude --help

并看到正常的帮助信息。

四、第一步:创建 LiteLLM 配置文件

LiteLLM 是整个方案的核心入口。通过它的配置文件,我们将:

  • 定义一个逻辑模型名(Claude Code 将使用这个名字来“选模”);
  • 告诉 LiteLLM,真实的后端模型是 Copilot 提供的哪一个;
  • 配置必要参数和请求头,让 Copilot API 正常响应。

在任意目录下创建一个 config.yaml,内容示例:

model_list:-model_name: claude-opus-4.5litellm_params:# 使用 GitHub Copilot 作为实际提供方model: github_copilot/claude-opus-4.5# 丢弃 Claude Code 发出的非标准参数,避免后端报错drop_params:true# 添加伪装为编辑器客户端的 Headers,确保 Copilot 正常响应extra_headers:Editor-Version:"vscode/1.106.3"Editor-Plugin-Version:"copilot/1.388.0"Copilot-Integration-Id:"vscode-chat"User-Agent:"GithubCopilot/1.388.0"

这里有三个关键点:

  1. model_name
    • 这是暴露给 Claude Code 的“逻辑模型名”;
    • 稍后配置 ANTHROPIC_MODEL 时,需要与这里完全一致。
  2. model
    • 这是 LiteLLM 内部用来识别 Copilot 后端的标识;
    • 示例中使用的是 github_copilot/claude-opus-4.5,你可以根据 LiteLLM 文档和 Copilot 实际支持的模型进行调整。
  3. drop_params: true
    • 很关键;
    • Claude Code 常常会在 Anthropic 协议上附加一些扩展字段,而 Copilot API 未必认识这些字段;
    • 开启 drop_params 后,LiteLLM 会剥掉非标准参数,避免因为字段不兼容导致 Copilot 返回 4xx 错误。
如果你希望在 Claude Code 中切换多个不同模型,可以在 model_list 里再添加多个条目,每个条目的 model_name 不同即可。

五、第二步:安装并启动 LiteLLM 代理

推荐用 uv 安装 LiteLLM。uv 提供了隔离环境和更快的安装体验。如果不熟悉,也可以直接用 pip

5.1 安装 LiteLLM(含代理功能)

# 使用 uv 安装带 proxy 功能的 LiteLLM uv tool install"litellm[proxy]"# 如果你更习惯 pip,也可以:# pip install "litellm[proxy]"

安装完成后,litellm 会作为一个可执行命令出现在你的 PATH 中,可以直接在终端里使用。

5.2 启动 LiteLLM 代理

在包含 config.yaml 的目录下运行:

litellm --config config.yaml --port4000

这是你的 窗口 A,建议保持这个终端一直打开,用来观察日志。

5.3 首次使用 Copilot API 时的设备授权

LiteLLM 第一次调用 Copilot API 时,会引导你走一遍 GitHub 的设备授权流程:

  1. 终端里会打印一个 URL(通常类似 https://github.com/login/device)和一个 8 位设备码;
  2. 打开浏览器,访问这个 URL;
  3. 粘贴设备码,确认授权给相应应用;
  4. 授权成功后,回到终端,LiteLLM 会自动继续刚才的请求。

LiteLLM 会将获得的 token 缓存在本地(通常在你的配置目录下),后续重启代理不需要重复授权,除非 token 失效或手动清除。

六、第三步:配置 Claude Code 使用 LiteLLM

接下来要做两件事:

  1. 让 Claude Code 以为自己仍在访问 Anthropic API;
  2. 实际上把请求转发到本地的 LiteLLM 代理。

可以通过 环境变量(临时)或 Claude Code 配置文件(持久化)来完成。

6.1 环境变量(适合快速测试)

在启动 claude 之前,在 窗口 B 终端中执行:

exportANTHROPIC_AUTH_TOKEN="sk-any-string"# 客户端需要一个非空值,LiteLLM 会忽略它exportANTHROPIC_BASE_URL="http://localhost:4000"exportANTHROPIC_MODEL="claude-opus-4.5"# 必须与 config.yaml 中的 model_name 完全一致exportCLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1# 减少遥测和非必要流量

说明:

  • ANTHROPIC_AUTH_TOKEN
    • 对 LiteLLM 无意义,不会被传给 Copilot API;
    • 只是为了满足 Claude Code 客户端自身的基本校验。
  • ANTHROPIC_BASE_URL
    • 将默认的 Anthropic 接口改为本地的 LiteLLM 代理;
    • 端口号需要和你实际启动 LiteLLM 时一致(这里为 4000)。
  • ANTHROPIC_MODEL
    • 字符串必须与 config.yaml 中的 model_name 一模一样;
    • 否则 LiteLLM 会报“模型不存在”或类似错误。
  • CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC
    • 把一些非必要请求(如遥测)关掉,减少噪音流量。

6.2 配置文件(适合长期使用)

如果你希望以后每次运行 claude 时都自动应用这些设置,可以创建或编辑:

~/.claude/settings.json 

内容示例:

{"env":{"ANTHROPIC_AUTH_TOKEN":"sk-any-string","ANTHROPIC_BASE_URL":"http://localhost:4000","ANTHROPIC_MODEL":"claude-opus-4.5","CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC":"1"}}

保存后,claude 在启动时会自动加载这些环境变量。

如果你原本就有自己的 settings.json(例如配置了其他集成),记得把上面的字段合并到原有 JSON 中,而不是完全覆盖文件。

七、第四步:启动并验证 Claude Code

现在你应该有两个终端窗口:

窗口 B:运行 Claude Code(CLI)

claude 

窗口 A:运行 LiteLLM 代理

litellm --config config.yaml --port4000

如果一切配置无误:

  • claude 应该能正常启动;
  • 你可以随便发一句话,例如:“帮我写一个 Python 脚本,打印 1 到 10 的平方。”;
  • 此时,看一眼 窗口 A 中 LiteLLM 的日志:
    • 应该能看到来自客户端的请求;
    • 日志中能看到类似 github_copilot/claude-opus-4.5 的调用记录。

如果看到这些,说明整个链路已经打通:

Claude Code → LiteLLM(本地代理) → Copilot API → LiteLLM → Claude Code

7.1 常见问题排查(可快速自检)

如果没有成功,可以按下面几个方向排查:

  1. Claude Code 提示找不到模型 / 报 404 类似错误
    • 检查 ANTHROPIC_MODELconfig.yamlmodel_name 是否完全一致(包括大小写和中划线)。
  2. LiteLLM 看不到任何请求
    • 检查 ANTHROPIC_BASE_URL 是否确实指向 http://localhost:4000
    • 确认 LiteLLM 代理是在同一台机器上运行,且未被防火墙拦截。
  3. LiteLLM 日志中出现 GitHub 相关的 401 / 403
    • 说明 Copilot 授权失败或 token 失效;
    • 重启 LiteLLM,让它重新走一遍设备授权流程;
    • 检查你的 GitHub 账户 Copilot 订阅是否仍然有效。

结语

通过在本地引入 LiteLLM 作为中间层,我们实现了:

  • 用 GitHub Copilot 作为 Claude Code 的“后端算力”
    在你已经订阅 Copilot 的前提下,减少额外购买 Anthropic API 的支出。
  • 通过本地代理提升网络稳定性
    请求只需要稳定访问 GitHub,而不必直接访问 Anthropic 的海外节点,在某些网络环境下会更友好。
  • 保留原汁原味的 Claude Code 使用体验
    对你而言,依然是在终端里运行 claude、打开 familiar 的对话界面,只是背后的算力来源发生了变化。

需要再次强调的是:

这种玩法属于“高级折腾”,并不是 GitHub 官方文档鼓励或保证长期可用的路径。
在正式使用前,请务必自己阅读 Copilot 最新的服务条款和使用规范,并自行评估合规性与风险。

对于那些:

  • 已经是 Claude Code 重度用户
  • 同时有 有效的 GitHub Copilot 订阅
  • 又希望在成本和网络稳定性之间找到平衡点的开发者——

这个方案非常值得折腾和体验一番。

如果你愿意继续深入,还可以在 LiteLLM 上挂接更多模型(如 OpenAI、原生 Anthropic API 等),再通过 Claude Code 的模型选择实现更灵活的编程工作流,这是另一个可以展开写一篇的主题了。

Read more

分享本周所学——三维重建算法3D Gaussian Splatting(3DGS)

分享本周所学——三维重建算法3D Gaussian Splatting(3DGS)

大家好,欢迎来到《分享本周所学》第十二期。本人是一名人工智能初学者,刚刚读完大二。前几天自学了一下3D Gaussian Splatting(3DGS),觉得非常有意思。写这篇文章主要是因为网上大部分关于3DGS的文章都比较晦涩,我自己学的时候也是翻阅了大量的论文博客视频,所以想结合自己的学习过程,写一篇让所有人都能看懂的文章。我不会假设你有任何机器学习或者数学的基础知识,即使你只是刚刚接触人工智能领域的小白,我也会让你看懂。如果你觉得我有任何一个地方(即使只是一个标点符号)写的不对、不好或者不清楚,麻烦你在评论区指出来,这会对我有极大的帮助。         这里先放一下原论文: https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/3d_gaussian_splatting_low.pdfhttps://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/3d_gaussian_splatting_low.pdf         同时这篇文章参考了一个B站

By Ne0inhk
Linux网络 | 理解Web路径 以及 实现一个简单的helloworld网页

Linux网络 | 理解Web路径 以及 实现一个简单的helloworld网页

前言:本节内容承接上节课的http相关的概念, 主要是实现一个简单的接收http协议请求的服务。这个程序对于我们理解后面的http协议的格式,报头以及网络上的资源的理解, 以及本节web路径等等都有着重要作用。 可以说我们就用代码来理解这些东西。 那么废话不多说, 现在开始我们的学习吧。         ps:本节内容建议先看一下上一篇文章http的相关概念哦:linux网络 | 深度学习http的相关概念-ZEEKLOG博客 目录  准备文件  makefile HttpServer.hpp 类内成员 封装sockfd start  ThreadRun  全部代码 运行结果 响应书写 Web路径  准备文件         首先准备文件: 这里面Httpserver.cc用来运行接收http请求的服务。 HttpServer.hpp用来定义http请求。Log.hpp就是一个打印日志的小组件, Socket.hpp同样是套接字的组件。 到使用直接调用相关接口即可。(Log.hpp和Socket.hpp如何实现不讲解, 如果想要知道

By Ne0inhk

Web 服务与 I/O 模型

一、Web 服务介绍 1.1.1 Apache prefork 模型(预派生模式) * 核心机制:主控制进程派生多个独立子进程,使用select模型,最大并发 1024;每个子进程单线程响应用户请求 * 资源特性:占用内存较多,但稳定性极高 * 配置特点:可设置进程数的最大值和最小值 * 适用场景:访问量中等的场景 * 优缺点 * ✅ 优点:极致稳定,故障隔离性好 * ❌ 缺点:每个请求对应一个进程,资源占用高,并发能力弱,不适合高并发场景 1.1.2 Apache worker 模型(多进程 + 多线程混合模式) * 核心机制:主进程启动多个子进程,每个子进程包含固定线程数;线程处理请求,线程不足时新建子进程补充 * 资源特性:相比 prefork 内存占用更少,支持更高并发

By Ne0inhk
PythonWeb基础-FastAPI使用

PythonWeb基础-FastAPI使用

FastAPI是一个基于Python的高性能Web框架,用于快速构建API接口服务。FastAPI带有原生的异步支持,具备极高的性能。 1.框架基础使用 1.1 创建FastAPI项目 创建虚拟环境是为了隔离项目运行环境,避免依赖冲突,保持全局环境的干净与稳定。 项目运行: 方式一:run项目 方式二:运行指令:uvicorn 模块名:app(应用实例名) --reload  ( --reload:更改代码后自动重启服务器) 访问交互式文档: http://127.0.0.1:8000/docs 1.2 路由 路由就是URL地址与处理函数之间的映射关系,它决定了用户访问某个特定网址时,服务器应执行哪个后端接口来返回响应结果。 FastAPI的路由定义基于Python的装饰器模式: 实例: from fastapi import FastAPI # 创建 FastAPI 实例 app = FastAPI() @app.

By Ne0inhk