Copilot “Plan Mode“ + 多模型协同实战:让复杂项目开发丝滑起飞

在 AI 辅助编程普及的今天,我们似乎习惯了“Tab 键一路狂飙”的快感。但在面对大型存量项目(Legacy Code)时,这种快感往往会变成惊吓——AI 生成的代码看似完美,实则破坏了原有的架构逻辑,或者引入了难以排查的幻觉(Hallucinations)。

作为一名后端开发者,我在工具链的探索上走了不少弯路。从 Spec Kit 到 Gemini Conductor,再到如今的 GitHub Copilot Plan Mode,我终于找到了一套适合 复杂业务架构 的“最佳实践”。

今天想和大家分享这套 “Plan + Implement” 模式 配合 “多模型路由” 的打法,它让我的开发体验发生了质变。

一、 引言:寻找大型复杂项目的“银弹”

在探索 AI 编程工具的过程中,我经历了三个阶段的心态变化:

1. Spec Kit 的严谨与繁琐

起初,为了保证代码质量,我尝试过 Spec Kit。它确实严谨,能强制 AI 遵循规范。但它的配置过程实在是太“重”了,写代码前要先写一堆 Spec,感觉像是在给 AI 打工,很难在日常快速迭代中坚持下来。

2. Gemini Conductor 的惊艳与局限

后来,Google 推出的 Gemini Conductor 让我眼前一亮。

  • 优点:对于 从零开始的新项目或者 独立的小脚本,它简直是神器。你给它一个指令,它能全自动把文件建好、代码写好、测试跑通。
  • 痛点:但当我把它用到 现有的、庞大的 SaaS 系统中时,问题来了。Conductor 缺乏对旧系统的整体认知。要让它在百万行代码里精准修改一个逻辑,我需要前期人工积累大量的 Skills(技能)和 Tools(工具)来辅助它。对于老项目来说,这个“冷启动”成本太高了。

3. 发现新大陆:Copilot Plan Mode

就在我苦恼于“新项目太爽,老项目太累”的时候,GitHub Copilot 推出的 Plan + Implementation 模式 完美填补了这个空白。

它不需要预先配置复杂的 Skills,却能通过“交互式规划”快速理解复杂的业务上下文。这正是我在维护复杂老项目时最需要的——手术刀般的精准度,而不是推土机般的破坏力。

二、 核心模式解析:“Plan + Implement” 为何如此好用?

1. 痛点:Ask + Agent 模式的“最后一公里”迷失

以前我们用 Copilot 的 Ask + Agent 模式时,流程通常是:先在 Chat 框里和 AI 聊(Ask),聊得差不多了,再让 Agent 去执行。

但这中间存在一个致命的断层:没有一个“最终确认”的环节。 虽然我在 Ask 阶段聊了很多,但到了 Agent 实现阶段,AI 可能依然存在理解盲区。因为它没有显式地总结出一份“行动指南”让我确认,一旦它在某个不懂的细节上开始“自由发挥”,就会产生幻觉。这种不确定性,导致我在 Code Review 时经常还要回头去修它生成的 Bug。

2. 解法:Plan Mode 的“契约精神”

Plan Mode 的核心价值在于,它在 Thinking(思考)和 Coding(编码)之间,插入了一个“达成共识”的步骤。

在 Agent 写下一行代码之前,它必须先交出一份 Plan(计划书)

  • 如果 Plan 里有我想法不一样的地方(比如异常处理策略),我直接在 Plan 阶段修正。
  • 只有当我和 AI 对 Plan 达成一致后,它才会进入 Implement 阶段。

这相当于在施工前先签好了图纸,极大地降低了返工率。

alt

三、 高阶玩法:“模型路由” (Model Routing) 策略

这是我在实战中摸索出的“独家秘籍”。 Gemini Conductor 虽然强大,但目前只能绑定 Gemini 系列模型。而 GitHub Copilot 的最大优势在于它的开放性——你可以根据不同的任务阶段,自由路由到最合适的模型。

alt

我总结了一套 “架构师 + 工匠” 的组合拳:

🧠 Plan 阶段:聘请“严谨架构师” —— GPT-5.3-Codex

alt
  • 角色定位:逻辑推理、API 契约制定、异常路径分析。
  • 为什么选它
  • 带有Codex 后缀的模型通常指令依从性(Instruction Following)极强。
  • 它逻辑严密,能像老法师一样考虑到数据一致性、NATS 消息丢失等架构风险。
  • 在 DDD 架构中,它能守住“领域边界”,不让业务逻辑泄露。

🛠️ Implement 阶段:聘请“优雅工匠” —— Claude Sonnet/Opus 4.6

alt
  • 角色定位:代码落地、细节优化、单元测试。
  • 为什么选它
  • 代码品味(Code Taste)极佳:它生成的代码不仅能跑,而且符合现代 Java 风格(Stream 流、Optional 处理等)。
  • 有“代码洁癖”:它会主动检查并移除多余的 Import,生成的代码往往能直接通过 Spotless 检查。
  • 懂“人话”:变量命名清晰,注释写得非常人性化,便于后续维护。

四、 实战复盘:企业微信 SaaS 动态 Server 改造

为了证明这套模式的威力,分享一个最近的真实案例。 背景:我们的 SaaS 客服系统基于 Spring Boot + NATS + DDD 架构。 需求:需要将一个动态的server 参数,从 API 回调入口,穿透 DTO、Listener、Event、Service,一直透传到下游的 API Client。

Step 1: 交互式规划 (GPT-5.3-Codex)

我将WeComPayload 和WeComApiClient 的代码发给 Copilot,输入需求。 GPT-5.3-Codex 并没有急着给代码,而是先生成了 Decisions(关键决策) 列表供我确认:

alt
Decisions:已定:字段路径payload.attributes.server已定:server 值为host:port,客户端负责补协议并组装 URL关键点:server 缺失时“跳过 + 记录错误”,不回退wecom.api.base-url已定:sendTextMessage 与读取接口保持同一动态 server 规则

这一步非常关键!如果它不问,直接回退到旧的base-url,系统逻辑就乱了。

Step 2: 生成蓝图

确认决策后,AI 生成了包含 5 个大步骤的详细计划:

  1. 在消息 DTO 增加attributes.server 建模。
  2. 在入口监听器补齐 server 校验与透传起点。
  3. 扩展异步事件模型(GroupSyncEvent 等)承载 server。
  4. 让消费服务全链路使用动态 server。
  5. 重构 API 客户端为“按次 URL”。
alt

Step 3: 落地执行 (Claude Opus 4.6)

确认 Plan 无误后,我切换模型为 Claude 4.6 点击 "Start Implementation"。 Claude 开始分批执行修改。最让我惊喜的一个细节是: 在修改WeComPayload 时,它引入了一个Map 类,但随即在编译检查时发现该引用实际上未被使用。Claude 主动 发出提示:

“检测到java.util.Map 引用多余,虽然编译器忽略了,但我将其移除以保持代码整洁。”
alt

Step 4: 结果

最终,整个重构涉及 11 个文件。 编译通过,Spotless 格式化通过,单元测试全绿。 全程没有人工修改一行代码,一次性通过。

alt

五、 总结

AI 编程工具正在经历从“玩具”到“工业级武器”的转变。

  • 如果你在做 新项目或者存量的小项目Gemini Conductor 依然是效率之王。
  • 但如果你像我一样,正在维护 大型、复杂的存量系统,那么 Copilot Plan Mode + 模型路由 绝对是目前的版本答案。

这套模式不仅让我写代码更快,更重要的是它带给了我久违的“掌控感”。我不再担心 AI 会悄悄搞乱我的代码,因为每一个步骤、每一个决策,都在 Plan 阶段经过了我的确认。

拒绝 AI 幻觉,从学会“Plan”开始。 强烈推荐大家在复杂的后端开发中尝试这套打法,体验真正的丝滑开发。

本文由 mdnice 多平台发布

Read more

收藏级|小白也能上手!用魔搭+LLaMA Factory手把手实操大模型微调全流程

收藏级|小白也能上手!用魔搭+LLaMA Factory手把手实操大模型微调全流程

本文用「教育孩子」类比「训练AI」的通俗方式,拆解大模型微调的完整流程,全程基于魔搭平台和LLaMA Factory工具,从环境搭建、模型下载、数据准备,到模型训练、本地测试、模型导出,每一步都附具体操作和代码,无多余冗余。无论是零基础小白,还是刚接触大模型的程序员,都能跟着步骤一步步实操,轻松吃透预训练、微调和RLHF三大核心阶段,成功训练出属于自己的第一个大模型,建议收藏备用,实操时直接对照步骤走! 1、先搞懂:什么是大模型「微调」? 在动手实操前,我们先花2分钟搞懂核心概念——微调。常规大语言模型的训练,就像培养一个孩子,整体分为3个关键阶段,一张图就能看明白: 用「养娃」做类比,小白也能秒懂三个阶段的区别,建议记好这个类比,后续理解流程更轻松: 1. 预训练(对应孩子的「通识教育」) * 模型层面:通过自监督学习,读取海量文本数据,掌握基础的语言规则、词汇逻辑,

知网AIGC检测原理是什么?如何针对性降低AI疑似度

知网AIGC检测原理是什么?如何针对性降低AI疑似度

知网AIGC检测系统是怎么工作的? 很多同学对知网的AIGC检测系统感到神秘,不知道它到底是怎么判断文本是不是AI生成的。其实理解了检测原理,降低AI疑似度就有了明确的方向。 知网AIGC检测系统主要分析文本的统计学特征,而不是去识别你用了什么工具。它会从多个维度评估文本:词汇分布的规律性、句式结构的重复程度、段落组织的模式化程度、以及整体文本的「困惑度」。 所谓困惑度,是指文本的可预测性。AI生成的文本往往可预测性很高,因为AI会选择最可能的下一个词。而人类写作的可预测性相对较低,因为我们会有跳跃性思维和个人偏好。 知网检测和其他平台有什么不同? 不同检测平台的算法和标准是不一样的,同一篇文章在不同平台的检测结果可能差异很大。 知网的检测相对严格,算法更新也比较快。它针对中文学术论文做了专门的优化,对学术写作的模式识别更精准。很多在其他平台显示30%的文章,在知网可能显示50%甚至更高。 如果你的学校用知网检测,一定要以知网的结果为准。不要在其他平台测了觉得没问题就放心了,最后提交时用知网一查可能会有惊喜。 知网重点检测哪些内容? 根据实际测试经验,知网AIGC

OpenAI Codex vs GitHub Copilot:哪个更适合你的开发需求?2025年深度对比

OpenAI Codex 与 GitHub Copilot:2025年开发者如何做出关键选择? 在2025年的技术栈里,一个高效的AI编程伙伴不再是锦上添花,而是决定项目节奏与质量的核心生产力。面对市场上功能各异的选择,许多开发者,尤其是那些管理着复杂项目或带领团队的技术决策者,常常陷入一个两难的境地:是选择功能全面、能独立处理任务的“AI工程师”,还是选择无缝集成、提供实时灵感的“智能副驾驶”?这不仅仅是工具的选择,更是关于工作流重塑、团队协作模式乃至项目架构未来的战略决策。对于个人开发者、初创团队乃至大型企业的技术负责人而言,理解这两款主流工具——OpenAI Codex与GitHub Copilot——在本质定位、适用场景与成本效益上的深层差异,是避免资源错配、最大化技术投资回报的第一步。本文将深入它们的核心,帮助你根据真实的开发需求,找到那个最契合的“数字搭档”。 1. 核心理念与定位:从“辅助”到“执行”的范式差异 理解Codex和Copilot,首先要跳出“它们都是写代码的AI”这个笼统印象。它们的底层设计哲学决定了完全不同的应用边界。 OpenAI Codex

Llama-3.2-3B开箱体验:Ollama部署+多语言对话实测

Llama-3.2-3B开箱体验:Ollama部署+多语言对话实测 1. 快速了解Llama-3.2-3B Llama-3.2-3B是Meta最新推出的轻量级多语言大模型,专门针对对话场景进行了优化。这个3B参数的模型在保持较小体积的同时,提供了相当不错的文本生成能力,特别适合本地部署和快速响应场景。 与之前版本相比,Llama-3.2-3B有几个明显优势: * 多语言支持更好:在中文、英文、法文、德文等多种语言上都有不错的表现 * 对话优化:专门针对聊天场景进行了指令微调,回答更加自然 * 部署简单:通过Ollama可以一键部署,无需复杂配置 * 资源友好:3B参数规模在消费级硬件上也能流畅运行 2. 环境准备与快速部署 2.1 准备工作 部署Llama-3.2-3B前,确保你的设备满足以下要求: * 内存:至少8GB RAM(推荐16GB) * 存储:需要约2GB空间存放模型文件 * 系统:支持Windows、macOS、Linux主流系统 2.2 一键部署步骤