【LLM】大模型vibe coding(cursor、copilot、comate)

【LLM】大模型vibe coding(cursor、copilot、comate)

note

2025年,Karpathy分享了自己的Vibe Coding指南1.0:

  • 把所有相关内容塞进上下文里(在大型项目中可能需要很久。如果项目够小,就直接把所有文件都塞进去。
  • 描述我们接下来要实现的那个具体的、增量式的小改动。不要直接要代码,而是要几种高层次的思路,并分析它们的优缺点。几乎总是会有多种做法,而大语言模型的判断并不总是可靠。然后(可选)再具体化。
  • 选择一种思路,请它写出第一版代码。
  • 进入复查/学习阶段:手动在浏览器里打开我不熟悉或没调用过的API文档,向模型提问解释、澄清、修改,必要时回退并尝试另一种思路。
  • 测试。
  • Git commit。
  • 询问可以接下来实现什么。然后重复这个循环。

文章目录

一、相关vibe coding工具

在这里插入图片描述

1、cursor

Cursor 是一款基于 VS Code 二次开发的 AI 编辑器,它深度融合了 AI 技术,提供了前所未有的用户体验
。它不仅借助 VS Code 强大的插件生态系统,还通过 AI 提升了整体使用感受。与 GitHub Copilot 等其他类似产品相比,Cursor 的最大优势在于其与编辑器本身的深度集成,这意味着它不仅仅是一个附加组件,而是成为编辑器不可分割的一部分,使用户在日常使用中能够更加自然、高效地利用这些智能功能。

2、copilot

GitHub Copilot 是一种 AI 编码助手,由大型语言模型 (LLM) 提供支持,可在整个 Microsoft 云中提供创新解决方案
。它旨在提高工作效率、创造力和数据可访问性,同时提供企业级数据安全和隐私功能。GitHub Copilot 集成在 GitHub 平台中,为开发人员提供了一个支持性环境,用于应对编程挑战并增强其编码工作流。此外,GitHub Copilot 可用于学习新的编程语言或框架,方法是根据开发人员输入提供实时代码建议。

3、comate

(1)支持的语言。目前文心快码支持全部主流编程语言,其中在以下语言/框架编码场景表现更优:

后端(Backend): C、C#、C++、Java、Python、Go、PHP、Rust
前端(Frontend): HTML、JavaScript、CSS、Less、swan、San、Vue、Scss、Sass、Stylus、pug、mermaid
App端(APP): ObjectC、Kotlin、Swift
其它(Others): Perl、Ruby、Shell、vhdl、GraphQL、Dockerfile

zulu使用文档:https://cloud.baidu.com/doc/COMATE/s/vm66asjm4

(2)Chat 和 Zulu 的区别
Chat:代码问答,需要用户主导问题解决过程。用户通过提问、理解答案、多轮追问的流程来解决问题。生成的代码经手动点击“采纳”后合入代码文件。
Zulu:智能体,支持从需求到代码的端到端生成。用户只需给出需求,智能体会自主规划工作,确定相关文件,编辑代码库,调用开发工具。还会自主验证结果、持续迭代、解决问题,直至达成用户的目标。

(3)端到端任务执行
Zulu 具备自助任务执行和反思能力,能够端到端从需求生成代码。

例如,当您要求 Zulu 为一个在线商城的项目的支付系统增加微信支付时。Zulu 会:

  • 了解项目的结构和现有支付逻辑,并找到支付宝的相关实现
  • 了解上游的订单服务如何调用支付服务
  • 实现微信支付的代码
  • 总结复盘,查漏补缺,发现遗漏的 pom.xml 修改
  • Zulu 会依据代码库的实际情况动态调整规划和执行的过程,确保生成效果。

(4)代码库的理解:介绍项目的业务目标,核心功能、整体架构、业务流程

在这里插入图片描述

二、vibe coding综述

1、code agent

综述:
https://arxiv.org/abs/2508.00083
A Survey on Code Generation with LLM-based Agents
https://github.com/JiaruQian/awesome-llm-based-agent4code

在这里插入图片描述

2、vibe coding

【代码编程进展】Vibe Coding 的一个综述,A Survey of Vibe Coding with Large Language Models,
https://arxiv.org/pdf/2510.12399,
https://github.com/YuyaoGe/Awesome-Vibe-Coding

在这里插入图片描述

三、斯坦福CS146S

《The Modern Software Developer》(现代软件开发者)
https://themodernsoftware.dev

前两周讲的是从提示词到 Agent,核心思想是:AI 已经是一个带工具的系统了,你得学会怎么搭这个系统。
第 1 周:先把 LLM 的工作原理、犯错的原因、怎么引导它稳定输出讲清楚,作业是做一个 Prompting Playground,把提示词从玄学变成可验证的实验。
第 2 周:直接进入 Agent 架构,讲 Tool Use、Function Calling,还有现在大火的 MCP(Model Context Protocol),作业是自己动手搭一个 MCP Server。

第 3 ~ 4 周讲 AI IDE 和上下文工程。
第 3 周:关键词是 Context Engineering,课上讨论了长上下文为什么会失败、Specs 和 PRD 为什么是新的源代码、怎么让 AI 理解复杂的代码库。这周的必读材料里有一篇叫《Specs Are the New Source Code》,我觉得是整门课最值得深思的一篇。
第 4 周:讲 Agent 的自治程度怎么管控、人机协作模式怎么设计,阅读材料包括 Anthropic 的 Claude Code 使用方式和最佳实践。作业就是直接上手用 Claude Code 写项目,训练你成为一个 Agent Manager。

第 5 周讲现代终端,介绍 Warp 这类 AI 终端怎么把命令行操作产品化。AI IDE 解决的是写代码的问题,AI 终端解决的是把代码跑起来、把系统管起来的问题。

第 6 ~ 7 周讲安全与质量,这两周是我觉得整门课最有含金量的部分。
第 6 周:讲 Secure Vibe Coding,直接上硬核案例:Prompt Injection 怎么导致远程代码执行?OWASP Top 10 在 Agent 时代有哪些新威胁?看得我脊背发凉……
第 7 周:讲 Code Review,核心问题是:AI 产出的代码,我们能信任到什么程度?

第 8 周:讲自动做应用,一句 Prompt 搞出一个端到端的完整应用,嘉宾是 Vercel 的 AI 研究负责人。这节课的实战价值很大,但课程真正想传达的是:快速原型只是起点,你得能把它纳入测试、安全、Code Review 这些工程规范中。

第 9 周:讲上线后的运维,包括监控、可观测性、事件响应、自动化排查。很多人学 AI 编程只学造,不学养。这门课把养系统也补上了,非常加分。

第 10 周:讲未来趋势,嘉宾是 a16z(全球最牛的风投之一)的合伙人 Martin Casado,帮你把前 9 周串起来,知道自己学的是一种新的工程范式。

作业代码:https://github.com/mihail911/modern-software-dev-assignments

四、vibe coding建议

1、YC建议

参考:YC合伙人深度实践:15个让你玩转Vibe Coding的秘诀

1、开局:选对工具,谋定而后动

  • 新手和老手选择不同:如果你是编程新手,可以从 Replit 或 Lovable 这类可视化工具入手,它们能让你快速搭建界面。但文章指出,当你需要更精细地控制后端逻辑时,这类工具可能力不从心。如果你有基础,那么像 Cursor 或 Claude Code 这类更专业的编码AI工具会是更好的选择,它们提供更精准的控制。
  • 别直接写代码,先做计划:这是最重要的建议之一。不要一上来就让AI直接生成代码,而是应该先和AI一起制定一份详细的开发计划,就像建筑蓝图一样。把这份计划保存在项目里,然后和AI一起,一部分一部分地去实现它,每完成一步就检查、测试,再继续下一步。

2、过程:用好“安全绳”,避免翻车

  • 把Git当作“后悔药”:严格使用Git进行版本控制。在开始新功能前,确保有一个干净的状态。一旦AI的修改把代码搞乱了,可以立刻用 git reset 命令回滚到上一个正常状态,推倒重来,而不是在错误的代码上越陷越深。
  • 让AI为你写“验收标准”:不要只让AI写细碎的单元测试,而是让它编写高级别的集成测试。这种测试模拟用户点击操作,能确保整个功能流程是通的。它能有效捕捉到AI“手滑”修改了不相干代码而引入的bug。
  • AI不止能写代码:充分利用AI处理各种周边任务,比如配置服务器、设置域名解析(DNS)、甚至设计图标。这让AI同时扮演你的运维(DevOps)和设计师角色,极大提升综合效率。

3、技巧:精准沟通,高效排错

  • 错误信息是最好的提示:遇到报错时,直接把完整的错误信息日志复制给AI,通常它自己就能看懂并给出修复方案,你甚至不需要多做解释。
  • 不行就换“脑袋”:不同的AI模型(如Claude、GPT、Gemini)各有擅长。如果一个模型总在一个问题上卡住,果断切换另一个模型,很可能就迎刃而解了。
  • 给它一份“岗位说明书”:你可以为AI编写详细的指导规则(Instructions),告诉它项目的背景、代码风格偏好、常用库等。这能极大提升AI输出代码的准确率和符合度。

4、架构:化整为零,降低复杂度

  • 复杂的活儿单独干:对于特别复杂的新功能,最好在独立的新项目里让AI先实现一个demo,成功后再整合进主项目。这能避免主项目复杂的代码干扰AI的判断。
  • 小即是美:无论是人还是AI,都更容易理解短小精悍、模块化的代码。保持文件小巧、功能独立,这被认为是Vibe Coding下的最佳实践。

2、对技术人的影响

  • AI 极大释放了研究者的决策空间,比方说Cursor 像“高效工程师”,负责处理琐碎的画图代码与实验分析;而Gemini 3 Pro 则堪比“科学家”,辅助进行逻辑推演与理论梳理。
  • 技术人正从“代码写作者”转变为“问题提问者”。写 Prompt 的本质,是“找真问题、解真问题”的过程。
  • 未来技术从业者将转型为“项目管理者”与“架构设计师”,核心能力包括三方面:
    • 架构设计:搭建系统整体框架,规划核心逻辑,把控技术路线。
    • 智能体调度:根据任务特性,精准选择 AI 工具组合,实现效率最大化。
    • 批判思维:AI 生成代码多处于平均水平,核心代码难达最优,需以高阶视角 Review 代码,避免破坏现有优质框架。
  • 沟通能力:
    • 跨领域沟通:工程师需理解商业逻辑,设计师需参与编程环节,打破专业壁垒才能形成高效协作。
    • 精准意图表达:项目推进速度从“按天算”变为“按分钟算”,短时间内让 AI 准确理解核心需求,是提升效率的核心前提。
  • 传统程序员会缩减为少数负责核心风险把控、架构设计的专家;更多人会利用 Vibe Coding 为原有行业赋能(如投资人写爬虫分析资讯、设计师自主开发工具),催生出更多多元化社会工种,拓宽行业边界。

Reference

[1] Cursor 完全使用教程
[2] 微软Copilot怎么用?如何使用微软Copilot AI的10个技巧!
[3] 程序员的SK-II神仙水:GitHub Copilot,让你时刻拥有巅峰战力!
[4] AI Coding工具怎么用? 看看滴滴人怎么说? | 技术桔有话说
[5] 技术思辨|AI Coding:经验壁垒正在失效,工具进化重塑编程.高德技术
[6] 构建可扩展的智能体系统:工程化方法与实践(一).bili
[7] 一篇Copilot、Cursor、Claude Code三代产品背后AI Code技术最新全面综述
[8] 阿里、百度、腾讯、美团齐聚的Vibe Coding 圆桌,却被12岁小孩姐“军训”
[9] Vibe Coding 中怎样避免屎山,ref:https://github.com/karminski/trae-meetup-materials
[10] 阿里妈妈效果广告引擎团队在 AI Coding 领域的探索与实践经验。依托历时三年打造的 CommonAds 研发体系,我们构建了智能研发助手「元芳」,并通过集成至 IFLOW-CLI 以多 Agent 协同的方式,探索出一套可胜任于「严肃的广告引擎场景的高质量代码生成解决方案」 让 AI 写出生产级代码:阿里妈妈效果广告引擎AI Coding实践
[11] 【干货】当代码下沉为“氛围”,程序员如何免于被 AI “断代”?
[12] Anthropic 黑客松获奖者的ClaudeCode 配置:github.com/affaan-m/everything-claude-code
[13] trae-研发场景十大热门 Skills 推荐
[14] https://themodernsoftware.dev
[15] 【Vibe Coding开源项目】Vibe Coding 指南,https://github.com/2025Emma/vibe-coding-cn
[16] Claude Code 完全新手指南(2026 版):从入门到精通

Read more

Qwen3-TTS部署教程:Qwen3-TTS与Whisper ASR构建双向语音对话系统

Qwen3-TTS部署教程:Qwen3-TTS与Whisper ASR构建双向语音对话系统 想象一下,你对着电脑说一句话,电脑不仅能听懂,还能用自然、有感情的声音回答你,整个过程流畅得就像在和朋友聊天。这听起来像是科幻电影里的场景,但现在,通过Qwen3-TTS和Whisper ASR这两个强大的开源模型,我们完全可以自己动手搭建这样一个系统。 今天,我就带你一步步实现这个目标。无论你是想做一个智能语音助手,还是想为你的应用增加语音交互功能,这篇教程都会给你一个清晰的路线图。我们会从最基础的部署开始,到最终实现一个能听会说的双向对话系统。 1. 准备工作与环境搭建 在开始之前,我们先来了解一下今天要用到的两个核心工具。 Qwen3-TTS 是一个强大的文本转语音模型。它最吸引人的地方在于,它支持10种主要语言,包括中文、英文、日文等,还能生成多种方言和语音风格。更厉害的是,它能理解你文本里的情感和意图,自动调整说话的语调、语速,让生成的声音听起来特别自然。 Whisper ASR 则是OpenAI开源的语音识别模型,它的识别准确率非常高,支持多种语言,而且对带口音、有噪声

从论文到实践:Stable Diffusion模型一键生成高质量AI绘画

从论文到实践:Stable Diffusion模型一键生成高质量AI绘画

🏡作者主页:点击!  🤖编程探索专栏:点击! ⏰️创作时间:2024年12月24日10点02分 神秘男子影,   秘而不宣藏。 泣意深不见, 男子自持重,    子夜独自沉。  AI绘画一键生成美图-变成画家 本地部署SD模型,一键即可生成自己想要绘制的图画,本文包括论文原理讲解和代码复现 论文讲解 论文题目:High-Resolution Image Synthesis with Latent Diffusion Models(基于潜在扩散模型的高分辨率图像合成) 论文被计算机视觉顶会CVPR 2022收录 Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。它建立在自注意力机制和扩散过程的基础上。它的设计灵感来自于扩散过程模型(Diffusion Models),这些模型在自然图像建模领域取得了巨大成功。 Stable Diffusion通过一系列的扩散步骤来生成图像。在每一步中,模型逐渐“扩散”图像,从含有较少信息的噪声开始,到包含更多细节的图像。

Lostlife2.0下载官网整合LLama-Factory引擎,增强NPC对话逻辑

Lostlife2.0整合LLama-Factory引擎,重塑NPC对话逻辑 在文字冒险游戏的世界里,玩家最怕什么?不是任务太难,也不是剧情平淡——而是和一个“话术机械、反应呆板”的NPC对话时,那种瞬间出戏的割裂感。明明世界观设定是末世废土,结果NPC张口就是“绝绝子”“破防了”,这种语言风格的崩塌足以让沉浸感荡然无存。 《Lostlife2.0》作为一款以深度叙事和角色互动为核心卖点的文字冒险游戏,在开发过程中就直面了这一难题。早期版本中,NPC的对话依赖传统的决策树系统:每句台词都由编剧手动编写,每个分支都需要精确配置。这不仅导致内容维护成本极高,更带来了“选项爆炸”问题——新增一条剧情线,往往要额外添加数十个节点,最终形成一张难以管理的复杂网络。 真正的转机出现在团队引入 LLama-Factory 之后。这个开源的大模型微调框架,原本主要用于科研与企业级AI定制,但《Lostlife2.0》团队敏锐地意识到:它或许能成为解决NPC智能瓶颈的关键工具。通过将LLama-Factory深度集成到开发流程中,他们成功构建了一套动态、可进化、风格一致的对话生成系统,彻底改变了传

VSCode中GitHub Copilot的大模型体系、订阅策略与 Agent 模式模型管理机制

一、引言 随着大语言模型(Large Language Models, LLMs)在软件工程领域的广泛应用,智能编程助手逐渐成为现代开发工具链的重要组成部分。其中,由 GitHub 推出的 GitHub Copilot 已成为最具影响力的 AI 编程辅助工具之一,并深度集成于 Visual Studio Code 等主流开发环境。 早期版本的 Copilot 主要依赖单一模型进行代码补全,而近年来其架构已经演进为 多模型(multi-model)驱动的智能编程平台。该平台不仅支持来自多个 AI 厂商的大模型,还通过 Agent 模式、模型路由与按需调用机制提升复杂软件开发任务的自动化程度。 本文将系统介绍以下四个方面: 1. VS Code 中 GitHub Copilot 的 大模型支持体系 2. Copilot 的 订阅策略与计费机制