GPT-5-Codex来了:AI程序员正式进入“独立干活”时代

GPT-5-Codex来了:AI程序员正式进入“独立干活”时代

本文已收录在Github关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 🚀 魔都架构师 | 全网30W技术追随者
  • 🔧 大厂分布式系统/数据中台实战专家
  • 🏆 主导交易系统百万级流量调优 & 车联网平台架构
  • 🧠 AIGC应用开发先行者 | 区块链落地实践者
  • 🌍 以技术驱动创新,我们的征途是改变世界!
  • 👉 实战干货:编程严选网

Codex 现在运行更高效、性能更稳定,实时协作与独立任务处理能力显著提升,无论是在终端、IDE、网页,还是在手机上进行开发,均能随时使用。

2025 年 9 月 23 日更新:

GPT-5-Codex 现已向使用 API key 的 Codex 开发者开放(除了已通过 ChatGPT 订阅使用 Codex 的开发者)。GPT-5 Codex 的定价与 GPT-5 相同,并且仅在 Responses API 中提供。底层模型快照会定期更新。详见Codex开发者文档更新日志

今天发布 GPT-5-Codex —— 这是在 Codex 中针对自主式编程进一步优化的 GPT-5 版本。GPT-5-Codex 的训练重点是实际的软件工程工作;它既能快速应对短时互动,也能独立完成长期、复杂的任务。其代码审查能力能在上线前发现关键漏洞。无论在什么场景下使用 Codex,GPT-5-Codex 都可用——它是云端任务和代码审查的默认选择,开发者也可以通过 Codex CLI 和 IDE 插件将其用于本地任务。

自从我们在 4 月发布 Codex CLI⁠,以及在 5 月发布 Codex⁠ 网页版以来,Codex 已逐步进化为更高效的编程伙伴。两周前,我们将 Codex 统一为一个基于 ChatGPT 账号的单一产品体验,让你能在本地环境和云端之间无缝切换工作,不会丢失上下文。Codex 已覆盖你的开发场景——无论是在终端或 IDE、网页、GitHub,甚至 ChatGPT iOS 应用中。Codex包含在Plus、Pro、Business、Edu 和 Enterprise 方案。

Codex接近目标——理解上下文、与你并肩工作、并能可靠分担团队任务的队友。

GPT‑5-Codex

GPT-5-Codex 是在 Codex 中针对自主式软件工程进一步优化的 GPT-5 版本。它的训练涵盖了复杂的实际工程任务,例如从零构建完整项目、添加功能和测试、调试、进行大规模重构以及代码审查。它更易于引导,能更好地遵循 AGENTS 的指令,输出更高质量的代码——你只需告诉它需求,而无需写冗长的风格或代码整洁度说明。

SWE-Bench 验证:在 GPT‑5 发布时及历史评估中,我们报告了 477 个 SWE-bench 验证任务的结果,因为有些任务无法在我们的基础设施中运行。已修复问题,现可报告全部 500 项任务的评估结果。

代码重构任务:我们的代码重构评估包含来自大型、成熟代码库的重构式任务,包括 Python、Go 甚至 OCaml 中的任务。一个示例任务是*来自 Gitea 的以下拉取请求⁠(在新窗口中打开)*,它更改了 232 个文件和 3,541 行代码,以将 ctx 变量贯穿应用程序逻辑。

GPT-5-Codex 会根据任务复杂度动态调整思考时间。该模型结合了两项关键能力:一是与开发者在互动会话中协作,二是能够持久、独立地执行长期任务。也就是说,在小型、定义明确的请求或与用户对话时,Codex 响应会更快;而在处理复杂任务(如大规模重构)时,它会投入更长时间。在测试中,我们观察到 GPT-5-Codex 能连续自主工作 7 小时以上,期间不断改进实现、修复测试错误,最终交付完整的解决方案。

在 OpenAI 内部的员工使用数据中,我们看到在按模型生成 token 数量(包含隐藏推理和最终输出)排序的最低 10% 用户请求中,GPT-5-Codex 比 GPT-5 少用 93.7% 的 token。而在最高 10% 的请求中,GPT-5-Codex 会思考更多,花费两倍时间进行推理、编辑和测试代码,不断迭代。

GPT-5-Codex 专门训练用于代码审查,能发现关键漏洞。在审查时,它能在代码库中导航,推理依赖关系,并运行代码和测试来验证正确性。我们在热门开源库的最新提交上评估了其代码审查表现。每个提交的审查意见都由有经验的软件工程师评估其正确性和重要性。结果显示,GPT-5-Codex 的意见更少出现错误或无关内容,更能把用户注意力集中在关键问题上。

GPT-5-Codex 在前端任务中是可靠的伙伴。除了能创建美观的桌面应用外,它在生成移动端网站时,在人工偏好评估中的表现也显著提升。在云端环境下,它可以查看你提供的图片或截图,直观检查进度,并将结果截图展示给你。

GPT-5-Codex 专为 Codex CLI、Codex IDE 插件、Codex 云环境及 GitHub 使用场景打造,并支持灵活的工具调用。与通用型 GPT-5 不同,我们建议仅在 Codex 或类似 Codex 的环境中,将 GPT-5-Codex 用于自主式编程任务。

Codex 的更新

我们最近也对 Codex 做了一些更新,使其成为更好的结对编程伙伴,包括重构的 Codex CLI 和全新的 Codex IDE 插件。

Codex CLI

Codex CLI 是开源的,过去几个月社区的反馈对其发展起到了关键作用。基于这些反馈,我们围绕自主式编程工作流重构了 Codex CLI,让模型能成为更强大、更可靠的合作伙伴。你现在可以在 CLI 中直接附加和共享图片——如截图、线框图和设计图,用来建立共享的设计上下文,从而得到你想要的结果。在处理更复杂的工作时,Codex 现在会用待办清单来跟踪进度,并包含诸如网页搜索和 MCP 等工具来连接外部系统,工具使用的准确性也整体提升。

终端 UI 也进行了升级:工具调用和差异结果的展示更易于理解。审批模式简化为三种:

  • 只读模式(需要明确批准)、
  • 自动模式(可完全访问工作区,但需要对工作区外的操作进行批准)、
  • 完全访问模式(可读取任意文件并运行带网络访问的命令)。

它还支持压缩会话状态,让长时间会话更易管理。

查看 Codex CLI 快速入门⁠(在新窗口中打开) 了解更多。

Codex IDE 插件

Codex 能与IDE无缝衔接。IDE 插件将 Codex agent 带入 VS Code、Cursor 以及其他 VS Code 分支,让你能直接在本地预览修改并用 Codex 编辑代码。在 IDE 中使用 Codex,你写更简短提示,并获得更快结果,因为 Codex 能利用上下文,如你已打开的文件或选中的代码。

Codex IDE 插件还能让你在云端和本地环境之间流畅切换工作。你可在编辑器中创建新的云任务、跟踪进行中的工作、审查已完成的任务。若要进行收尾处理,可在 IDE 中打开云任务,Codex 会保留上下文。

高效使用 IDE 插件查看 快速入门⁠

Codex 云端

除了 Codex CLI,全新的 IDE 插件和 GitHub 集成让 Codex 云端 agent 更贴近开发者工作流,让你无需离开编辑器或 GitHub 即可委派任务。

在幕后,我们也不断提升云端基础设施性能。通过缓存容器,我们将新任务和跟进任务的中位完成时间缩短了 90%。Codex 现在还能自动搭建运行环境:它会扫描常见的 setup 脚本并执行,并在需要时根据配置的网络访问权限运行 pip install 等命令以获取依赖。

和 CLI、IDE 插件一样,你现在也能通过图片分享前端设计规范或解释 UI bug。在为你构建应用时,Codex 能启动自己的浏览器,检查成果,不断迭代,并将结果截图附加到任务和 GitHub PR 中。更多详情请查看 文档⁠(在新窗口中打开)

代码审查

Codex 现在也包含了专门训练的代码审查功能,用于捕捉关键漏洞。与静态分析工具不同,它会对比 PR 的声明意图和实际差异,推理整个代码库及其依赖关系,并执行代码和测试以验证行为。只有最细致的人类审查者才会在每个 PR 上投入这种精力,而 Codex 可以填补这一空白——帮助团队更早发现问题,减轻审查负担,让交付更有信心。

一旦在 GitHub 仓库中开启,Codex 会在 PR 从草稿变为 ready 时自动进行审查,并将分析结果发布在 PR 上。如果它提出修改建议,你可以直接在同一对话线程中让 Codex 实施。你还可以显式请求审查,只需在 PR 中提及 “@codex review”,并加上额外指令,例如 “@codex review for security vulnerabilities”(安全漏洞审查)或 “@codex review for outdated dependencies”(过时依赖审查)。查看 快速入门⁠(在新窗口中打开) 了解如何为仓库设置代码审查。

在 OpenAI 内部,Codex 现在会审查绝大多数 PR,每天捕捉数百个问题——通常在人类审查开始之前。这在帮助 Codex 团队快速推进工作的同时,也显著增强了信心。

开发人员如何使用 Codex

“我需要更新另一个团队的代码库以发布功能。[…] 通过 Codex,我将重构与测试生成任务移交处理,从而能专注于其他优先事项。Codex 生成了高质量、经过完整测试的代码,我可以很快交付,既保持了功能按计划推进,也没有增加风险。”

Tres Wong-Godfrey,Cisco Meraki 技术主管

“Codex 在我们的后端 Python 代码审查基准测试中表现最佳。它是唯一能捕捉棘手向后兼容性问题的工具,并且始终能找出其他机器人遗漏的难点漏洞。”

Aaron Wang,Duolingo 高级软件工程师

“Codex 找出了其他代码审查工具遗漏的真正活跃的漏洞。它在审查中明显展现出深度思考能力,能够发现复杂问题。每个被发现的漏洞都体现出高精度与高价值,令人印象深刻!”

Austin Ray,Ramp AI Dev X 团队负责人

Codex 让我保持专注。我不用把待办事项抛在脑后,只需启动一个云任务,继续编码,然后代码会以补丁的形式返回,我可以随时查看。我的新工作流很简单:描述意图,启动 Codex,然后继续开发,最终结果会以干净的差异文件呈现,我可以随时微调。”

Kevin Royer,Vanta 高级 AI/ML 工程师

“在规划和开发过程中,扩展程序可以调整到合适的推理水平,并且其利用 MCP 的能力允许从工程师的 IDE 中直接调用合适的工具。这意味着 Codex 不仅编写代码,还积极地从早期设计沟通到实施阶段全程与团队共同塑造解决方案。”

Richard Masters,维珍航空数据与人工智能副总裁

“Codex CLI 与 Gap Inc. 的开发工作流程完美契合。它始终如一地根据业务规范执行功能,提升我们现有代码库的测试覆盖率,并处理那些分散开发人员注意力的细小但耗时的任务——这意味着我们可以更快地向我们的品牌和客户交付功能。这款工具让人重新思考:当 AI 真正理解代码库时,会有怎样的潜能。”

Jonathon Lacher,Gap Inc. 的 Agentic SDLC 负责人

构建安全、可信赖的 AI agent

我们在构建 Codex 时,重点放在保护代码和数据不被泄露,并防止误用。默认情况下,无论本地还是云端,Codex 都在沙箱环境中运行,并且 网络访问⁠(在新窗口中打开) 是禁用的。这有助于确保 Codex 无法在你的电脑上执行有害操作,并降低来自不可信来源的提示注入风险。

Codex 在可能涉及危险操作时会请求许可,并经过训练去运行命令验证自身输出。开发者可以根据风险承受度自定义安全设置。在云端,你可以限制其网络访问至可信域名。在 CLI 和 IDE 插件中,开发者可以批准命令以完全访问,或允许 agent 使用网页搜索并连接到 MCP 服务器。这可以增强 agent 的能力,但也会增加风险——了解更多关于如何安全操作和管理 Codex 的信息,请点击 这里⁠(在新窗口中打开)

我们始终鼓励开发者在更改或上线生产环境前审查 agent 的工作。Codex 会为每项任务提供引用、终端日志和测试结果,帮助你审查。虽然 Codex 的代码审查能降低危险问题被上线的风险(无论是人类还是 agent 造成的),但我们始终建议将 Codex 作为额外的审查者,而不是替代人类审查。

与我们在 GPT-5 上的做法一致,我们决定将 GPT-5-Codex 在生物和化学领域视为高能力模型,并实施了相应的安全措施以最大限度地降低相关风险。更多关于我们的评估和稳健安全策略,请参阅 系统卡附录⁠

定价与可用性

Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 方案中。使用额度会随方案不同而变化:Plus、Edu 和 Business 帐号可支持每周几次专注的编程会话,而 Pro 可支持多个项目中的完整工作周。

Business 方案可以购买额外额度,让开发者突破包含的使用上限;Enterprise 方案则提供共享的额度池,你只需为实际使用量付费。更多关于 ChatGPT 使用上限的信息,请查看 这里⁠(在新窗口中打开)

对于通过 API key 使用 Codex CLI 的开发者,我们计划很快在 API 中提供 GPT-5-Codex。

Codex 正逐渐成为我们一直设想的编程伙伴——更快、更可靠,并且深度集成到你已经使用的工具中。我们期待看到你用它构建的成果,并会持续改进 Codex,使其成为你最雄心勃勃项目中的最佳队友。

Read more

从 0 到 1 玩转 ClaudeCode:Figma-MCP 前端代码 1:1 还原 UI 设计全流程

ClaudeCode 与 Figma-MCP 简介 ClaudeCode 是 Anthropic 推出的 AI 代码生成工具,擅长将设计稿转换为前端代码。Figma-MCP(Minimum Code Principle)指通过最小代码原则实现高保真 UI 还原,适用于 Vue/React 等现代框架。 环境准备 Figma 设计稿检查 * 确保设计稿使用 Auto Layout 布局,标注间距、字体、颜色等设计 Token。 * 导出必要的 SVG/PNG 资源,检查图层命名规范(如 btn_primary)。 开发环境配置 * 安装 Claude 插件或访问官方 Playground。 初始化前端项目(示例为 Vue3 + TypeScript)

Qwen3-VL-WEBUI GPU配置:4090D最优算力方案详解

Qwen3-VL-WEBUI GPU配置:4090D最优算力方案详解 1. 引言 随着多模态大模型在视觉理解、语言生成和跨模态推理能力上的飞速发展,阿里云推出的 Qwen3-VL 系列模型已成为当前最具竞争力的视觉-语言模型之一。其最新版本不仅在文本与图像融合理解上达到新高度,更在视频分析、GUI代理操作、长上下文建模等方面实现了突破性进展。 对于开发者和研究者而言,如何高效部署并充分发挥 Qwen3-VL 的性能,成为落地应用的关键挑战。本文聚焦于 Qwen3-VL-WEBUI 的本地化部署实践,重点解析基于单张 NVIDIA RTX 4090D 显卡的最优算力配置方案,涵盖环境准备、资源调度、推理优化等核心环节,帮助用户以最低成本实现高性能多模态推理。 本方案适用于希望在消费级硬件上运行 Qwen3-VL-4B-Instruct 模型的开发者,尤其适合个人研究、原型开发和轻量级产品集成场景。 2. Qwen3-VL-WEBUI 核心特性与架构解析 2.1 模型能力全景 Qwen3-VL 是 Qwen 系列中首个真正意义上的“视觉代理”(Visual Agent),

【年终总结】从非科班无实习到准字节前端:我始终相信,开发之外的事,才是破局关键

【年终总结】从非科班无实习到准字节前端:我始终相信,开发之外的事,才是破局关键

目录 【年终总结】从非科班无实习到准字节前端:我始终相信,开发之外的事,才是破局关键 一、求其外,善其内 1、坚持出发点正确的博文写作 2、博文更新对我心态的淬炼 3、社区交流对我视野的启发 4、向外拓展,反哺内修 二、陷入前端则前端死,跳出前端则前端活 1、从不务正业到泛前端 2、从泛前端到大前端,从有形到无形 三、秋招多少事 四、结语         作者:watermelo37         ZEEKLOG优质创作者、华为云云享专家、阿里云专家博主、腾讯云“创作之星”特邀作者、火山KOL、支付宝合作作者,全平台博客昵称watermelo37。         一个假装是giser的coder,做不只专注于业务逻辑的前端工程师,Java、Docker、Python、LLM均有涉猎。 --------------------------------------------------------------------- 温柔地对待温柔的人,包容的三观就是最大的温柔。

Qwen3-32B显存溢出?量化压缩部署实战让资源节省40%

Qwen3-32B显存溢出?量化压缩部署实战让资源节省40% 你是不是也遇到过这种情况:好不容易找到一个性能强大的大模型,比如Qwen3-32B,结果一部署就发现显存不够用,直接报错“Out of Memory”?看着那动辄几十GB的显存需求,再看看自己有限的显卡资源,是不是感觉心都凉了半截? 别急着放弃。今天我就来分享一个实战技巧——通过量化压缩技术,让你在有限的硬件资源上,也能流畅运行Qwen3-32B这样的“大块头”。经过实测,这个方法能让模型显存占用减少40%以上,而性能损失却微乎其微。 1. 为什么Qwen3-32B会“吃”掉那么多显存? 在开始动手之前,我们先得搞清楚问题出在哪。Qwen3-32B是一个拥有320亿参数的庞然大物,它的“大”主要体现在两个方面: 1.1 参数规模带来的直接负担 模型参数越多,需要存储的数据量就越大。Qwen3-32B的320亿参数,如果都用32位浮点数(FP32)来存储,光是参数本身就需要大约128GB的存储空间。这还没算上推理过程中需要的中间计算结果(激活值)和优化器状态。 1.2 推理过程中的内存开销 模型在运行时,