Claude Opus 4.6 核心更新摘要
2026 年 2 月 5 日,Anthropic 发布 Claude Opus 4.6。本文旨在让产品经理、开发者及企业架构师快速把握其核心价值。Opus 4.6 在多步规划与 Agent 式工作流、代码审查与调试、以及超长上下文检索(支持 1,000,000 token Beta)上有显著提升。同时提供 adaptive thinking、四档 effort 控制、context compaction 与 agent teams 等工具特性以便落地。
第一章:发布与核心亮点
Opus 4.6 是 Opus 系列的增量升级,重点提升编码能力、长期/多步骤的 agentic 任务执行、在大型代码库中的可靠性,并引入了 Opus 系列首个 1M token 上下文窗口(Beta)。
核心要点
- 能力提升方向:更深的规划(planning)、更长的任务持续性、更稳健的代码审查/调试。
- 长上下文:1,000,000 token 上下文窗口(Beta);超 200k token 的输入/输出使用差别化(premium)计费。
- 可用平台:claude.ai、API 与主流云平台均可用;开发者可通过 claude-opus-4-6 访问。
经验 / 使用技巧
- 选择场景:当任务需要跨大量文档、审查大型代码库、或多轮 Agent 协作时优先选用 Opus 4.6。
- 成本与效率折中:若只做简单问答或单步任务,可通过 /effort 参数把 effort 调至 medium 或 low 来节省成本与延迟。
第二章:第一印象
Anthropic 团队和早期合作伙伴反馈模型在分解复杂任务、自动执行、在未明确指示下聚焦关键难点方面表现突出;在多公司实测中被视为'更像协作者而非工具'。
核心要点
- 更自主的执行:常能在未过度提示下拆解并推进任务(Agentic)。
- 跨团队/跨仓库作业能力:示例包括自动关闭 issue、分配任务、处理多仓库的组织决策。
- 企业客户反馈一致性:Notion、GitHub、Replit、Asana、Thomson Reuters 等多家早期合作方报告显著提升。
经验 / 使用技巧
- 让模型先'计划':对复杂任务可先让 Opus 4.6 产生步骤计划(Planning Step),再执行每步。
- 并行子代理(Agent Teams):对独立、可分割的读密集任务可采用并行子 Agent 来提升吞吐与速度。
第三章:评估与基准
文章列出大量基准与测试结果,表明 Opus 4.6 在多项专业任务(Agentic Coding、长上下文检索、深度搜索、多领域推理)上处于行业领先或显著优于前代/竞争对手的位置。
核心要点(量化摘录)
- Terminal-Bench 2.0:在 Agentic 编码评测中得分行业最高。
- GDPval-AA:在'经济有价值的知识工作'评估上,Opus 4.6 比 OpenAI 的 GPT-5.2 高约 144 Elo,比自身前代 Opus 4.5 高 190 Elo。
- 长上下文检索:在 8-needle 1M MRCR v2 上,Opus 4.6 得 76%,而 Sonnet 4.5 得 18.5%——显示'在海量文本中找针'的明显改进。
- 专业领域能力:在法律、计算生物学、网络安全、跨语言编程等专项测试上也有显著提升。
经验 / 使用技巧
- 以评测导向选择模型:若任务是'高价值知识工作',Opus 4.6 在 GDPval-AA 类评测上显示优势。
- 长文档检索策略:将重要资料分块并引导模型逐块索引/汇总,然后使用 context compaction 或 1M token 上下文以减少信息丢失。
第四章:产品与 API 更新
为配合模型的新能力,Anthropic 在平台与工具上做了多项改进:adaptive thinking(自适应思考)、四档 effort 控制、context compaction(上下文压缩)以及 agent teams(Claude Code 的多 Agent 并行)。并增强了与 Office 套件的集成。
核心要点
- Adaptive thinking:模型能根据上下文自动决定是否启用更深的内部'extended thinking',默认在 high effort 下启用。
- Effort 参数:四档设置(low / medium / high / max),用户可在效率、成本与深入推理间权衡。
- Context compaction(Beta):自动总结并替换旧上下文,以支持更长的会话与长期 Agent 任务。
- 1M token 上下文(Beta)与定价:Opus 4.6 首次支持 1M token;超过 200k token 的输入/输出有 premium 定价。
- Claude in Excel / PowerPoint:Excel 中能力提升;PowerPoint 支持读取版式/模板以生成品牌一致的幻灯片。
- Agent teams:在 Claude Code 中可以并行启动多个子 Agent 并协调,适合分布式、可并行化的代码审查等任务。
经验 / 使用技巧
- 调节 Effort:发现模型'想太久'或回答过于冗长时,优先把 effort 调到 medium/low。
- 使用 Context Compaction:对于长会话或持续运行的 Agent,把 compaction threshold 设定为合适值可延长任务运行周期。
- 并行化策略:将大型读取/审查型工作拆分成独立子任务交给 Agent Teams。
第五章:安全性进展
Anthropic 强调 Opus 4.6 的能力提升并未以安全为代价:在自动化行为审计中显示出低误导、低拍马屁(Sycophancy)、较低的'过度拒绝'(Over-refusal),并进行了更全面的安全评估与 Interpretability 实验。
核心要点
- 自动化行为审计:Opus 4.6 在误导、协助滥用等 Misaligned 行为测试上表现和/或优于前代模型。
- 解释性研究(Interpretability):开始采用模型内部可解释性方法以发现潜在异常行为或机制性缺陷。
- 网络安全双用风险与探针:鉴于模型在发现漏洞方面能力增强,Anthropic 开发了六种新的 Cybersecurity Probes 来检测潜在有害响应。
经验 / 使用技巧
- 对安全敏感场景:在允许模型执行与安全相关的自动化前,务必结合 Anthropic 的探针与内部治理策略。
- 审计与可解释性:把 Interpretability 输出纳入定期安全审计,能更早捕捉异常策略或边界情况。
第六章:可用性、定价与生态
Opus 4.6 已在 claude.ai、API 与主流云平台上线;标准计费继续维持 $5(input)/$25(output)每百万 token,但对于超过 200k token 的大上下文使用启用了 premium 定价。
核心要点
- 可用性:今天可在 claude.ai、API 与云平台访问(开发者通过 claude-opus-4-6 调用)。
- 定价:基础价格 $5/$25 per million tokens;超过 200k token 的 input/output 使用 premium 收费。
- 生态集成:微软 Azure / Foundry 等云平台亦开始托管或支持。
经验 / 使用技巧
- 成本控制:对大上下文任务先评估是否真的需要 1M 上下文,或通过 compaction /分批策略以避免 premium 计费。
- 选择托管方式:企业若关心合规/治理可优先选用云厂商托管版本以获得额外的治理与集成支持。


