AI Harness 工程的崛起

优质文章学习记录

07 Apr 2026 — 6 min read

我写过关于构建 AI Agents 的三种架构方法：SDK、Frameworks 和 Scaffolding。

每一种都处于灵活性 vs 结构性光谱的不同位置。

2026年出现了第四种模式，位于这三种方法之上。它被称为 Harness。

OpenAI 和 Anthropic 现在都正式使用了这个术语。

Martin Fowler 写过相关文章。一篇 arXiv 论文对其进行了形式化定义。

这不是一个流行词，它是决定 AI Agents 是否能在生产环境中真正工作的缺失架构层。

Harness 工程是决定 AI Agents 是否能在生产环境中真正工作的缺失架构层。

1、核心要点

Harness 不是 agent。

它是管理 agent 如何运行的软件系统。

它管理完整的生命周期……工具、内存、重试、人工批准、上下文工程、子 agent……以便模型专注于推理。

Philipp Schmid 用计算机类比很好地说明了这一点……

模型是原始处理能力。

上下文窗口是有限的工作记忆。

Harness 是操作系统……管理上下文、初始化序列和标准工具驱动程序。

Agent 是运行在其之上的应用程序。

2、Harness 在架构栈中的位置

我之前介绍了构建 AI Agents 的三种架构方法。

以下是 Harness 与每种方法的关系。

SDK、Scaffolding 和 Frameworks 回答的是如何构建 AI Agent 的问题。

Harness 回答的是一个完全不同的问题，agent 如何运行。

你可以使用这三种方法中的任何一种来构建 harness。Harness 不是它们的替代品。它是更高的一层。

四种方法的比较：

4、Harness 的六个组件

parallel.ai 团队确定了六个核心组件……

这与 OpenAI 和 Anthropic 发布的内容一致。

工具集成层

通过定义的协议将模型连接到外部 API、数据库、代码执行环境和自定义工具。

内存和状态管理

多层内存（工作上下文、会话状态、长期内存），在单个上下文窗口之外持久化。

Anthropic 的方法使用进度文件和 git 历史记录来桥接会话。

上下文工程和提示管理

动态策划每次模型调用中出现的信息。

不是静态的提示模板，而是基于当前任务状态的主动上下文选择。

规划和分解

引导模型通过结构化的任务序列，而不是试图一次性完成所有事情。

验证和防护

验证检查、格式验证、安全过滤器。自我纠正循环。当 agent 遇到困难时，harness 将其视为识别缺失内容的信号。

模块化和可扩展性

可以独立启用、禁用或替换的可插拔组件。

5、生产环境中的真实 Harness

Claude Code 就是一个 harness。

它读取整个代码库、管理文件系统访问、生成子 agent、处理工具编排、跨会话维护内存并实现防护。

开发人员专注于任务。Harness 管理其他所有事情。

OpenAI Codex 使用了 harness 工程。

他们的团队构建了一个超过 100 万行的代码库，完全没有手动输入的代码，将 harness 作为主要接口。

当 agent 遇到困难时，他们将改进反馈到存储库中。上下文工程、架构约束和定期清理 agent 形成了核心。

OpenAI 的 CUA 示例应用程序是用于计算机使用的 harness。

Runner 管理截图 → 操作 → 验证 → 重复的循环。

模型决定做什么。Harness 安全地执行它。

6、Framework 层正在合并到 Harness 中

在我最近关于消失的 framework 层的文章中，我论证了模型正在吸收传统上由多 agent frameworks 处理的功能。

Agent 定义、消息路由、任务生命周期、依赖管理、生成工作进程……大约 80% 开发人员使用 framework 的功能，模型现在原生处理。

剩下的 20%：持久性、确定性重放、成本控制、可观察性、错误恢复——正是 harness 提供的内容。

Framework 层不仅仅是在消失。它在分裂。智能进入模型。基础设施进入 harness。

7、Harness vs Framework

Framework 告诉开发人员如何构建应用程序。

Harness 告诉 agent 如何安全运行。

使用 framework 时，开发人员编写编排逻辑。

使用 harness 时，模型制定计划。Harness 保持其正常运行。

8、实际意义

对于今天构建 AI Agents 的团队来说，问题正在转变。

不再是我们应该使用哪个 framework？而是我们的 harness 看起来像什么？

Harness 决定了 agent 是成功还是失败。

优秀的 harness 管理人工批准、文件系统访问、工具编排、子 agent、提示和生命周期——干预最小但防止灾难性失败。

从简单开始。

构建健壮的原子工具。让模型制定计划。

添加防护、重试和验证。

这就是 harness 工程。

9、结束语

Markdown/prompt harness（如 Anthropic 的 CLAUDE.md 技能）将编排指令直接嵌入系统提示或结构化的 markdown 文件中。

LLM 本身成为循环控制器——它读取 harness 规则并遵循它们。

当 LLM 足够强大可以自我指导并且你想要无需代码更改的快速迭代时，这是最佳选择。

原文链接：AI Harness 工程的崛起 - 汇智网

2026 AI 编码工具终局对决：Claude Code、Cursor、GitHub Copilot 全维度拆解与最优选型指南

2026 年，AI 编码已经彻底完成了从 “可选加分项” 到 “开发者刚需” 的全面渗透。行业数据给出了最直观的印证：95% 的开发者每周都会使用 AI 编码工具，75% 的开发者已经用 AI 完成了 50% 以上的编码工作。但与极高渗透率形成鲜明反差的是，绝大多数开发者都选错了适配自身工作流的工具 —— 很多人依然在跟风使用大众普及度最高的产品，却忽略了不同工具背后完全不同的设计哲学、能力边界与适用场景。从 2021 年 GitHub Copilot 上线开启 AI 编码 1.0 时代，到 2026 年 AI 编码已经从 “单行代码补全” 进化到 “全流程自主工程化”，赛道已经形成了三大头部产品的三分天下格局：Anthropic 推出的 Claude Code、Anysphere 打造的

告别查重焦虑：PaperZZ 降重 / 降 AIGC 功能如何重塑学术写作的合规与效率

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿paperzz - 降重/降AIGChttps://www.paperzz.cc/weight 在学术写作的全流程中，“查重” 无疑是悬在每一位作者头顶的达摩克利斯之剑。无论是毕业论文、期刊投稿还是学术专著，重复率超标不仅会导致稿件被拒，更可能引发学术诚信层面的质疑。而随着 AI 生成内容（AIGC）的普及，新的挑战随之而来：AI 生成的文本不仅可能因句式单一、逻辑模板化被识别，还可能因训练数据的同源性导致重复率居高不下。面对 “双重压力”，传统的降重方式 —— 逐句改写、同义词替换 —— 早已显得力不从心，不仅效率低下，更可能破坏文本的逻辑连贯性和学术价值。 PaperZZ 降重 / 降 AIGC 功能的出现，正以颠覆性的力量重新定义学术降重的体验。它不再是简单的 “文字替换工具”，而是深度融合了语义重写、多检测系统适配和全流程辅助的智能助手，让曾经令人望而生畏的降重过程，变得高效、合规且充满可控性。一、

昇腾NPU运行Llama模型全攻略：环境搭建、性能测试、问题解决一网打尽

背景最近几年，AI 大模型火得一塌糊涂，特别是像 Llama 这样的开源模型，几乎成了每个技术团队都在讨论的热点。不过，这些"巨无霸"模型虽然能力超强，但对硬件的要求也高得吓人。这时候，华为的昇腾 NPU 就派上用场了。说实话，昇腾 NPU 在 AI 计算这块确实有两把刷子。它专门为神经网络计算设计，不仅算力强劲，功耗控制得也不错，最关键的是灵活性很好，可以根据不同场景进行裁剪。所以，用它来跑大模型推理，理论上应该是个不错的选择。为什么偏偏选了 Llama 来测试？说到 Llama，这玩意儿现在可是开源界的"网红"。Meta 把它完全开源出来，社区生态搞得风生水起，各种优化和适配层出不穷。其实选择 Llama 做测试，主要有这么几个考虑：

论文AI率多少算正常？各高校AIGC检测标准汇总解读

论文AI率多少算正常？各高校AIGC检测标准汇总解读 “我的论文AI率23%，能过吗？” 这可能是2026年毕业季被问得最多的一句话。问题在于，没有一个放之四海而皆准的答案——你在清华和在地方院校面临的标准完全不同，本科和硕士的要求也不一样，甚至同一所学校不同学院之间都可能存在差异。本文将尽可能完整地梳理2026年各高校的AIGC检测标准，帮你准确判断自己的论文处于什么位置，以及需要达到什么水平。一、先搞清楚一个前提：检测平台的差异在讨论"多少算正常"之前，必须先明确一个经常被忽略的问题：不同检测平台对同一篇论文给出的AI率可能相差很大。目前国内高校采用的AIGC检测平台主要有四家：知网、维普、万方、大雅。其中知网占据主导地位，大部分985/211院校和相当比例的普通本科院校都采用知网检测。同一篇论文在不同平台上的检测结果可能差距悬殊。一篇文章在知网检测显示AI率28%，在维普上可能显示42%，在万方上又可能只有15%。这种差异源于各平台采用的检测算法和训练数据不同。所以当你对照标准评估自己的论文时，一定要搞清楚你的学校用的是哪个平台，然后在对应平台上做检