为什么Agent会失败？2025年对AI的预测

优质文章学习记录

07 Apr 2026 — 7 min read

如果说2024年是生成型人工智能的年份，那么2025年就应该是设定合理期望的一年。

根据科技行业分析师的预测，2024年本应是生成式AI（Generative AI，简称GenAI）的里程碑之年。随着各种复杂应用场景的不断涌现，新技术的出现降低了准入门槛，使得通用人工智能似乎触手可及。

但事实果真如此吗？

在某种程度上，确实如此。如果说2024年是生成式AI的元年，那么2025年就应该是设定合理期望的一年。

展望未来，GenAI仍将是全球开发者和企业关注的焦点，但我们对它的讨论正在变得越来越接地气。本文将回顾我们已经走过的历程，展望未来的方向，并分享对AI发展的一些见解。

GenAI擅长对话，但还不适合部署

2024年比较流行的两个术语:

“Copilot”，这是一个用于完成单一任务的AI工具的花哨说法（比如"优化我的屎山代码"）；

“Agent”，即可以收集信息并利用这些信息执行任务的多步骤工作流（比如"写一篇关于优化我的屎山代码的博客并发布到ZEEKLOG"）。

2024年，我们确实见证了许多成功的AI Copilot案例（比如Github Copilot、Snowflake Copilot、微软的回形针等），但AI Agent还是停留在准确率优化阶段。

虽然AI Agent在各大公司的客服团队中掀起了一阵风波，但目前看来这可能就是它的极限了。 尽管这些Agent是向前迈出的重要一步，但这些Agent对工作流的处理准确性仍然很差。

就算是最先进的AI，其准确率也只有75%-90%，大多数AI的水平相当于高中生。如果你有三个准确率为75-90%的步骤，最终的准确率大约只有50%。

【注】真实线上的流程追求99.99%的准确率，即使Agent的准确率达到98%，也很难直接替代人客服，因为剩下2%的错误率会导致客户流失。所以目前Agent在离线数据处理、生成上应用较多，但是还是由于不100%正确，所以对于Agent生成出来的数据还需要一个后验的流程。

对于企业来说，按照目前的表现水平，大多数Agent一旦投入生产反而会造成损害。我们需要先解决这个问题。

虽然讨论这些技术很重要，但除了演示之外，还没有人取得过实质性的成功。不管各大IT公司的人多么热衷于谈论Agent，这些讨论都无法转化为实际性能。

GenAI在2025年不会成为大多数企业的收入增长点

和其他数据产品一样，GenAI的价值主要体现在两个方面：降低成本或创造收入。

从收入角度来看，你可以使用GenAI驱动的聊天机器人或推荐系统。这些工具确实能产生大量的销售线索，但这些线索的质量并不一定有保证。因此，如果AI不能带来收入增长，那它就需要在降低成本方面发力——而在这一点上，AI确实已经做到了。

在我看来，AI应用要想实现成本节约，需要满足以下三个条件之一：

能够消除或减少重复性工作
能够在人才市场紧张的情况下填补空缺岗位
能够解决紧急的招聘需求

Dave Bank就很好地利用了GenAI的成本节约潜力。他们开发了一个使用RAG技术的内部聊天机器人，用于回答团队成员关于公司数据的问题。这使得技术能力较弱的团队成员能够更快地获得准确的数据答案，节省下来的宝贵时间可以用于帮助利益相关者创造收入。

AI的未来在于小数据，而非大模型

开源与托管服务在AI领域的争论确实颇具复杂性。对于企业而言，这一选择不仅仅是关于控制权或互操作性，更关乎运营成本的有效管理。

【注】企业使用AI模型，基本上是两种方式：使用现成的模型，比如Qwen等，这些模型是开源的，但是需要企业自己进行训练和优化。使用第三方服务，比如Azure OpenAI等，这些模型是专有的，还可以托管给第三方进行定制化微调。

大型B2C企业往往青睐于采用现成的模型，而B2B企业则更倾向于选择成本效益更高的小型专有模型。对于这些企业的数据负责人来说，选择小型模型不仅仅是为了节省成本，其在性能上的优势也不容忽视。以Google为代表的大模型旨在应对多样化的查询需求，因此需要在广泛的数据集上进行训练。然而，这也导致了模型在处理特定问题时可能出现混淆，从而产生错误。

值得一提的是，ChatGPT和其他托管解决方案在网络上确实面临了一些质疑，尤其是关于训练数据的合法使用权问题。这在监管严格的行业中，可能会对专有模型的长期采用产生影响，尽管具体程度尚不明确。

然而，专有模型并未因此停滞不前。它们正在通过降价策略来刺激市场需求。例如，ChatGPT的模型价格已降低约50%，并预计在未来六个月内将进一步降低50%。这对于希望在AI领域保持竞争力的B2C公司来说，无疑是一个积极信号。

非结构化数据栈的崛起

在生产环境中利用非结构化数据并不是什么新鲜事——但在AI时代，非结构化数据扮演着全新的角色。

根据IDC的一份报告显示，目前企业中仅有约一半的非结构化数据得到了分析利用。

到2025年，这一切都将发生改变。

企业级AI的成功主要取决于用于训练、微调和增强它的各类非结构化数据。随着越来越多的组织寻求将AI应用于企业场景，对非结构化数据和新兴的"非结构化数据栈"的热情也将持续增长。

一些团队甚至在探索如何使用额外的LLM来结构化非结构化数据，以增加其在额外训练和分析场景中的实用价值。

对于数据负责人来说，识别组织内部存在的非结构化一手数据，以及如何为利益相关者激活这些数据，是一个展示数据平台商业价值的绝佳机会（同时也有望为重点项目争取到额外预算）。

2025年的重点将是流程、价值和可扩展性。

除了 OpenClaw，今天 AI 热榜还有什么值得看？我把 5 个重点方向讲清楚了

🔥 个人主页：杨利杰YJlio❄️ 个人专栏：《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》《Python》《Kali Linux》《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更简单，让重复的工作自动化除了 OpenClaw，今天 AI 热榜还有什么值得看？我把 5 个重点方向讲清楚了 * 除了 OpenClaw，今天 AI 热榜还有什么值得看？我把 5 个重点方向讲清楚了 * 1. 我先说结论：今天这波 AI 热榜，最重要的不是“谁最火”，而是“风向变了” * 2. GoogleCloudPlatform / generative-ai：平台生态正在成为真正的护城河 * 3. MiroFish：群体智能和多智能体，开始从概念走向更具体的产品叙事

OpenClaw深度解析：“数字龙虾”何以引爆AI Agent时代？安全危机与未来之战

OpenClaw深度解析：“数字龙虾”何以引爆AI Agent时代？安全危机与未来之战一只“龙虾”，正在搅动整个科技圈。 2026年3月，一款名为OpenClaw的开源AI智能体框架在中国科技圈引发了一场前所未有的“全民养虾热”。它的GitHub星标数突破27万，超越React和Linux登顶全球开源软件项目榜。黄仁勋在GTC 2026上高呼：“这是Agent时代的Windows，每个公司都需要有OpenClaw战略”。但与此同时，中国互联网金融协会、工信部、国家互联网应急中心接连发布安全预警。有用户因AI幻觉痛失全部邮件，有企业因恶意技能被植入后门。这只“数字龙虾”究竟是什么？它为何能掀起滔天巨浪？又将游向何方？ 01 现象：OpenClaw引爆的“龙虾热” 2026年春天，科技圈最火的关键词无疑是OpenClaw。这款开源自动化智能体框架，让大语言模型第一次真正长出了能干活儿的“钳子”。核心能力：从“会说话”到“会做事” 与传统对话式AI不同，OpenClaw能够直接操作浏览器、读取文件、调用API、运行脚本，甚至接入微信、飞书、钉钉等协作平台。

【企业级】RuoYi-Vue-Plus AI 智能开发助手 | Claude Code + Codex 双引擎 | 40+ 专业技能包 | 10 大快捷命令 | 开箱即用

RuoYi-Vue-Plus AI 智能编程助手商品简介基于 RuoYi-Vue-Plus 5.X 企业级后端框架，深度定制的 AI 智能编程助手配置包。支持 Claude Code 和 OpenAI Codex 双 AI 引擎，内置 40+ 专业开发技能、10 大快捷命令、智能钩子系统，让 AI 真正理解您的项目架构和开发规范，实现 10 倍开发效率提升。核心亮点 🚀 双 AI 引擎支持引擎配置目录说明Claude Code.claude/Anthropic Claude 官方 CLI 工具配置OpenAI Codex.codex/OpenAI Codex CLI

基于Llamafactory与LoRA方法的大语言模型微调创建个性化聊天机器人

一、项目背景随着大语言模型的快速发展，如何让通用模型具备垂直领域的深度知识与特定的角色人格，已成为参数高效微调（PEFT，Parameter-Efficient Fine-Tuning）技术的重要应用方向。传统的提示词难以让模型长期、稳定地维持复杂的角色设定和世界观知识，而全参数微调成本高昂。本项目旨在利用 LlamaFactory 这一大模型微调框架，结合 LoRA（低秩适应）技术，在保留基础模型通用能力的前提下，低成本地注入明日方舟游戏内的专属知识。目标是打造一个不仅能流畅对话，更能深度理解游戏内世界观设定、模拟特定人格说话方式的智能聊天机器人。二、介绍 2.1 Llamafactory Llamafactory 是一个专注于高效微调大型语言模型的开源工具库。它旨在简化模型微调流程，支持多种主流开源模型，并提供丰富的训练策略和优化技术。其支持多种微调方法，包括全参数微调（Full Fine-tuning）、轻量级微调（如LoRA、QLoRA）、适配器微调（Adapter）等。兼容Hugging Face生态系统，可直接加载预训练模型。 2.2 LoRA