为什么Agent会失败？2025年对AI的预测

优质文章学习记录

08 Apr 2026 — 7 min read

如果说2024年是生成型人工智能的年份，那么2025年就应该是设定合理期望的一年。

根据科技行业分析师的预测，2024年本应是生成式AI（Generative AI，简称GenAI）的里程碑之年。随着各种复杂应用场景的不断涌现，新技术的出现降低了准入门槛，使得通用人工智能似乎触手可及。

但事实果真如此吗？

在某种程度上，确实如此。如果说2024年是生成式AI的元年，那么2025年就应该是设定合理期望的一年。

展望未来，GenAI仍将是全球开发者和企业关注的焦点，但我们对它的讨论正在变得越来越接地气。本文将回顾我们已经走过的历程，展望未来的方向，并分享对AI发展的一些见解。

GenAI擅长对话，但还不适合部署

2024年比较流行的两个术语:

“Copilot”，这是一个用于完成单一任务的AI工具的花哨说法（比如"优化我的屎山代码"）；

“Agent”，即可以收集信息并利用这些信息执行任务的多步骤工作流（比如"写一篇关于优化我的屎山代码的博客并发布到ZEEKLOG"）。

2024年，我们确实见证了许多成功的AI Copilot案例（比如Github Copilot、Snowflake Copilot、微软的回形针等），但AI Agent还是停留在准确率优化阶段。

虽然AI Agent在各大公司的客服团队中掀起了一阵风波，但目前看来这可能就是它的极限了。 尽管这些Agent是向前迈出的重要一步，但这些Agent对工作流的处理准确性仍然很差。

就算是最先进的AI，其准确率也只有75%-90%，大多数AI的水平相当于高中生。如果你有三个准确率为75-90%的步骤，最终的准确率大约只有50%。

【注】真实线上的流程追求99.99%的准确率，即使Agent的准确率达到98%，也很难直接替代人客服，因为剩下2%的错误率会导致客户流失。所以目前Agent在离线数据处理、生成上应用较多，但是还是由于不100%正确，所以对于Agent生成出来的数据还需要一个后验的流程。

对于企业来说，按照目前的表现水平，大多数Agent一旦投入生产反而会造成损害。我们需要先解决这个问题。

虽然讨论这些技术很重要，但除了演示之外，还没有人取得过实质性的成功。不管各大IT公司的人多么热衷于谈论Agent，这些讨论都无法转化为实际性能。

GenAI在2025年不会成为大多数企业的收入增长点

和其他数据产品一样，GenAI的价值主要体现在两个方面：降低成本或创造收入。

从收入角度来看，你可以使用GenAI驱动的聊天机器人或推荐系统。这些工具确实能产生大量的销售线索，但这些线索的质量并不一定有保证。因此，如果AI不能带来收入增长，那它就需要在降低成本方面发力——而在这一点上，AI确实已经做到了。

在我看来，AI应用要想实现成本节约，需要满足以下三个条件之一：

能够消除或减少重复性工作
能够在人才市场紧张的情况下填补空缺岗位
能够解决紧急的招聘需求

Dave Bank就很好地利用了GenAI的成本节约潜力。他们开发了一个使用RAG技术的内部聊天机器人，用于回答团队成员关于公司数据的问题。这使得技术能力较弱的团队成员能够更快地获得准确的数据答案，节省下来的宝贵时间可以用于帮助利益相关者创造收入。

AI的未来在于小数据，而非大模型

开源与托管服务在AI领域的争论确实颇具复杂性。对于企业而言，这一选择不仅仅是关于控制权或互操作性，更关乎运营成本的有效管理。

【注】企业使用AI模型，基本上是两种方式：使用现成的模型，比如Qwen等，这些模型是开源的，但是需要企业自己进行训练和优化。使用第三方服务，比如Azure OpenAI等，这些模型是专有的，还可以托管给第三方进行定制化微调。

大型B2C企业往往青睐于采用现成的模型，而B2B企业则更倾向于选择成本效益更高的小型专有模型。对于这些企业的数据负责人来说，选择小型模型不仅仅是为了节省成本，其在性能上的优势也不容忽视。以Google为代表的大模型旨在应对多样化的查询需求，因此需要在广泛的数据集上进行训练。然而，这也导致了模型在处理特定问题时可能出现混淆，从而产生错误。

值得一提的是，ChatGPT和其他托管解决方案在网络上确实面临了一些质疑，尤其是关于训练数据的合法使用权问题。这在监管严格的行业中，可能会对专有模型的长期采用产生影响，尽管具体程度尚不明确。

然而，专有模型并未因此停滞不前。它们正在通过降价策略来刺激市场需求。例如，ChatGPT的模型价格已降低约50%，并预计在未来六个月内将进一步降低50%。这对于希望在AI领域保持竞争力的B2C公司来说，无疑是一个积极信号。

非结构化数据栈的崛起

在生产环境中利用非结构化数据并不是什么新鲜事——但在AI时代，非结构化数据扮演着全新的角色。

根据IDC的一份报告显示，目前企业中仅有约一半的非结构化数据得到了分析利用。

到2025年，这一切都将发生改变。

企业级AI的成功主要取决于用于训练、微调和增强它的各类非结构化数据。随着越来越多的组织寻求将AI应用于企业场景，对非结构化数据和新兴的"非结构化数据栈"的热情也将持续增长。

一些团队甚至在探索如何使用额外的LLM来结构化非结构化数据，以增加其在额外训练和分析场景中的实用价值。

对于数据负责人来说，识别组织内部存在的非结构化一手数据，以及如何为利益相关者激活这些数据，是一个展示数据平台商业价值的绝佳机会（同时也有望为重点项目争取到额外预算）。

2025年的重点将是流程、价值和可扩展性。

企业级部署建议：Qwen3Guard-Gen-WEB权限控制设置

企业级部署建议：Qwen3Guard-Gen-WEB权限控制设置在将Qwen3Guard-Gen-WEB这类高敏感度安全审核模型投入生产环境前，一个常被低估却至关重要的环节是——权限控制体系的构建。它不是锦上添花的附加配置，而是决定模型能否合规、可控、可持续运行的生命线。Qwen3Guard-Gen-WEB作为阿里开源的生成式安全审核模型，其核心能力在于对文本内容进行三级风险判定（安全/有争议/不安全）并输出可解释依据。但若缺乏严谨的访问控制，这一能力反而可能成为风险源：未授权人员误用导致误判扩散、恶意调用耗尽资源、敏感审核日志外泄引发合规危机……本文不讲模型原理，也不演示基础推理，而是聚焦于企业真实落地中最易踩坑、最需前置规划的环节——如何为Qwen3Guard-Gen-WEB构建一套稳健、可审计、符合等保与GDPR精神的权限控制机制。 1. 为什么Web界面更需要权限控制？——从便利性到风险敞口 Qwen3Guard-Gen-WEB的“一键启动+网页操作”设计极大降低了使用门槛，但恰恰是这种便利性，放大了权限失控的后果。我们来对比两种典型场景： * 无权限控制状态：1

hacdias/webdav WebDAV服务器完整配置指南与快速入门

hacdias/webdav WebDAV服务器完整配置指南与快速入门【免费下载链接】webdavSimple Go WebDAV server. 项目地址: https://gitcode.com/gh_mirrors/we/webdav hacdias/webdav是一个轻量级独立的WebDAV服务器解决方案，采用Go语言编写，专为需要简单高效文件共享服务的用户设计。本文将为您提供从零开始的一键部署教程、安全配置实践以及常见问题解决方案，帮助您快速搭建专业的WebDAV文件共享平台。项目核心特性解析 hacdias/webdav服务器具备多项实用功能：支持多用户权限管理，可为不同用户分配独立的目录访问权限；内置TLS加密传输，保障数据传输安全性；提供灵活的规则配置系统，支持基于路径和正则表达式的精细权限控制；兼容所有标准WebDAV客户端，实现跨平台文件同步。 Docker容器化部署实战基础环境准备首先确保系统已安装Docker环境，然后创建配置文件和数据目录： mkdir -p webdav/{config,data} 配置文件编写创建webd

用 ASCII 草图 + AI 快速生成前端代码

引言从想法到代码，中间往往要经历画原型、出设计稿等环节。用 ASCII 草图，可以跳过大量原型绘制、结构拆解和手动搭骨架的中间步骤。这种表达方式其实一直存在，但真正让它进入工程流程的，是 AI 的能力提升。大语言模型对结构化文本具有很强的解析能力，能够识别文本中的层级、对齐关系与空间划分，并将这些结构信息稳定地映射为组件树和页面布局。因此，ASCII 不再只是沟通草稿，而成为一种可执行的结构描述。什么是 “ASCII 草图” 提到 ASCII，很多人的第一反应可能是那个年代久远的“字符画”。没错，ASCII 草图就是用字符来构建页面布局。在 AI 时代，这种看似简陋的草图，其实蕴含着巨大的能量。大语言模型（LLM）对结构化文本的理解能力极强。相比于模糊的自然语言描述（“我要一个左边宽右边窄的布局”），ASCII 草图提供了一种所见即所得的结构化 Prompt。简单来说，ASCII 草图充当了视觉蓝图的角色，AI 根据这个结构生成代码。

GLM-4.6V-Flash-WEB踩坑记录：这些常见问题你一定要知道

GLM-4.6V-Flash-WEB踩坑记录：这些常见问题你一定要知道部署完GLM-4.6V-Flash-WEB镜像，点开网页界面，输入第一张图、敲下回车——结果卡住不动？模型加载失败？API返回500？上传图片后提示“格式不支持”，但明明是JPG？又或者，明明T4显存还有空余，推理却报CUDA out of memory？别急，这不是你操作错了，也不是模型不行。这是绝大多数人在首次接触GLM-4.6V-Flash-WEB时都会撞上的真实门槛。它确实轻快、开源、开箱即用，但“开箱即用”不等于“零配置即用”。它的设计哲学是工程友好，而非无脑傻瓜——这意味着它把灵活性留给了你，也把几个关键细节交由你亲手确认。这篇记录不是官方文档的复述，也不是理想状态下的教程，而是从真实终端日志、反复重启的容器、被注释掉的调试代码里抠出来的经验总结。我们不讲原理，不堆参数，只说：哪些地方容易出错、为什么错、怎么三分钟内定位并解决。如果你刚拉起镜像、正对着黑屏或报错发愣，这篇文章就是为你写的。