为什么Agent会失败?2025年对AI的预测

为什么Agent会失败?2025年对AI的预测
如果说2024年是生成型人工智能的年份,那么2025年就应该是设定合理期望的一年。

根据科技行业分析师的预测,2024年本应是生成式AI(Generative AI,简称GenAI)的里程碑之年。随着各种复杂应用场景的不断涌现,新技术的出现降低了准入门槛,使得通用人工智能似乎触手可及。

但事实果真如此吗?

在某种程度上,确实如此。如果说2024年是生成式AI的元年,那么2025年就应该是设定合理期望的一年。

展望未来,GenAI仍将是全球开发者和企业关注的焦点,但我们对它的讨论正在变得越来越接地气。本文将回顾我们已经走过的历程,展望未来的方向,并分享对AI发展的一些见解。

GenAI擅长对话,但还不适合部署

2024年比较流行的两个术语:

“Copilot”,这是一个用于完成单一任务的AI工具的花哨说法(比如"优化我的屎山代码");

“Agent”,即可以收集信息并利用这些信息执行任务的多步骤工作流(比如"写一篇关于优化我的屎山代码的博客并发布到ZEEKLOG")。

2024年,我们确实见证了许多成功的AI Copilot案例(比如Github Copilot、Snowflake Copilot、微软的回形针等),但AI Agent还是停留在准确率优化阶段。

虽然AI Agent在各大公司的客服团队中掀起了一阵风波,但目前看来这可能就是它的极限了。 尽管这些Agent是向前迈出的重要一步,但这些Agent对工作流的处理准确性仍然很差。

就算是最先进的AI,其准确率也只有75%-90%,大多数AI的水平相当于高中生。如果你有三个准确率为75-90%的步骤,最终的准确率大约只有50%。

【注】真实线上的流程追求99.99%的准确率,即使Agent的准确率达到98%,也很难直接替代人客服,因为剩下2%的错误率会导致客户流失。所以目前Agent在离线数据处理、生成上应用较多,但是还是由于不100%正确,所以对于Agent生成出来的数据还需要一个后验的流程。

对于企业来说,按照目前的表现水平,大多数Agent一旦投入生产反而会造成损害。我们需要先解决这个问题。

虽然讨论这些技术很重要,但除了演示之外,还没有人取得过实质性的成功。不管各大IT公司的人多么热衷于谈论Agent,这些讨论都无法转化为实际性能。

GenAI在2025年不会成为大多数企业的收入增长点

和其他数据产品一样,GenAI的价值主要体现在两个方面:降低成本或创造收入。

从收入角度来看,你可以使用GenAI驱动的聊天机器人或推荐系统。这些工具确实能产生大量的销售线索,但这些线索的质量并不一定有保证。因此,如果AI不能带来收入增长,那它就需要在降低成本方面发力——而在这一点上,AI确实已经做到了。

在我看来,AI应用要想实现成本节约,需要满足以下三个条件之一:

  • 能够消除或减少重复性工作
  • 能够在人才市场紧张的情况下填补空缺岗位
  • 能够解决紧急的招聘需求

Dave Bank就很好地利用了GenAI的成本节约潜力。他们开发了一个使用RAG技术的内部聊天机器人,用于回答团队成员关于公司数据的问题。这使得技术能力较弱的团队成员能够更快地获得准确的数据答案,节省下来的宝贵时间可以用于帮助利益相关者创造收入。

AI的未来在于小数据,而非大模型

开源与托管服务在AI领域的争论确实颇具复杂性。对于企业而言,这一选择不仅仅是关于控制权或互操作性,更关乎运营成本的有效管理。

【注】企业使用AI模型,基本上是两种方式:使用现成的模型,比如Qwen等,这些模型是开源的,但是需要企业自己进行训练和优化。使用第三方服务,比如Azure OpenAI等,这些模型是专有的,还可以托管给第三方进行定制化微调。

大型B2C企业往往青睐于采用现成的模型,而B2B企业则更倾向于选择成本效益更高的小型专有模型。对于这些企业的数据负责人来说,选择小型模型不仅仅是为了节省成本,其在性能上的优势也不容忽视。以Google为代表的大模型旨在应对多样化的查询需求,因此需要在广泛的数据集上进行训练。然而,这也导致了模型在处理特定问题时可能出现混淆,从而产生错误。

值得一提的是,ChatGPT和其他托管解决方案在网络上确实面临了一些质疑,尤其是关于训练数据的合法使用权问题。这在监管严格的行业中,可能会对专有模型的长期采用产生影响,尽管具体程度尚不明确。

然而,专有模型并未因此停滞不前。它们正在通过降价策略来刺激市场需求。例如,ChatGPT的模型价格已降低约50%,并预计在未来六个月内将进一步降低50%。这对于希望在AI领域保持竞争力的B2C公司来说,无疑是一个积极信号。

非结构化数据栈的崛起

在生产环境中利用非结构化数据并不是什么新鲜事——但在AI时代,非结构化数据扮演着全新的角色。

根据IDC的一份报告显示,目前企业中仅有约一半的非结构化数据得到了分析利用。

到2025年,这一切都将发生改变。

企业级AI的成功主要取决于用于训练、微调和增强它的各类非结构化数据。随着越来越多的组织寻求将AI应用于企业场景,对非结构化数据和新兴的"非结构化数据栈"的热情也将持续增长。

一些团队甚至在探索如何使用额外的LLM来结构化非结构化数据,以增加其在额外训练和分析场景中的实用价值。

对于数据负责人来说,识别组织内部存在的非结构化一手数据,以及如何为利益相关者激活这些数据,是一个展示数据平台商业价值的绝佳机会(同时也有望为重点项目争取到额外预算)。

2025年的重点将是流程、价值和可扩展性。

Read more

除了 OpenClaw,今天 AI 热榜还有什么值得看?我把 5 个重点方向讲清楚了

除了 OpenClaw,今天 AI 热榜还有什么值得看?我把 5 个重点方向讲清楚了

🔥 个人主页:杨利杰YJlio❄️ 个人专栏:《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》《Python》《Kali Linux》《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更简单,让重复的工作自动化 除了 OpenClaw,今天 AI 热榜还有什么值得看?我把 5 个重点方向讲清楚了 * 除了 OpenClaw,今天 AI 热榜还有什么值得看?我把 5 个重点方向讲清楚了 * 1. 我先说结论:今天这波 AI 热榜,最重要的不是“谁最火”,而是“风向变了” * 2. GoogleCloudPlatform / generative-ai:平台生态正在成为真正的护城河 * 3. MiroFish:群体智能和多智能体,开始从概念走向更具体的产品叙事

OpenClaw深度解析:“数字龙虾”何以引爆AI Agent时代?安全危机与未来之战

OpenClaw深度解析:“数字龙虾”何以引爆AI Agent时代?安全危机与未来之战

OpenClaw深度解析:“数字龙虾”何以引爆AI Agent时代?安全危机与未来之战 一只“龙虾”,正在搅动整个科技圈。 2026年3月,一款名为OpenClaw的开源AI智能体框架在中国科技圈引发了一场前所未有的“全民养虾热”。它的GitHub星标数突破27万,超越React和Linux登顶全球开源软件项目榜。黄仁勋在GTC 2026上高呼:“这是Agent时代的Windows,每个公司都需要有OpenClaw战略”。 但与此同时,中国互联网金融协会、工信部、国家互联网应急中心接连发布安全预警。有用户因AI幻觉痛失全部邮件,有企业因恶意技能被植入后门。 这只“数字龙虾”究竟是什么?它为何能掀起滔天巨浪?又将游向何方? 01 现象:OpenClaw引爆的“龙虾热” 2026年春天,科技圈最火的关键词无疑是OpenClaw。这款开源自动化智能体框架,让大语言模型第一次真正长出了能干活儿的“钳子”。 核心能力:从“会说话”到“会做事” 与传统对话式AI不同,OpenClaw能够直接操作浏览器、读取文件、调用API、运行脚本,甚至接入微信、飞书、钉钉等协作平台。

【企业级】RuoYi-Vue-Plus AI 智能开发助手 | Claude Code + Codex 双引擎 | 40+ 专业技能包 | 10 大快捷命令 | 开箱即用

【企业级】RuoYi-Vue-Plus AI 智能开发助手 | Claude Code + Codex 双引擎 | 40+ 专业技能包 | 10 大快捷命令 | 开箱即用

RuoYi-Vue-Plus AI 智能编程助手 商品简介 基于 RuoYi-Vue-Plus 5.X 企业级后端框架,深度定制的 AI 智能编程助手配置包。支持 Claude Code 和 OpenAI Codex 双 AI 引擎,内置 40+ 专业开发技能、10 大快捷命令、智能钩子系统,让 AI 真正理解您的项目架构和开发规范,实现 10 倍开发效率提升。 核心亮点 🚀 双 AI 引擎支持 引擎配置目录说明Claude Code.claude/Anthropic Claude 官方 CLI 工具配置OpenAI Codex.codex/OpenAI Codex CLI

基于Llamafactory与LoRA方法的大语言模型微调创建个性化聊天机器人

基于Llamafactory与LoRA方法的大语言模型微调创建个性化聊天机器人

一 、项目背景 随着大语言模型的快速发展,如何让通用模型具备垂直领域的深度知识与特定的角色人格,已成为参数高效微调(PEFT,Parameter-Efficient Fine-Tuning)技术的重要应用方向。传统的提示词难以让模型长期、稳定地维持复杂的角色设定和世界观知识,而全参数微调成本高昂。 本项目旨在利用 LlamaFactory 这一大模型微调框架,结合 LoRA(低秩适应) 技术,在保留基础模型通用能力的前提下,低成本地注入明日方舟游戏内的专属知识。目标是打造一个不仅能流畅对话,更能深度理解游戏内世界观设定、模拟特定人格说话方式的智能聊天机器人。 二、 介绍 2.1 Llamafactory Llamafactory 是一个专注于高效微调大型语言模型的开源工具库。它旨在简化模型微调流程,支持多种主流开源模型,并提供丰富的训练策略和优化技术。其支持多种微调方法,包括全参数微调(Full Fine-tuning)、轻量级微调(如LoRA、QLoRA)、适配器微调(Adapter)等。兼容Hugging Face生态系统,可直接加载预训练模型。 2.2 LoRA