为什么Agent会失败?2025年对AI的预测

为什么Agent会失败?2025年对AI的预测
如果说2024年是生成型人工智能的年份,那么2025年就应该是设定合理期望的一年。

根据科技行业分析师的预测,2024年本应是生成式AI(Generative AI,简称GenAI)的里程碑之年。随着各种复杂应用场景的不断涌现,新技术的出现降低了准入门槛,使得通用人工智能似乎触手可及。

但事实果真如此吗?

在某种程度上,确实如此。如果说2024年是生成式AI的元年,那么2025年就应该是设定合理期望的一年。

展望未来,GenAI仍将是全球开发者和企业关注的焦点,但我们对它的讨论正在变得越来越接地气。本文将回顾我们已经走过的历程,展望未来的方向,并分享对AI发展的一些见解。

GenAI擅长对话,但还不适合部署

2024年比较流行的两个术语:

“Copilot”,这是一个用于完成单一任务的AI工具的花哨说法(比如"优化我的屎山代码");

“Agent”,即可以收集信息并利用这些信息执行任务的多步骤工作流(比如"写一篇关于优化我的屎山代码的博客并发布到ZEEKLOG")。

2024年,我们确实见证了许多成功的AI Copilot案例(比如Github Copilot、Snowflake Copilot、微软的回形针等),但AI Agent还是停留在准确率优化阶段。

虽然AI Agent在各大公司的客服团队中掀起了一阵风波,但目前看来这可能就是它的极限了。 尽管这些Agent是向前迈出的重要一步,但这些Agent对工作流的处理准确性仍然很差。

就算是最先进的AI,其准确率也只有75%-90%,大多数AI的水平相当于高中生。如果你有三个准确率为75-90%的步骤,最终的准确率大约只有50%。

【注】真实线上的流程追求99.99%的准确率,即使Agent的准确率达到98%,也很难直接替代人客服,因为剩下2%的错误率会导致客户流失。所以目前Agent在离线数据处理、生成上应用较多,但是还是由于不100%正确,所以对于Agent生成出来的数据还需要一个后验的流程。

对于企业来说,按照目前的表现水平,大多数Agent一旦投入生产反而会造成损害。我们需要先解决这个问题。

虽然讨论这些技术很重要,但除了演示之外,还没有人取得过实质性的成功。不管各大IT公司的人多么热衷于谈论Agent,这些讨论都无法转化为实际性能。

GenAI在2025年不会成为大多数企业的收入增长点

和其他数据产品一样,GenAI的价值主要体现在两个方面:降低成本或创造收入。

从收入角度来看,你可以使用GenAI驱动的聊天机器人或推荐系统。这些工具确实能产生大量的销售线索,但这些线索的质量并不一定有保证。因此,如果AI不能带来收入增长,那它就需要在降低成本方面发力——而在这一点上,AI确实已经做到了。

在我看来,AI应用要想实现成本节约,需要满足以下三个条件之一:

  • 能够消除或减少重复性工作
  • 能够在人才市场紧张的情况下填补空缺岗位
  • 能够解决紧急的招聘需求

Dave Bank就很好地利用了GenAI的成本节约潜力。他们开发了一个使用RAG技术的内部聊天机器人,用于回答团队成员关于公司数据的问题。这使得技术能力较弱的团队成员能够更快地获得准确的数据答案,节省下来的宝贵时间可以用于帮助利益相关者创造收入。

AI的未来在于小数据,而非大模型

开源与托管服务在AI领域的争论确实颇具复杂性。对于企业而言,这一选择不仅仅是关于控制权或互操作性,更关乎运营成本的有效管理。

【注】企业使用AI模型,基本上是两种方式:使用现成的模型,比如Qwen等,这些模型是开源的,但是需要企业自己进行训练和优化。使用第三方服务,比如Azure OpenAI等,这些模型是专有的,还可以托管给第三方进行定制化微调。

大型B2C企业往往青睐于采用现成的模型,而B2B企业则更倾向于选择成本效益更高的小型专有模型。对于这些企业的数据负责人来说,选择小型模型不仅仅是为了节省成本,其在性能上的优势也不容忽视。以Google为代表的大模型旨在应对多样化的查询需求,因此需要在广泛的数据集上进行训练。然而,这也导致了模型在处理特定问题时可能出现混淆,从而产生错误。

值得一提的是,ChatGPT和其他托管解决方案在网络上确实面临了一些质疑,尤其是关于训练数据的合法使用权问题。这在监管严格的行业中,可能会对专有模型的长期采用产生影响,尽管具体程度尚不明确。

然而,专有模型并未因此停滞不前。它们正在通过降价策略来刺激市场需求。例如,ChatGPT的模型价格已降低约50%,并预计在未来六个月内将进一步降低50%。这对于希望在AI领域保持竞争力的B2C公司来说,无疑是一个积极信号。

非结构化数据栈的崛起

在生产环境中利用非结构化数据并不是什么新鲜事——但在AI时代,非结构化数据扮演着全新的角色。

根据IDC的一份报告显示,目前企业中仅有约一半的非结构化数据得到了分析利用。

到2025年,这一切都将发生改变。

企业级AI的成功主要取决于用于训练、微调和增强它的各类非结构化数据。随着越来越多的组织寻求将AI应用于企业场景,对非结构化数据和新兴的"非结构化数据栈"的热情也将持续增长。

一些团队甚至在探索如何使用额外的LLM来结构化非结构化数据,以增加其在额外训练和分析场景中的实用价值。

对于数据负责人来说,识别组织内部存在的非结构化一手数据,以及如何为利益相关者激活这些数据,是一个展示数据平台商业价值的绝佳机会(同时也有望为重点项目争取到额外预算)。

2025年的重点将是流程、价值和可扩展性。

Read more

企业级部署建议:Qwen3Guard-Gen-WEB权限控制设置

企业级部署建议:Qwen3Guard-Gen-WEB权限控制设置 在将Qwen3Guard-Gen-WEB这类高敏感度安全审核模型投入生产环境前,一个常被低估却至关重要的环节是——权限控制体系的构建。它不是锦上添花的附加配置,而是决定模型能否合规、可控、可持续运行的生命线。Qwen3Guard-Gen-WEB作为阿里开源的生成式安全审核模型,其核心能力在于对文本内容进行三级风险判定(安全/有争议/不安全)并输出可解释依据。但若缺乏严谨的访问控制,这一能力反而可能成为风险源:未授权人员误用导致误判扩散、恶意调用耗尽资源、敏感审核日志外泄引发合规危机……本文不讲模型原理,也不演示基础推理,而是聚焦于企业真实落地中最易踩坑、最需前置规划的环节——如何为Qwen3Guard-Gen-WEB构建一套稳健、可审计、符合等保与GDPR精神的权限控制机制。 1. 为什么Web界面更需要权限控制?——从便利性到风险敞口 Qwen3Guard-Gen-WEB的“一键启动+网页操作”设计极大降低了使用门槛,但恰恰是这种便利性,放大了权限失控的后果。我们来对比两种典型场景: * 无权限控制状态:1

hacdias/webdav WebDAV服务器完整配置指南与快速入门

hacdias/webdav WebDAV服务器完整配置指南与快速入门 【免费下载链接】webdavSimple Go WebDAV server. 项目地址: https://gitcode.com/gh_mirrors/we/webdav hacdias/webdav是一个轻量级独立的WebDAV服务器解决方案,采用Go语言编写,专为需要简单高效文件共享服务的用户设计。本文将为您提供从零开始的一键部署教程、安全配置实践以及常见问题解决方案,帮助您快速搭建专业的WebDAV文件共享平台。 项目核心特性解析 hacdias/webdav服务器具备多项实用功能:支持多用户权限管理,可为不同用户分配独立的目录访问权限;内置TLS加密传输,保障数据传输安全性;提供灵活的规则配置系统,支持基于路径和正则表达式的精细权限控制;兼容所有标准WebDAV客户端,实现跨平台文件同步。 Docker容器化部署实战 基础环境准备 首先确保系统已安装Docker环境,然后创建配置文件和数据目录: mkdir -p webdav/{config,data} 配置文件编写 创建webd

用 ASCII 草图 + AI 快速生成前端代码

引言 从想法到代码,中间往往要经历画原型、出设计稿等环节。 用 ASCII 草图,可以跳过大量原型绘制、结构拆解和手动搭骨架的中间步骤。 这种表达方式其实一直存在,但真正让它进入工程流程的,是 AI 的能力提升。大语言模型对结构化文本具有很强的解析能力,能够识别文本中的层级、对齐关系与空间划分,并将这些结构信息稳定地映射为组件树和页面布局。 因此,ASCII 不再只是沟通草稿,而成为一种可执行的结构描述。 什么是 “ASCII 草图” 提到 ASCII,很多人的第一反应可能是那个年代久远的“字符画”。没错,ASCII 草图就是用字符来构建页面布局。 在 AI 时代,这种看似简陋的草图,其实蕴含着巨大的能量。大语言模型(LLM)对结构化文本的理解能力极强。相比于模糊的自然语言描述(“我要一个左边宽右边窄的布局”),ASCII 草图提供了一种所见即所得的结构化 Prompt。 简单来说,ASCII 草图充当了视觉蓝图的角色,AI 根据这个结构生成代码。

GLM-4.6V-Flash-WEB踩坑记录:这些常见问题你一定要知道

GLM-4.6V-Flash-WEB踩坑记录:这些常见问题你一定要知道 部署完GLM-4.6V-Flash-WEB镜像,点开网页界面,输入第一张图、敲下回车——结果卡住不动?模型加载失败?API返回500?上传图片后提示“格式不支持”,但明明是JPG?又或者,明明T4显存还有空余,推理却报CUDA out of memory? 别急,这不是你操作错了,也不是模型不行。这是绝大多数人在首次接触GLM-4.6V-Flash-WEB时都会撞上的真实门槛。它确实轻快、开源、开箱即用,但“开箱即用”不等于“零配置即用”。它的设计哲学是工程友好,而非无脑傻瓜——这意味着它把灵活性留给了你,也把几个关键细节交由你亲手确认。 这篇记录不是官方文档的复述,也不是理想状态下的教程,而是从真实终端日志、反复重启的容器、被注释掉的调试代码里抠出来的经验总结。我们不讲原理,不堆参数,只说:哪些地方容易出错、为什么错、怎么三分钟内定位并解决。如果你刚拉起镜像、正对着黑屏或报错发愣,这篇文章就是为你写的。