猛裁1.6万人后,网站再崩6小时、一周4次重大事故!官方“紧急复盘”:跟裁员无关,也不是AI写代码的锅

猛裁1.6万人后,网站再崩6小时、一周4次重大事故!官方“紧急复盘”:跟裁员无关,也不是AI写代码的锅

整理 | 郑丽媛

出品 | ZEEKLOG(ID:ZEEKLOGnews)

过去几年里,科技公司几乎都在同一件事上加速:让 AI 参与写代码。

从自动补全、自动生成函数,到直接修改系统配置,生成式 AI 已经逐渐走进真实生产环境。但最近发生在亚马逊的一连串事故,却给整个行业泼了一盆冷水——当 AI 开始真正参与生产环境开发时,事情可能远比想象复杂。

最近,多家媒体披露,本周二亚马逊内部紧急召开了一场工程“深度复盘(deep dive)”会议,专门讨论最近频繁出现的系统故障——其中,一个被反复提及的关键词是:AI 辅助代码。

一周 4 次严重事故,亚马逊内部紧急复盘

事情的起点,是最近一段时间亚马逊系统稳定性明显下降。

负责亚马逊网站技术架构的高级副总裁 Dave Treadwell 在一封内部邮件中坦言:“各位,正如大家可能已经知道的,最近网站及相关基础设施的可用性确实不太理想。”

为此,公司决定把原本每周例行举行的技术会议 “This Week in Stores Tech”(简称 TWiST) 临时改成一次“深度复盘会议”。通常来说,TWiST 会议对员工是自愿参加的,但这一次,Treadwell 要求工程师尽量全部参加。

这场会议在周二中午 12:30 召开,主要目标只有一个:弄清楚最近这一连串系统故障到底是怎么发生的——Treadwell 在内部邮件中透露,仅仅在一周时间内,公司就发生了 4 起 Sev1 级别事故。

这里解释一下:在亚马逊的事故分级体系中,Sev1 即最高级别事故,通常意味着核心系统宕机或关键功能严重受影响。

也就是说,这已经不是普通的小 Bug,而是直接影响业务运行的大问题。

一次 6 小时宕机,让购物功能几乎瘫痪

其中,最明显的一次事故就发生在上周。

当天,亚马逊网站和购物 App 突然出现大规模故障,持续时间接近 6 小时。在这段时间里,大量用户无法完成商品结算、查看账户信息、查询商品价格……简单来说,整个电商核心流程几乎停摆。

事后,亚马逊对此给出的解释是:这次事故源于一次错误的软件代码部署。不过并没有进一步披露细节,比如是否涉及 AI 生成代码等。

不仅如此,去年 12 月亚马逊云计算部门 AWS 也曾发生一次持续 13 小时的服务中断

根据多家媒体报道,那次事故发生的原因是:工程师允许内部 AI 编程工具 Kiro 修改系统环境,而 AI 在执行任务时选择了一个极端操作——删除并重新创建了整个运行环境。

不过,亚马逊后来回应称,那次问题本质上是人为操作失误,并非 AI 本身造成的。

内部文档曾点名:GenAI 代码变更是事故因素之一

但事实上,据《金融时报》报道,在此次会议的准备材料中,亚马逊的一份内部文档曾提到:过去几个季度,公司出现了一种“事故趋势”,其中一个因素就是“GenAI 工具辅助的代码变更”。

这份文档还指出了一个关键问题:一些新的生成式 AI 使用方式,目前还没有成熟的工程规范和安全防护机制。

不过,根据 CNBC 获得的更新版本文件显示,在亚马逊内部会议开始前,涉及 GenAI 的那一条内容被删除了——知情人士表示,该调整可能与内部信息敏感性有关。

在媒体报道发布后,亚马逊发言人进一步回应称:近期的事故中只有一起与 AI 相关,没有任何事件是 AI 直接编写代码导致的。发言人还强调,这次会议本身只是“常规运营”的一部分:

“TWiST 是零售技术负责人每周举行的例会,我们会在会上评估网站和应用的运行情况,并持续改进系统可用性。”

AI 辅助开发被“加上刹车”

虽然亚马逊试图淡化 AI 的直接责任,但内部仍然决定采取新的工程措施,而最核心的一条规则就是:今后任何 AI 辅助生成的代码修改,都需要更高级别工程师审批。

换句话说:初级工程师可以用 AI 改代码,但不能直接上线,必须由资深工程师签字确认——某种意义上,这相当于给 AI 生成代码增加了一层“人工安全阀”。

但对于这项新规定,一些分析师也提出了担忧。例如,Constellation Research 首席分析师 Chirag Mehta 就表示:“如果每次 AI 改代码都需要高级工程师去逐行审核,那么企业很可能把 AI 带来的效率优势又还回去了。”

而真正的风险也并不是 AI 会犯错,毕竟人类工程师同样会犯错——真正的问题在于:AI 会把错误放大。正如 Info-Tech Research Group 的研究总监 Manish Jain 所说,AI 最大的危险是它压缩了人类干预和纠正问题的时间。

LexisNexis Risk Solutions 的 CISO Flavio Villanustre 给出了一个很形象的比喻:“AI 就像一个非常聪明但没有安全意识的孩子。”在 AI Agent 技术出现之后,软件开发速度已经大幅提升,企业的治理体系却没有同步升级,AI 策略还过于激进。

如果企业直接让这样的系统操作关键基础设施,结果就是:小 Bug 可能瞬间影响大规模系统、修复时间窗口变得更短、事故影响范围更大——因此,虽然“人类审核”会降低效率,但目前看来,这仍是必要的安全措施。

工程师猜测:故障变多可能和大裁员有关?

除了AI工具,一些亚马逊工程师还把最近频发的系统故障指向另一个原因——大裁员。

此前有多名员工表示,由于团队规模大幅缩减,工程团队每天需要处理更多“Sev2”级别事故。亚马逊内部,“Sev2”指的是:需要快速响应,否则可能导致产品服务中断的严重事件。

众所周知,亚马逊在过去几年中确实进行了多轮大规模裁员。最近一次是在今年 1 月,裁掉了约 1.6 万个岗位。不过,亚马逊官方否认裁员与其系统故障有关,并表示系统稳定性评估只是公司的“常规运营流程”。

那么,在你看来,最近亚马逊频发的系统故障是什么原因导致的呢?

参考链接:https://arstechnica.com/ai/2026/03/after-outages-amazon-to-make-senior-engineers-sign-off-on-ai-assisted-changes/

推荐阅读:

一天开13个会、一个Bug要修200天!前亚马逊L7爆料:这轮大裁员,AI只是“背锅侠”

为省5-10美元差点毁库!Claude一条指令删光200万条数据、网站停摆24小时,创始人坦言:全是我的错

全球26w+用户在线「养虾」:OpenClaw这一波泼天流量,到底让谁接住了?

未来没有前后端,只有 AI Agent 工程师。

这场十倍速的变革已至,你的下一步在哪?

4 月 17-18 日,由 ZEEKLOG 与奇点智能研究院联合主办「2026 奇点智能技术大会」将在上海隆重召开,大会聚焦 Agent 系统、世界模型、AI 原生研发等 12 大前沿专题,为你绘制通往未来的认知地图。

成为时代的见证者,更要成为时代的先行者。

奇点智能技术大会上海站,我们不见不散!

Read more

Flutter 三方库 opml 的鸿蒙化适配指南 - 支持大容量订阅源解析、符合 OPML 2.0 规范与 RSS 管理器核心适配

Flutter 三方库 opml 的鸿蒙化适配指南 - 支持大容量订阅源解析、符合 OPML 2.0 规范与 RSS 管理器核心适配

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 opml 的鸿蒙化适配指南 - 支持大容量订阅源解析、符合 OPML 2.0 规范与 RSS 管理器核心适配 前言 在进行 Flutter for OpenHarmony 的阅读类、播客类或 RSS 订阅类应用开发时,支持标准的 OPML(Outline Processor Markup Language)导入与导出是必选功能。opml 库是一个专门用于解析和生成 OPML 文件的 Dart 库。本文将探讨如何在鸿蒙系统下,利用该库高效管理用户的订阅树结构。 一、原理解析 / 概念介绍 1.1 基础原理 OPML 本质上是一种基于

By Ne0inhk
【高级终端Termux】在安卓手机/平板上使用Termux 搭建 Debian 环境并运行 PC 级 Linux 应用教程(含安装WPS,VS Code)

【高级终端Termux】在安卓手机/平板上使用Termux 搭建 Debian 环境并运行 PC 级 Linux 应用教程(含安装WPS,VS Code)

Termux 搭建 Debian 环境并运行 PC 级 Linux 应用教程 一、前言 1. 背景 众所周知,最新搭载澎湃OS和鸿蒙OS的平板都内置了PC级WPS,办公效率直接拉满(板子终于从“泡面盖”升级为“生产力”了)。但问题来了:如果不是这两个系统,难道我们只能继续用平板盖泡面吗?当然不是!折腾了很长时间后,总算找到了一个好玩的东西:高级终端Termux 。现在,不仅能随时随地用WPS改文档,还能VSCode优雅地敲代码,再也不用背着电脑乱跑了。 由于每次搭建环境时都要去不同的平台找不同功能,有时还找不到,所以我决定自己写一篇博客,方便自己以后再搭建时直接“Ctrl C + Ctrl V”,顺便分享给有同样需求的小伙伴们。话不多说,直接开整! 2. 准备工作 * 一部安卓手机:性能越好,折腾起来越顺畅。 * Termux 应用: 不想去F-droid下载的看过来

By Ne0inhk
Flutter 三方库 filterator 的鸿蒙化适配指南 - 掌握声明式数据流过滤技术、助力鸿蒙应用构建极速且易维护的复杂列表筛选逻辑

Flutter 三方库 filterator 的鸿蒙化适配指南 - 掌握声明式数据流过滤技术、助力鸿蒙应用构建极速且易维护的复杂列表筛选逻辑

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 filterator 的鸿蒙化适配指南 - 掌握声明式数据流过滤技术、助力鸿蒙应用构建极速且易维护的复杂列表筛选逻辑 前言 在 OpenHarmony 鸿蒙应用全场景信息交互的开发中,“数据清洗与过滤(Data Filtering)”是提升用户体验的关键环。当你需要在一个包含上万件商品的电商列表中,同时根据“价格区间”、“用户评分”、“物流时效”以及“是否有货”进行复合筛选时,嵌套的 if-else 或繁琐的迭代逻辑会让代码迅速变得臃肿且难以调试。filterator 作为一个专为 Dart 集合设计的声明式过滤利器,旨在通过链式调用与逻辑组合,将复杂的数据筛选过程转化为语义清晰、模块化的流式配置。本文将介绍如何在鸿蒙端利用 filterator 打造极致的数据交互体验。 一、原原理分析 / 概念介绍 1.1 基础原理 filterator 的核心逻辑是 基于谓词逻辑的集合管道过滤器

By Ne0inhk
Flutter 三方库 vendure 的适配鸿蒙实战 - 驾驭核心电商交易总网,实现 OpenHarmony 下的大并发 GraphQL 无头电商网关与数据强防腐

Flutter 三方库 vendure 的适配鸿蒙实战 - 驾驭核心电商交易总网,实现 OpenHarmony 下的大并发 GraphQL 无头电商网关与数据强防腐

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 vendure 的适配鸿蒙实战 - 驾驭核心电商交易总网,实现 OpenHarmony 下的大并发 GraphQL 无头电商网关与数据强防腐 前言 随着鸿蒙(OpenHarmony)生态的全球化出海,超级应用与万物互联的电商新纪年已经拉开帷幕。我们在将手机、平板、车载大屏甚至穿戴设备接入商城入口时,必须面对传统 RESTful 接口带来的巨大挑战:接口散乱、冗余数据多、联调效率低。 在处理类似 0308 批次这种千万级大字段的商品详情系统时,如果前端对后端接口的变动缺乏抗崩御能力,一次小小的结构调整就可能导致全链条的业务断裂,直接造成现金流的损失。我们需要一种“逻辑高层编排、数据按需即取、边界强悍防御”的接口总网。vendure 库正是为此而生的 GraphQL 客户端架构重炮。本文将详细揭秘它如何帮助你在鸿蒙端打造一套坚不可摧的交易底盘。 一、原理解析 / 概念介绍 1.

By Ne0inhk