Anthropic 最近经济指数报告 202603 解读——人工智能对劳动力市场的影响的初步证据
划重点
- Anthropic引入了一种衡量人工智能替代风险的新指标——观测暴露度,该指标结合了理论上的大语言模型能力与实际使用数据,并更侧重于自动化(而非增强型)以及与工作相关的应用场景。
- 人工智能远未达到其理论能力:实际覆盖率仅为理论可行范围的一小部分。
- 美国劳工统计局预测,到2034年,观测暴露度较高的职业,其就业增长将相对较慢。暴露度最高职业中的从业者,更可能是年龄较大、女性、受教育程度较高且收入较高的群体。
- Anthropic发现,自2022年底以来,高暴露度工人的失业率并未出现系统性上升,但有初步证据表明,在暴露度较高的职业中,年轻工人的招聘速度有所放缓。
引言
人工智能的快速普及正引发大量研究,试图衡量和预测其对劳动力市场的影响。然而,过往研究方法的记录提醒我们应保持谦逊。不要慌张,不要烧包,不要踩踏,既不要盲信“2028人工智能替代导致经济危机”,也要理性看待已经在海平面上涌现的这波AI技术浪潮。
Anthropic基于其公布的经济指数,不同于去年下半年着重讨论不同地区和不同行业的AI采用率或自动化程度,在本文中,Anthropic开始讨论在哪些行业,AI替代的程度并尝试通过建立指标体系的方式对AI替代这一趋势进行量化观察和参考。
提出了一个理解人工智能对劳动力市场影响的新框架,并用早期数据对其进行了检验,发现迄今为止人工智能影响就业的证据有限。目标是建立一种衡量人工智能如何影响就业的方法,并定期重新进行这些分析。这种方法无法捕捉人工智能重塑劳动力市场的所有可能渠道,但通过在显著效应显现之前奠定基础,希望未来的发现能比事后分析更可靠地识别经济冲击。
人工智能的影响很可能是清晰无误的。当影响模糊不清时,这个框架将发挥最大作用——它或许能在替代发生之前,帮助识别出最脆弱的岗位。
不要恐慌,从反事实分析开始思考——AI替代为什么没有实现?
当影响巨大而突然时,因果推断更为容易。新冠疫情及随之而来的政策措施造成的经济冲击是如此显著,以至于对于许多问题而言,复杂的统计方法都显得多余。例如,疫情爆发的最初几周失业率急剧上升,几乎没有给其他解释留下空间,可能也不需要过多解释。
然而,人工智能的影响可能不像新冠疫情,而更像互联网。其影响可能无法立即从总体失业数据中显现;贸易政策和商业周期等因素可能会模糊对趋势线的解读。
冷静的找迹象——如何量化AI替代率?
本研究遵循基于任务的方法,结合了人工智能理论能力和实际使用情况的衡量指标,然后汇总到职业层面。当某个任务在Anthropic的经济指数样本(Handa 等人,2025)中观察到足够的流量时,我们才认为它被覆盖,并且会给予 API 使用(表明在生产系统中集成更深)更高的权重。定义公式如下:

WorkUsageᵢ 必须达到 100 次或占总流量的 0.0025%³。观察到的任务计数存在一个长尾,包含大量低计数用途,这可能反映了不常见的行为、测试或分类器错误。确切的 cutoff 值对工作排名影响很小。未达到 WorkUsageᵢ ≥ 100 门槛的任务,其覆盖度被设为 0。
某些职业共享相同的任务,例如,“观察和评估学生的表现、行为、社会发展和身体健康”这一任务出现在十类 K-12 教师中。类似地,一些任务可能只相差一个词或一个逗号。由于我们没有记录足够的上下文信息来将这些任务精确分配到某个具体职业,我们将这些完全相同或高度相似的任务进行分组,并根据各职业的就业份额,将任务计数平均分配给这些职业。
ClaudeWorkUsageᵢ 是在 Claude.ai 上被归类为与工作相关的任务 t 的计数。Anthropic依据 Appel 等人(2026)提出的用例原语,将范围限定在与工作相关的对话记录,而非教育或个人用例¹。将计数限制在与工作相关的用途上,似乎能更好地捕捉对劳动力市场的潜在影响范围。
例如,使用 AI 解释科学讲座(课业)或获取治疗伤病的建议(个人用途),与自动化教学或护理工作相去甚远。最后一项,APIUsageᵢ,统计任务 t 的所有第一方 API 流量。我们不对 API 调用是否与工作相关进行区分,因为 API 调用通常意味着已集成到生产工作流中²。
对于这个公式,这种这样简单的加法计算值得上商榷的点在于:通过Claude网页端访问实际上也是调用了Claude API不同于API us