【论文阅读】Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting

优质文章学习记录

07 Apr 2026 — 34 min read

【论文阅读】Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting

一、文献介绍
二、摘要ABSTRACT
三、引言 INTRODUCTION
四、相关工作RELATED WORK
五、方法METHODOLOGY
- 5.1 多尺度Transformers块( MULTI-SCALE TRANSFORMER BLOCK)
六、实验EXPERIMENTS
七、结论CONCLUSION

一、文献介绍

论文标题: Pathformer：用于时间序列预测的多尺度自适应路径Transformer
论文链接:https://arxiv.org/abs/2402.05956
代码链接:https://github.com/decisionintelligence/pathformer
发表年份: 2024
发表平台: ICLR
平台等级: CCF A
作者信息: Peng Chen¹, Yingying Zhang², Yunyao Cheng³, Yang Shu¹, Yihang Wang¹, Qingsong Wen², Bin Yang¹, Chenjuan Guo¹
机构：
1. East China Normal University
2. Alibaba Group
3. Aalborg University

二、摘要ABSTRACT

现有的 Transformer 在时间序列预测中，通常从有限或固定的尺度对序列进行建模，这使得捕捉跨越各种尺度的不同特征变得具有挑战性。

本文提出了 Pathformer，一种具有自适应路径（Adaptive Pathways 的多尺度 Transformer。其核心创新点在于：

多尺度建模：结合了时间分辨率和时间距离。通过使用不同大小的 Patch 将时间序列划分为不同的分辨率。
双重注意力机制：基于每个尺度的划分，执行跨 Patch 注意力（Inter-patch Attention）和Patch 内注意力（Intra-patch Attention），分别捕捉全局相关性和局部细节。
自适应路径：根据输入的时间动态，自适应调整多尺度建模过程，从而提高模型的准确性和泛化能力。

在 11 个真实世界数据集上的广泛实验表明，Pathformer 不仅达到了最先进（SOTA）的性能，而且在各种迁移场景下表现出更强的泛化能力。

三、引言 INTRODUCTION

时间序列预测在各个行业中具有重要作用，例如能源、金融、交通、物流和云计算，同时也是其他时间序列分析的基础模块，如异常检测。由于 Transformer在序列建模中的广泛应用以及在 CV 和 NLP 等领域的成功，它在时间序列领域也逐渐受到关注。**尽管性能不断提升，最近的研究开始通过提出性能更好的更简单的简化线性模型，挑战现有时间序列预测Transformer的设计。**尽管Transformer在时间序列预测中的潜力依然可期，但仍需要更好的设计和调整来发挥其潜力。

现实世界的时间序列在不同的时间尺度上表现出不同的变化和波动。例如，云计算中CPU、GPU和内存资源的使用情况在日、月和季节尺度上具有独特的时间模式。这就需要对时间序列预测进行多尺度建模，以从不同尺度的时间间隔中提取时间特征和依赖关系。在时间序列的多尺度方面，有两个方面需要考虑：时间分辨率和时间距离。时间分辨率对应于我们在模型中如何查看时间序列，并决定了用于建模的每个时间patches或单位的长度。在图 path1 中，相同的时间序列可以分为小patches（蓝色）或大patches（黄色），从而表现出细粒度或粗粒度的时间特征。时间距离对应于我们如何明确地建模时间依赖关系，并决定了用于时间建模的时间步长之间的距离。在图 path1 中，黑色箭头建模了相邻时间步长之间的关系，形成了局部细节，而彩色箭头建模了跨越较长范围的时间步长，形成了全局相关性。

左图：时间序列被划分为不同大小的patches，作为时间分辨率。蓝色、橙色和红色的间隔代表不同的patches大小。右图：通过不同的时间距离对局部细节（黑色箭头）和全局相关性（彩色箭头）进行建模。

为了进一步探索Transformer在时间序列预测中提取相关性的能力，本文重点关注通过Transformer架构增强多尺度建模。有效的多尺度建模在Transformer中面临两个主要挑战。第一个挑战是多尺度建模的不完整性。从不同的时间分辨率查看数据会隐式地影响后续建模过程的尺度。然而，简单地改变时间分辨率并不能明确且高效地强调不同范围内的时间依赖性。相反，考虑不同的时间距离可以从不同范围内建模依赖关系，如全局和局部相关性。然而，全局和局部间隔的确切时间距离受数据划分的影响，仅从单一的时间分辨率视角来看是不完整的。第二个挑战是固定的多尺度建模过程。虽然多尺度建模可以更全面地理解时间序列，但不同序列因其具体的时间特征和动态变化而偏好不同的尺度。例如，比较图 path1 中的两个序列，上面的序列显示出快速波动，这可能意味着需要更多关注细粒度和短期特征。而下面的序列则可能需要更多关注粗粒度和长期建模。对所有数据进行固定的多尺度建模会阻碍对每个时间序列关键模式的掌握，手动调整数据集或每个时间序列的最佳尺度既耗时又难以处理。要解决这两个难题，就需要自适应多尺度建模，即从特定的多个尺度对当前数据进行自适应建模。

基于上述对多尺度建模的理解，本文提出了用于时间序列预测的具有自适应路径的多尺度Transformer（Pathformer）。为了实现更完整的多尺度建模能力，本文提出了一个统一多尺度时间分辨率和时间距离的多尺度Transformer模块。多尺度划分用于将时间序列划分为不同大小的patches，从而形成不同时间分辨率的视图。基于每种大小的划分patches，本文提出了双重注意力机制，包括跨patches注意力和patches内注意力，以捕捉时间依赖关系，其中跨patches注意力捕捉跨patches的全局相关性，patches内注意力捕捉单个patches内的局部细节。本文进一步提出了自适应路径以激活多尺度建模能力，并赋予其自适应建模特性。在模型的每一层中，多尺度路由器根据输入数据自适应选择特定大小的patches划分和后续的双重注意力，从而控制多尺度特征的提取。本文为路由器配备了趋势和季节性分解，以增强其掌握时间动态的能力。路由器与聚合器协作，通过加权聚合自适应地结合多尺度特征。逐层的路由和聚合形成了Transformer中贯穿始终的自适应多尺度建模路径。据我们所知，这是首个引入自适应多尺度建模用于时间序列预测的研究。具体来说，本文做出了以下贡献：

提出了一种多尺度Transformer架构，整合了时间分辨率和时间距离两个视角，使模型具备更完整的多尺度时间序列建模能力。
进一步提出了多尺度Transformer中的自适应路径，多尺度路由器结合时间分解与聚合器协作，基于输入数据的时间动态自适应地提取和聚合多尺度特征，实现自适应多尺度时间序列建模。
在不同的真实数据集上进行了广泛的实验，达到了最先进的预测准确度。此外，还进行了跨数据集的迁移学习实验，以验证模型的强泛化能力。

四、相关工作RELATED WORK

时间序列预测: 时间序列预测是基于历史观测值预测未来观测值。基于指数平滑及其不同变体的统计建模方法在时间序列预测中一直作为可靠的主力方法。在深度学习方法中，图神经网络（GNNs）用于建模相关时间序列预测的空间依赖性。循环神经网络（RNNs）用于建模时间依赖性。DeepAR（2018）使用RNNs和自回归方法来预测未来的短期时间序列。卷积神经网络（CNN）模型通过时间卷积提取子序列特征。TimesNet（2023）将原始一维时间序列转换为二维空间，并通过卷积捕捉多周期特征。基于大型语言模型（LLM）的方法在该领域也表现出有效的性能（2023）。此外，一些方法正在结合神经结构搜索以发现最优架构。

Transformer模型最近在时间序列预测中引起了越来越多的关注。Informer（2021）提出了概率稀疏自注意力机制以选择重要的键，Triformer（2022）采用三角架构，成功降低了复杂性。Autoformer（2021）提出了自相关机制以取代自注意力来建模时间动态。FEDformer（2022）从频率角度利用傅里叶变换来建模时间动态。然而，研究人员对Transformer在时间序列预测中的有效性提出了质疑，因为简单的线性模型被证明是有效的，甚至优于之前的Transformer模型。同时，PatchTST（2023）采用patches和通道独立性与Transformers结合，有效地提升了性能，显示出Transformer架构在适当调整后在时间序列预测中仍有潜力。

时间序列的多尺度建模: 在计算机视觉和多模态学习等领域中，多尺度特征的建模被证明对相关性学习和特征提取是有效的，但在时间序列预测中相对探索较少。N-HiTS（2023）通过多速率数据采样和分层插值来建模不同分辨率的特征。Pyraformer（2022）引入了金字塔注意力机制，以提取不同时间分辨率的特征。Scaleformer（2023）提出了一个多尺度框架，需要在不同时间分辨率上分配预测模型，导致模型复杂性增加。与这些使用固定尺度并且无法自适应地为不同时间序列改变多尺度建模的方法不同，本文提出了一种具有自适应路径的多尺度Transformer，能够基于不同的时间动态自适应地建模多尺度特征。

五、方法METHODOLOGY

为了有效捕捉多尺度特征，本文提出了具有自适应路径的多尺度Transformers（称为Pathformer）。如图 path2 所示，整个预测网络由实例归一化(Instance Norm)、多个自适应多尺度模块（AMS Blocks）的堆叠以及预测器组成。实例归一化（Instance Norm ,2022）是一种用于解决训练和测试数据之间分布偏移的归一化技术。预测器(Predictor )是一个全连接神经网络，因其适用于长序列预测而被提出。

Pathformer的架构。多尺度Transformer模块（MST Block）包括多种patches大小的patches划分和双重注意力机制。自适应路径选择由路由器(multi-scale router)生成的权重排名前 K K K的patches大小，以捕捉多尺度特征，所选的patches大小以蓝色表示。然后，聚合器(multi-scale aggregator)对从MST Block获得的特征进行加权聚合

本文设计的核心是用于自适应多尺度特征建模的AMS模块，它由多尺度Transformer模块和自适应路径组成。受到Transformers中patches划分概念的启发（2023），多尺度Transformer模块通过引入不同大小的patches划分和在划分patches上的双重注意力，整合多尺度时间分辨率和时间距离，使模型具备全面建模多尺度特征的能力。基于Transformer模块中的多种多尺度建模选项，自适应路径利用多尺度建模能力并赋予其自适应建模特性。一个多尺度路由器根据输入数据选择特定大小的patches划分和后续的双重注意力，从而控制多尺度特征的提取。路由器与聚合器协作，通过加权聚合结合这些多尺度特征。逐层的路由和聚合形成了贯穿整个Transformer模块的多尺度建模自适应路径。在以下部分中，本文将详细描述AMS模块中的多尺度Transformer模块和自适应路径。

5.1 多尺度Transformers块( MULTI-SCALE TRANSFORMER BLOCK)

1.多尺度划分(Multi-scale Division)。 为了简化符号，我们使用单变量时间序列进行描述，并且该方法可以通过独立考虑每个变量轻松扩展到多变量情况。在多尺度Transformer模块中，我们定义了一个包含 M M M个patch大小值的集合 S = S 1 , … , S M S={S_1, \ldots, S_M } S=S1,…,SM，每个patch大小 S S S对应一个patch划分操作。对于输入时间序列 X ∈ R H × d \mathrm{X} \in \mathbb{R}^{H \times d} X∈RH×d，其中 H H H表示时间序列的长度， d d d表示特征的维度，每个patch大小为 S S S的patch划分操作将 X \mathrm{X} X划分为 P P P（其中 P = H / S P=H / S P=H/S）个patch，表示为 ( X 1 , X 2 , … , X P ) \left(\mathrm{X}^1, \mathrm{X}^2, \ldots, \mathrm{X}^P\right) (X1,X2,…,XP)，每个块 X i ∈ R S × d \mathrm{X}^i \in \mathbb{R}^{S \times d} Xi∈RS×d包含 S S S个时间步长。集合中的不同patch大小会导致不同尺度的划分patch，从而为输入序列提供不同的时间分辨率视角。这种多尺度划分与下面描述的双重注意力机制一起工作，用于多尺度建模。

2.双重注意力(Dual Attention)。 基于每个尺度的patch划分，本文提出了双重注意力机制来建模patch之间的时间依赖性。为了捕捉不同时间距离的时间依赖性，我们利用patch作为不同时间距离的指导，双重注意力机制包括patch内注意力和patch间注意力，如图2(a)所示。patch内注意力用于每个patch内部的依赖性建模，而patch间注意力用于不同patch之间的依赖性建模。

图2：(a) 多尺度Transformer模块的结构，主要包括patch划分、patch间注意力（Inter-patch attention ）和patch内注意力（intra-patch attention）。(b) 多尺度路由器的结构。

考虑一个patch集合 ( X 1 , X 2 , … , X P ) \left(\mathrm{X}^1, \mathrm{X}^2, \ldots, \mathrm{X}^P\right) (X1,X2,…,XP)，使用patch大小 S S S进行划分，patch内注意力(intra-patch attention)在每个patch内的时间步之间建立关系。对于第 i i i个patch X i ∈ R S × d \mathrm{X}^i \in \mathbb{R}^{S \times d} Xi∈RS×d，我们首先沿特征维度 d d d对patch进行嵌入，得到 X intra i ∈ R S × d m X_{\text {intra }}^i \in \mathbb{R}^{S \times d_m} Xintra i∈RS×dm，其中 d m d_m dm表示嵌入的维度。然后，我们对 X ∗ i n t r a i \mathrm{X}*{\mathrm{intra}}^i X∗intrai进行可训练的线性变换，获得注意力操作中的键和值，分别表示为 K ∗ intra i , V intra i ∈ R S × d m K*{\text {intra }}^i, V_{\text {intra }}^i \in \mathbb{R}^{S \times d_m} K∗intra i,Vintra i∈RS×dm。我们使用一个可训练的查询矩阵 Q intra i ∈ R 1 × d m Q_{\text {intra }}^i \in \mathbb{R}^{1 \times d_m} Qintra i∈R1×dm来合并patch的上下文，随后计算 Q intra i , K intra i , V intra i Q_{\text {intra }}^i, K_{\text {intra }}^i, V_{\text {intra }}^i Qintra i,Kintra i,Vintra i之间的交叉注意力，以在第 i i i个patch内建模局部细节：

Attn ⁡ ∗ intra i = Softmax ⁡ ( Q ∗ intra i ( K intra i ) T / d m ) V intra. i 注: Attn ⁡ intra i ∈ R 1 × d m \operatorname{Attn}*{\text {intra }}^i=\operatorname{Softmax}\left(Q*{\text {intra }}^i\left(K_{\text {intra }}^i\right)^T / \sqrt{d_m}\right) V_{\text {intra. }}^i \qquad \text{注:} \operatorname{Attn}_{\text{intra}}^i \in \mathbb{R}^{1 \times d_m} Attn∗intra i=Softmax(Q∗intra i(Kintra i)T/dm)Vintra. i注:Attnintrai∈R1×dm

经过intra-attention处理后，每个patch从其原始输入长度 S S S 变为长度为 1。所有patch的注意力结果被连接在一起，生成分割patch的patch内注意力(intra-patch attention)输出 Attn ⁡ intra ∈ R P × d m \operatorname{Attn}_{\text {intra }} \in \mathbb{R}^{P \times d_m} Attnintra ∈RP×dm，它表示时间序列中邻近时间步的局部细节：

Attn ⁡ ∗ intra = Concat ⁡ ( Attn ⁡ ∗ intra 1 , … , Attn ⁡ intra P ) . \operatorname{Attn}*{\text {intra }}=\operatorname{Concat}\left(\operatorname{Attn}*{\text {intra }}^1, \ldots, \operatorname{Attn}_{\text {intra }}^P\right) . Attn∗intra =Concat(Attn∗intra 1,…,Attnintra P).

Inter-patch attention 建立patch之间的关系，以捕捉全局相关性。对于patch划分后的时间序列 X ∈ R P × S × d \mathrm{X} \in \mathbb{R}^{P \times S \times d} X∈RP×S×d，我们首先沿特征维度从 d d d 到 d m d_m dm 进行特征嵌入，然后重新排列数据以组合patch数量 S S S 和特征嵌入 d m d_m dm 的两个维度，得到 X ∗ inter ∈ R P × d m ′ \mathrm{X}*{\text {inter }} \in \mathbb{R}^{P \times d_m^{\prime}} X∗inter ∈RP×dm′，其中 d m ′ = S ⋅ d m d_m^{\prime}=S \cdot d_m dm′=S⋅dm。经过这样的嵌入和重新排列过程，同一片段内的时间步被组合在一起，因此我们对 X ∗ inter \mathrm{X}*{\text {inter }} X∗inter 进行自注意力机制以建模片段之间的相关性。按照标准自注意力协议，我们通过对 X ∗ inter \mathrm{X}*{\text {inter }} X∗inter 进行线性映射获得查询、键和值，记作 Q ∗ inter , K inter , V inter ∈ R P × d m ′ Q*{\text {inter }}, K_{\text {inter }}, V_{\text {inter }} \in \mathbb{R}^{P \times d_m^{\prime}} Q∗inter ,Kinter ,Vinter ∈RP×dm′。然后，我们计算注意力 A t t n inter \mathrm{Attn}_{\text {inter }} Attninter ，这涉及patch 之间的交互，表示时间序列的全局相关性：

Attn ⁡ ∗ inter = Softmax ⁡ ( Q ∗ inter ( K inter ) T / d m ′ ) V inter \operatorname{Attn}*{\text {inter }}=\operatorname{Softmax}\left(Q*{\text {inter }}\left(K_{\text {inter }}\right)^T / \sqrt{d_m^{\prime}}\right) V_{\text {inter }} Attn∗inter =Softmax(Q∗inter (Kinter )T/dm′)Vinter

为了融合由双重注意力捕捉到的全局相关性和局部细节，我们将intra-patch attention的输出重新排列为 Attn ⁡ ∗ intra ∈ R P × S × d m \operatorname{Attn}*{\text {intra }} \in \mathbb{R}^{P \times S \times d_m} Attn∗intra ∈RP×S×dm，在patch size 维度上从 1 到 S S S 进行线性变换，以组合每个片段中的时间步长，然后与Inter-patch attention Attn ⁡ ∗ inter ∈ R P × S × d m \operatorname{Attn}*{\text {inter }} \in \mathbb{R}^{P \times S \times d_m} Attn∗inter ∈RP×S×dm 相加，得到双重注意力的最终输出 Attn ∈ R P × S × d m \in \mathbb{R}^{P \times S \times d_m} ∈RP×S×dm。

总体而言，多尺度划分为时间序列提供了不同的视角，不同的patch 大小进一步影响双重注意力，从而根据patch 划分建模不同距离的时间依赖性。这两个组件共同作用，使得Transformer能够进行多尺度的时间建模。

3.自适应路径(ADAPTIVE PATHWAYS)：多尺度Transformer模块的设计赋予了模型多尺度建模的能力。然而，不同的时间序列可能更偏好不同的尺度，这取决于它们特定的时间特征和动态变化。简单地应用更多的尺度可能会引入冗余或无用的信号，并且为数据集或每个时间序列手动调整最佳尺度是耗时且难以处理的。理想的模型需要根据输入数据找出这些关键的尺度，以便进行更有效的建模，并且能够更好地泛化到未见过的数据。

为了实现自适应多尺度建模，本文提出了基于多尺度Transformer的自适应路径，如图2所示。它包含两个主要组件：多尺度路由器和多尺度聚合器。多尺度路由器根据输入数据选择特定大小的patch 划分，从而激活Transformer中特定的部分并控制多尺度特征的提取。路由器与多尺度聚合器协同工作，通过加权聚合将这些特征组合起来，获得Transformer模块的输出。

多尺度路由器:多尺度路由器使多尺度Transformer能够进行数据自适应路由，选择patch 划分的最佳尺寸，从而控制多尺度建模过程。由于每个时间序列的最佳或关键尺度可能受到其复杂的内在特性和动态模式（如周期性和趋势）的影响，我们在路由器中引入了一个时间分解模块，该模块包含季节性和趋势分解，以提取周期性和趋势模式，如图2 (b)所示。

季节性分解： 季节性分解涉及将时间序列从时间域转换到频率域以提取周期模式。我们使用离散傅里叶变换（DFT），记为 DFT ⁡ ( ⋅ ) \operatorname{DFT}(\cdot) DFT(⋅)，将输入 X X X 分解为傅里叶基，并选择具有最大振幅的 K f K_f Kf 个基以保持频域的稀疏性。然后，我们通过逆DFT，记为 IDFT ⁡ ( ⋅ ) \operatorname{IDFT}(\cdot) IDFT(⋅)，获得周期模式 X sea \mathrm{X}_{\text {sea }} Xsea 。该过程如下：

X ∗ sea = IDFT ⁡ ( f 1 , … , f ∗ K f , A , Φ ) , \mathrm{X}*{\text {sea }}=\operatorname{IDFT}({f_1, \ldots, f*{K_f}}, A, \Phi), X∗sea =IDFT(f1,…,f∗Kf,A,Φ),

其中 Φ \Phi Φ 和 A A A 分别表示 DFT ⁡ ( X ) \operatorname{DFT}(\mathrm{X}) DFT(X) 中每个频率的相位和振幅， f 1 , … , f K f {f_1, \ldots, f_{K_f}} f1,…,fKf 表示振幅最大的前 K f K_f Kf 个频率。

趋势分解： 趋势分解使用不同核的平均池化进行移动平均，基于季节性分解后的剩余部分 X ∗ rem = X − X ∗ sea \mathrm{X}*{\text {rem }}=\mathrm{X}-\mathrm{X}*{\text {sea }} X∗rem =X−X∗sea 提取趋势模式。对于使用不同核获得的结果，应用加权操作以获得趋势组件的表示：

X ∗ trend = ∑ ∗ i = 1 N Softmax ⁡ ( L ( X ∗ rem ) ) ∗ i ⋅ Avgpool ⁡ ( X ∗ rem ) ∗ kernel ⁡ i , \mathrm{X}*{\text {trend }} = \sum*{i=1}^{N} \operatorname{Softmax}(L(\mathrm{X}*{\text {rem }}))*i \cdot \operatorname{Avgpool}(\mathrm{X}*{\text {rem }})*{\operatorname{kernel}_i}, X∗trend =∑∗i=1NSoftmax(L(X∗rem ))∗i⋅Avgpool(X∗rem )∗kerneli,

其中 Avgpool ⁡ ( ⋅ ) ∗ kernel ⁡ ∗ i \operatorname{Avgpool} (\cdot)*{\operatorname{kernel}*i} Avgpool(⋅)∗kernel∗i 是具有第 i i i 个核的池化函数， N N N 对应核的数量， Softmax ⁡ ( L ( ⋅ ) ) \operatorname{Softmax}(L(\cdot)) Softmax(L(⋅)) 控制不同核结果的权重。我们将季节性模式和趋势模式与原始输入 X X X 相加，然后进行线性映射 Linear ⁡ ( ⋅ ) \operatorname{Linear}(\cdot) Linear(⋅) 以沿时间维度进行转换和合并，得到 X ∗ trans ∈ R d \mathrm{X}*{\text {trans }} \in \mathbb{R}^d X∗trans ∈Rd。

X ∗ trans = X ∗ sea + X ∗ trend + X \mathrm{X}*{\text {trans }} = \mathrm{X}*{\text {sea }}+\mathrm{X}*{\text {trend }} +X X∗trans =X∗sea +X∗trend +X

基于时间分解的结果 X trans \mathrm{X}_{\text {trans }} Xtrans ，路由器使用路由函数生成路径权重，从而确定当前数据的补丁尺寸。为了避免始终选择少数补丁尺寸，导致相应的尺度被反复更新而忽略其他可能有用的尺度，我们在权重生成过程中引入噪声项，以增加随机性。生成路径权重的整个过程如下：

R ( X ∗ trans ) = Softmax ⁡ ( X ∗ trans W r + ϵ ⋅ Softplus ⁡ ( X ∗ trans W ∗ noise ) ) , ϵ ∼ N ( 0 , 1 ) , R\left(\mathrm{X}*{\text {trans }}\right)=\operatorname{Softmax}\left(\mathrm{X}*{\text {trans }} W_r+\epsilon \cdot \operatorname{Softplus}\left(\mathrm{X}*{\text {trans }} W*{\text {noise }}\right)\right), \epsilon \sim \mathcal{N}(0,1), R(X∗trans )=Softmax(X∗trans Wr+ϵ⋅Softplus(X∗trans W∗noise )),ϵ∼N(0,1),

其中 R ( ⋅ ) R(\cdot) R(⋅) 表示整个路由函数， W r W_r Wr 和 W noise ∈ R d × M W_{\text {noise }} \in \mathbb{R}^{d \times M} Wnoise ∈Rd×M 是用于权重生成的可学习参数， d d d 表示 X ∗ trans \mathrm{X}*{\text {trans }} X∗trans 的特征维度， M M M 表示补丁尺寸的数量。为了在路由中引入稀疏性并鼓励选择关键尺度，我们在路径权重上执行前 K K K 选择，保留前 K K K 个路径权重，将其余权重设置为 0，并将最终结果表示为 R ˉ ( X ∗ trans ) \bar{R}\left(\mathrm{X}*{\text {trans }}\right) Rˉ(X∗trans )。( Softplus ⁡ \operatorname{Softplus} Softplus 是一种平滑的激活函数，定义为 Softplus ⁡ ( x ) = log ⁡ ( 1 + e x ) \operatorname{Softplus}(x) = \log(1 + e^x) Softplus(x)=log(1+ex)，用于确保输入值为正数。)

六、实验EXPERIMENTS

6.1 时间序列预测TIME SERIES FORECASTING

数据集Datasets。我们在九个真实世界的数据集上进行实验，以评估Pathformer的性能，这些数据集涵盖了包括电力运输、天气预报和云计算在内的多个领域。这些数据集包括ETT（ETTh1、ETTh2、ETTm1、ETTm2）、天气Weather、用电量Electricity、交通Traffic、ILI和云集群Cloud Cluster（Cluster-A、Cluster-B、Cluster-C）。

基线和指标(Baselines and Metrics)。我们选择了一些最先进的模型作为基线，包括PatchTST (2023)、NLinear (2023)、Scaleformer (2023)、TIDE (2023)、FEDformer (2022)、Pyraformer (2022b)和Autoformer(2021)。为了确保公平比较，所有模型都遵循相同的输入长度（ILI数据集为 H = 36 H=36 H=36，其他为 H = 96 H=96 H=96）和预测长度（云集群数据集为 F ∈ { 24 , 49 , 96 , 192 } F \in\{24,49,96,192\} F∈{24,49,96,192}，ILI数据集为 F ∈ { 24 , 36 , 48 , 60 } F \in\{24,36,48,60\} F∈{24,36,48,60}，其他为 F ∈ { 96 , 192 , 336 , 720 } F \in\{96,192,336,720\} F∈{96,192,336,720}）。我们选择了时间序列预测中两个常见的指标：平均绝对误差（MAE）和均方根误差（RMSE）。

实现细节(Implementation Details.)。Pathformer使用Adam优化器 (2015)，学习率设置为 10 − 3 10^{-3} 10−3。默认使用的损失函数是L1损失，在训练过程中我们实施了在10个epoch内的早停机制。所有实验均使用PyTorch进行，并在NVIDIA A800 80GB GPU上执行。Pathformer由3个自适应多尺度模块（AMS模块）组成。每个AMS模块包含4种不同的补丁尺寸。这些补丁尺寸从一组常用选项中选择，即 { 2 , 3 , 6 , 12 , 16 , 24 , 32 } \{2,3,6,12,16,24,32\} {2,3,6,12,16,24,32}。

主要结果(Main Results)。下表展示了多变量时间序列预测的结果，其中Pathformer在88个案例中表现最佳的有81个，表现第二好的有5个。与第二好的基线PatchTST相比，Pathformer显示出显著的改进，均方误差（MSE）减少了 8.1 % 8.1\% 8.1%，平均绝对误差（MAE）减少了 6.4 % 6.4\% 6.4%。与强线性模型NLinear相比，Pathformer也全面胜出，尤其是在电力和交通等大数据集上。这表明Transformer架构在时间序列预测中的潜力。与多尺度模型Pyraformer和Scaleformer相比，Pathformer表现出良好的性能改进，MSE减少了 36.4 % 36.4\% 36.4%，MAE减少了 19.1 % 19.1\% 19.1%。这表明所提出的从时间分辨率和时间距离双方面进行综合建模的自适应路径方法在多尺度建模中更加有效。

6.2 转移学习TRANSFER LEARNING

实验设置Experimental Setting.。为了评估Pathformer的可迁移性，我们将其与三个基准模型进行对比：PatchTST、FEDformer和Autoformer，并设计了两种不同的迁移实验。在评估跨不同数据集的可迁移性时，模型首先在ETTh1和ETTm1上进行预训练，随后在ETTh2和ETTm2上进行微调。为了评估模型对未来数据的迁移能力，模型首先在三个集群的前70%的训练数据上进行预训练：Cluster-A、Cluster-B和Cluster-C，然后对每个集群的剩余30%的训练数据进行微调。在基准模型的方法方面，我们探索了两种方法：直接预测（零样本）和全量调优(prediction (zero-shot) and full-tuning)。与这些方法不同，Pathformer采用了一种部分调优策略(Part-tuning)。在这种策略中，像路由网络参数这样的特定参数会进行微调，从而显著减少计算资源的需求。

迁移学习结果Transfer Learning Results.。下表展示了我们迁移学习评估的结果。在直接预测和全量调优方法中，Pathformer均超过了基准模型，突显了其增强的泛化能力和可迁移性。\textbf{Pathformer的一个关键优势在于其自适应选择不同时间动态的不同尺度的能力}。这种适应性使其能够有效捕捉存在于各种数据集中的复杂时间模式，从而展现出卓越的泛化能力和可迁移性。部分调优Part-tuning是一种轻量级的微调方法，平均减少了52%的计算资源需求和训练时间，同时仍能实现与Pathformer全量调优(full-tuning)几乎相当的预测准确性。此外，它在大多数数据集上优于其他基准模型的全量调优。这表明Pathformer可以为时间序列预测提供有效的轻量级迁移学习。

6.3 消融研究ABLATION STUDIES

为了确定Pathformer中不同模块的影响，我们进行了消融研究，重点关注path间注意力、path内注意力、时间序列分解和Pathways。W/O Pathways配置意味着对每个数据集使用path大小池中的所有path大小，取消自适应选择。下表展示了每个模块的独特影响。Pathways的影响显著；省略它们会导致预测准确性的显著下降。这强调了优化path大小组合以提取多尺度特征的关键性，从而显著提高模型的预测准确性。在效率方面，path内注意力特别擅长识别局部模式，而path间注意力主要捕捉更广泛的全局模式。时间序列分解模块将趋势和周期模式分解，以提高捕捉其输入的时间动态的能力，帮助识别适合组合的path大小。

改变自适应选择的补丁大小数量。Pathformer 会根据不同的时间序列样本，自适应地选择最合适的 K K K path大小进行组合。我们在表4中评估了不同 K K K值对预测准确性的影响。我们的研究发现， K = 2 K=2 K=2和 K = 3 K=3 K=3的结果优于 K = 1 K=1 K=1和 K = 4 K=4 K=4，这突显了自适应建模关键多尺度特征以提高准确性的优势。此外，不同的时间序列样本从使用不同path大小进行特征提取中受益，但并非所有path大小都同样有效。

路径权重可视化(Visualization of Pathways Weights)。我们在图4中展示了三个样本，并描述了它们在每种path大小下的平均Pathways权重。我们的观察表明，这些样本具有独特的Pathways权重分布。样本1和样本2表现出较长的季节性和相似的趋势模式，在可视化的Pathways权重中显示出相似的特征，这表现在它们对较大path大小赋予较高权重。另一方面，样本3具有较短的季节性模式，与较小path大小的较高权重相吻合。这些观察结果突显了Pathformer的适应性，强调了其识别和应用最佳path大小组合以适应不同样本中的多样季节性和趋势模式的能力。

6.4 单变量时间序列预测UNIVARIATE TIME SERIES FORECASTING

我们在ETT和Cloud cluster数据集上进行了单变量时间序列预测实验。如表\ref{path10}所示，Pathformer在50个案例中表现最佳，在56个实例中有5个表现为次优。Pathformer尤其在Cloud cluster数据集上超过了次优基准PatchTST。我们的模型Pathformer在多变量和单变量时间序列预测中均表现出色。

6.5 使用Transformer模型改变输入长度- VARYING THE InPut Length With Transformer Models

在时间序列预测任务中，输入长度的大小决定了模型接收的历史信息量。我们选择了主要实验中预测性能较好的模型作为基准。我们配置了不同的输入长度来评估Pathformer的有效性，并可视化了输入长度为48和192的预测结果。从下图1可以看出，Pathformer在ETTh1、ETTh2、Weather和Electricity数据集上始终优于基准模型。如下面表1和表2所示，对于 H = 48 , 192 H=48,192 H=48,192，Pathformer分别在48个案例中表现最佳的有46和44个。根据上述结果，显而易见Pathformer在不同输入长度上都优于基准模型。随着输入长度的增加，Pathformer的预测指标持续下降，表明其能够对更长的序列进行建模。

6.6 与一些基本基线的更多比较(MORE COMPARISONS WITH SOME BASIC BASELINES)

为了验证Pathformer的有效性，我们使用长输入序列长度 ( H = 336 ) (H=336) (H=336)，进行了大量实验，并与一些最近表现良好的基准模型进行了对比，包括DLinear、NLinear和N-HiTS。如下表所示，我们提出的模型Pathformer在输入长度为336时优于这些基准模型。Zeng等人（2023年）指出，以往的Transformer无法很好地从较长的输入序列中提取时间关系，但我们提出的Pathformer在较长输入长度下表现更好，这表明考虑自适应多尺度建模可以有效增强Transformer的关系提取能力。

七、结论CONCLUSION

在本文中，本文提出了Pathformer，一种具有自适应路径的多尺度Transformer用于时间序列预测。它通过引入具有多种path大小的path划分和对划分path的双重注意力，整合多尺度时间分辨率和时间距离，从而实现多尺度特征的综合建模。此外，自适应路径根据不同的时间动态动态选择和聚合特定尺度的特征。这些创新机制共同赋予Pathformer卓越的预测性能，并在多个预测任务中展示了强大的泛化能力。

【论文阅读】Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting

优质文章学习记录

【论文阅读】Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting

一、文献介绍

二、摘要ABSTRACT

三、引言 INTRODUCTION

四、相关工作RELATED WORK

五、方法METHODOLOGY

5.1 多尺度Transformers块( MULTI-SCALE TRANSFORMER BLOCK)

六、实验EXPERIMENTS

6.1 时间序列预测TIME SERIES FORECASTING

6.2 转移学习TRANSFER LEARNING

6.3 消融研究ABLATION STUDIES

6.4 单变量时间序列预测UNIVARIATE TIME SERIES FORECASTING

6.5 使用Transformer模型改变输入长度- VARYING THE InPut Length With Transformer Models

6.6 与一些基本基线的更多比较(MORE COMPARISONS WITH SOME BASIC BASELINES)

七、结论CONCLUSION

Read more

Meixiong Niannian画图引擎企业级应用：营销团队AIGC内容流水线搭建实录

无人机数据分析终极指南：UAV Log Viewer完整使用教程

数据中台建设中的数据血缘可视化：Neo4j应用

CVPR 2026 Oral实测｜YOLO-DRONE：无人机低空巡检的“性能天花板”，小目标召回率狂升39%（清华团队力作，电力部署实操全解析）