【论文阅读】Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation
【论文阅读】Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation
用于频率自适应多模态推荐的结构化谱推理
摘要
虽然最近的工作探索了频域作为分离稳定信号和噪声信号的透镜,但大多数方法依赖于静态滤波或重新加权,缺乏对频谱结构进行推理或适应特定模态可靠性的能力。
为了应对这些挑战,我们提出了一种用于频率感知多模态推荐的结构化谱推理(SSR)框架。
我们的方法遵循四阶段流程:
(i)通过图引导的变换将基于图的多模态信号分解为频带以隔离语义粒度;
(ii) 通过频带掩蔽来调制频带级可靠性,这是一种具有预测一致性目标的训练时掩蔽,可抑制脆性频率分量;
(iii) 使用高光谱推理与低阶跨频带交互融合互补频率线索;
(iv)通过对比正则化对齐特定模态的光谱特征,以促进语义和结构的一致性。
引言
多模态推荐把协同交互与图像/文本一起用时,模态噪声、语义错位和冗余会沿用户–物品图传播被放大,导致表示不稳、冷启动效果差。现有空间域融合和许多频域滤波方法多是“拼接/静态重加权”,缺少频带级自适应调制与跨频带结构化推理来区分“信息频带”和“噪声频带”。
为了应对这些挑战,我们提出了用于频率感知多模态图推荐的结构化谱推理(SSR)。 SSR 采用四级管道,在共享频谱坐标系内分解、调制、融合和对齐信号。
为应对这些挑战,我们提出用于频率感知的多模态图推荐的结构化频谱推理(Structured Spectral Reasoning, SSR)。SSR 采用一个四阶段流程,在共享的频谱坐标系中对信号进行分解、调制、融合与对齐。基于这样的观察:频率映射能够揭示按频带划分的结构,从而同时捕捉协同语义与模态特有细节,我们将学习过程组织为围绕频带级操作与监督展开。不同于把频带当作静态特征或仅做轻度重加权,SSR 先把输入转换为频谱表示,再对其信息量与稳定性进行推理。
我们引入频带掩蔽(Spectral Band Masking, SBM):一种训练阶段的频带级扰动,并配合预测一致性目标,以降低对脆弱频带的依赖并提升性能保持度。我们还设计了与图结构兼容的超光谱算子(G-HSNO),通过紧凑的低秩参数化来建模跨频带与跨模态的依赖关系。此外,一个频谱对比目标在不增加推理开销的情况下,促进频带级跨模态一致性。总体而言,这些组件共同构成了一种连贯且高效的多模态图结构化频谱建模方法。
方法
图 1:我们提出的框架的总体架构。该模型遵循结构化的四阶段流程:(i)分解执行特定于模态的图小波变换以解开多频率分量; (ii) 调制应用频谱带掩蔽 (SBM),以任务自适应方式扰动和降低不可靠频带的权重; (iii) Fusion 利用低阶图超谱神经算子 (G-HSNO) 来推理跨频带和跨模式依赖关系; (iv) 对齐引入谱对比正则化 (SCR),以加强跨模态的语义一致性和谱鲁棒性。
0)输入是什么?(左侧)
系统有三种物品信息:ID 特征、图像特征、文本特征。
作者先在用户–物品图上用 GCN/LightGCN 这类传播,得到每种模态各自的“协同表示”(也就是:带上了交互关系的表示)。1)Decomposition:先把信号按“频率”拆成三段(低/中/高频)
你可以把“频率”理解成:这个信号在图上变化得快不快。低频:变化慢、更平滑,通常更像“稳定的总体偏好/大众趋势”。高频:变化快、更尖锐,通常更像“细节差异”,但也更可能是噪声。
所以作者把每个模态的图信号做一次谱/小波变换,然后切成 Spectral Band1/2/3,对应低/中/高频三份子信号。2)Modulation:用 SBM 训练时“随机遮掉某些频带”,逼模型别走偏
这一步的核心是 Spectral Band Masking (SBM)。
做法很像数据增强,但增强对象不是像素或词,而是整段频带:训练时随机把某些频带置零(mask),得到一个“被扰动的频谱视图”。同时保留原来的全频输入。然后加一个一致性损失:要求 原输入的预测 和 mask 后的预测 尽量一致(图里写的 LSBM=E∥f(x)−f(x~)∥2L_{SBM} = \mathbb{E}\|f(x)-f(\tilde x)\|^2LSBM=E∥f(x)−f(x~)∥2)。
直觉很简单:
如果模型只依赖某个“脆弱频带”(比如高频噪声),一 mask 它预测就崩;一致性约束会逼模型学到更稳的证据组合。3)Fusion:用 G-HSNO 做“跨频带 + 跨模态”的结构化推理
前面你把每个模态都拆成了多个频带。接下来要解决两件事:频带之间怎么互相影响(低频和高频不是孤立的)。模态之间怎么互相补充(图像/文本/ID 怎么合到一起)。
作者用一个叫 Graph HyperSpectral Neural Operator (G-HSNO) 的模块来做这件事。
你可以把它想成:对每个频带 mmm,它会从所有其他频带 nnn“取信息”并加权汇总,得到新的 z(m)z^{(m)}z(m)。
图里那句就是:
z(m)=∑n=1MKmnx(n) z^{(m)}=\sum_{n=1}^{M} K_{mn}x^{(n)} z(m)=n=1∑MKmnx(n)
区别在于:KmnK_{mn}Kmn 不是随便学的一个大矩阵,而是用 **低秩(CP 分解)**把参数压缩,避免太贵。
结果就是得到一个按频带组织的多模态表示(band-wise multimodal representation),同时它已经把“频带交互、模态交互、图结构”都考虑进去了。4)Alignment:用对比学习让不同模态在同一频带里“语义对齐”
最后作者加了 Spectral Contrastive Regularization (SCR)。
你可以理解成:在同一个频带里,图像表示、文本表示、ID 表示应该表达“同层次”的语义。所以用 InfoNCE 做对比学习:把“同一物品同一频带的不同模态”拉近,把不匹配的拉远。它只在训练里起作用,推理时不额外增加开销(图里也强调了这一点)。5)预测与总损失(右上角)
预测就是用户向量和物品向量做内积再过 sigmoid:y^uv=σ(zu⊤zv)\hat y_{uv}=\sigma(z_u^\top z_v)y^uv=σ(zu⊤zv)。
总损失是三项加权和:LBCEL_{BCE}LBCE:推荐的主任务损失LSBML_{SBM}LSBM:mask 频带后的预测一致性LSCRL_{SCR}LSCR:跨模态的频带级对比对齐
$$
L = L_{BCE}+\lambda L_{SBM}+\eta L_{SCR}
荐的主任务损失LSBML_{SBM}LSBM:mask 频带后的预测一致性LSCRL_{SCR}LSCR:跨模态的频带级对比对齐
L=LBCE+λLSBM+ηLSCR L = L_{BCE}+\lambda L_{SBM}+\eta L_{SCR} L=LBCE+λLSBM+ηLSCR