【论文阅读】Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation

【论文阅读】Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation

用于频率自适应多模态推荐的结构化谱推理

摘要

虽然最近的工作探索了频域作为分离稳定信号和噪声信号的透镜,但大多数方法依赖于静态滤波或重新加权,缺乏对频谱结构进行推理或适应特定模态可靠性的能力。

为了应对这些挑战,我们提出了一种用于频率感知多模态推荐的结构化谱推理(SSR)框架。

我们的方法遵循四阶段流程:

(i)通过图引导的变换将基于图的多模态信号分解为频带以隔离语义粒度;

(ii) 通过频带掩蔽来调制频带级可靠性,这是一种具有预测一致性目标的训练时掩蔽,可抑制脆性频率分量;

(iii) 使用高光谱推理与低阶跨频带交互融合互补频率线索;

(iv)通过对比正则化对齐特定模态的光谱特征,以促进语义和结构的一致性。

引言

多模态推荐把协同交互与图像/文本一起用时,模态噪声、语义错位和冗余会沿用户–物品图传播被放大,导致表示不稳、冷启动效果差。现有空间域融合和许多频域滤波方法多是“拼接/静态重加权”,缺少频带级自适应调制与跨频带结构化推理来区分“信息频带”和“噪声频带”。

为了应对这些挑战,我们提出了用于频率感知多模态图推荐的结构化谱推理(SSR)。 SSR 采用四级管道,在共享频谱坐标系内分解、调制、融合和对齐信号。

为应对这些挑战,我们提出用于频率感知的多模态图推荐的结构化频谱推理(Structured Spectral Reasoning, SSR)。SSR 采用一个四阶段流程,在共享的频谱坐标系中对信号进行分解、调制、融合与对齐。基于这样的观察:频率映射能够揭示按频带划分的结构,从而同时捕捉协同语义与模态特有细节,我们将学习过程组织为围绕频带级操作与监督展开。不同于把频带当作静态特征或仅做轻度重加权,SSR 先把输入转换为频谱表示,再对其信息量与稳定性进行推理。

我们引入频带掩蔽(Spectral Band Masking, SBM):一种训练阶段的频带级扰动,并配合预测一致性目标,以降低对脆弱频带的依赖并提升性能保持度。我们还设计了与图结构兼容的超光谱算子(G-HSNO),通过紧凑的低秩参数化来建模跨频带与跨模态的依赖关系。此外,一个频谱对比目标在不增加推理开销的情况下,促进频带级跨模态一致性。总体而言,这些组件共同构成了一种连贯且高效的多模态图结构化频谱建模方法。

方法

在这里插入图片描述
图 1:我们提出的框架的总体架构。该模型遵循结构化的四阶段流程:(i)分解执行特定于模态的图小波变换以解开多频率分量; (ii) 调制应用频谱带掩蔽 (SBM),以任务自适应方式扰动和降低不可靠频带的权重; (iii) Fusion 利用低阶图超谱神经算子 (G-HSNO) 来推理跨频带和跨模式依赖关系; (iv) 对齐引入谱对比正则化 (SCR),以加强跨模态的语义一致性和谱鲁棒性。
0)输入是什么?(左侧)

系统有三种物品信息:ID 特征、图像特征、文本特征
作者先在用户–物品图上用 GCN/LightGCN 这类传播,得到每种模态各自的“协同表示”(也就是:带上了交互关系的表示)。1)Decomposition:先把信号按“频率”拆成三段(低/中/高频)

你可以把“频率”理解成:这个信号在图上变化得快不快低频:变化慢、更平滑,通常更像“稳定的总体偏好/大众趋势”。高频:变化快、更尖锐,通常更像“细节差异”,但也更可能是噪声。

所以作者把每个模态的图信号做一次谱/小波变换,然后切成 Spectral Band1/2/3,对应低/中/高频三份子信号。2)Modulation:用 SBM 训练时“随机遮掉某些频带”,逼模型别走偏

这一步的核心是 Spectral Band Masking (SBM)
做法很像数据增强,但增强对象不是像素或词,而是整段频带:训练时随机把某些频带置零(mask),得到一个“被扰动的频谱视图”。同时保留原来的全频输入。然后加一个一致性损失:要求 原输入的预测mask 后的预测 尽量一致(图里写的 LSBM=E∥f(x)−f(x~)∥2L_{SBM} = \mathbb{E}\|f(x)-f(\tilde x)\|^2LSBM​=E∥f(x)−f(x~)∥2)。

直觉很简单:
如果模型只依赖某个“脆弱频带”(比如高频噪声),一 mask 它预测就崩;一致性约束会逼模型学到更稳的证据组合。3)Fusion:用 G-HSNO 做“跨频带 + 跨模态”的结构化推理

前面你把每个模态都拆成了多个频带。接下来要解决两件事:频带之间怎么互相影响(低频和高频不是孤立的)。模态之间怎么互相补充(图像/文本/ID 怎么合到一起)。

作者用一个叫 Graph HyperSpectral Neural Operator (G-HSNO) 的模块来做这件事。
你可以把它想成:对每个频带 mmm,它会从所有其他频带 nnn“取信息”并加权汇总,得到新的 z(m)z^{(m)}z(m)。

图里那句就是:
z(m)=∑n=1MKmnx(n) z^{(m)}=\sum_{n=1}^{M} K_{mn}x^{(n)} z(m)=n=1∑M​Kmn​x(n)
区别在于:KmnK_{mn}Kmn​ 不是随便学的一个大矩阵,而是用 **低秩(CP 分解)**把参数压缩,避免太贵。

结果就是得到一个按频带组织的多模态表示(band-wise multimodal representation),同时它已经把“频带交互、模态交互、图结构”都考虑进去了。4)Alignment:用对比学习让不同模态在同一频带里“语义对齐”

最后作者加了 Spectral Contrastive Regularization (SCR)
你可以理解成:在同一个频带里,图像表示、文本表示、ID 表示应该表达“同层次”的语义。所以用 InfoNCE 做对比学习:把“同一物品同一频带的不同模态”拉近,把不匹配的拉远。它只在训练里起作用,推理时不额外增加开销(图里也强调了这一点)。5)预测与总损失(右上角)

预测就是用户向量和物品向量做内积再过 sigmoid:y^uv=σ(zu⊤zv)\hat y_{uv}=\sigma(z_u^\top z_v)y^​uv​=σ(zu⊤​zv​)。
总损失是三项加权和:LBCEL_{BCE}LBCE​:推荐的主任务损失LSBML_{SBM}LSBM​:mask 频带后的预测一致性LSCRL_{SCR}LSCR​:跨模态的频带级对比对齐

$$
L = L_{BCE}+\lambda L_{SBM}+\eta L_{SCR}
荐的主任务损失LSBML_{SBM}LSBM​:mask 频带后的预测一致性LSCRL_{SCR}LSCR​:跨模态的频带级对比对齐

L=LBCE+λLSBM+ηLSCR L = L_{BCE}+\lambda L_{SBM}+\eta L_{SCR} L=LBCE​+λLSBM​+ηLSCR​

Read more

【全网最详细!十万字解析】SpringAI+Deepseek大模型应用开发实战笔记-上半(进阶+详细+完整代码)

【全网最详细!十万字解析】SpringAI+Deepseek大模型应用开发实战笔记-上半(进阶+详细+完整代码)

前言         全网目前最完整的针对黑马程序员的SpringAI+Deepseek大模型应用课程的学习笔记         在课程的基础之上进行了许多的拓展和延伸         相信一定可以帮到你更好的学习和掌握大模型应用的开发和SpringAI的运用         希望觉得有用的小伙伴可以点赞收藏关注!!!         目前文章还剩一点没更新完,后续会把完整前后端开发好的代码传上去,现在因为还没有完全改好,怕涉及侵权文档,不敢直接发,后续我把前端也做一定修改之后,会打包一起分享出来        下半部分链接:【全网最详细!十万字解析】黑马SpringAI+Deepseek大模型应用开发实战笔记-下半(进阶+详细+完整代码)-ZEEKLOG博客        后端完整代码:GM828/HFUT-AIChat: SpringAI实战项目,实现了Prompt+FunctionCalling+RAG的功能,通过MySQL和Redis进行数据持久化操作 目录 前言 1.对话机器人 1.1对话机器人-初步实现 1.1.1引入依赖 1.1.2配置模型信息

扣子(Coze) Skills+OpenClaw 实战:零基础玩转AI智能体

最近龙虾太火了,但大家满怀期待地装好小龙虾,面对界面却无从下手,最后只能让这么强大的智能体在电脑里吃灰,甚至还要再花钱找人帮忙卸载。 同样部署了OpenClaw,为什么别人能用它提效工作、做账号,你的小龙虾却只会陪聊、不断失忆,最终空耗Token,白白烧光你的钱包? 答案很扎心:因为你的小龙虾,缺少最关键的核心武器——Skills(技能)! 当Agent装备上Skills,它会瞬间进化成能替你跑腿、帮你创收的“数字分身”! 别再让你的“小龙虾”在无效对话中白白浪费算力了。资深AI专家邢云阳倾力打造的新书《扣子(Coze) Skills+OpenClaw 实战:零基础玩转AI智能体》,将带你打通从“零基础部署”到“高阶应用”的全链路。 本书不仅教你用上龙虾,更手把手教你玩转Skills,让这只龙虾真正成为替你打工的超级利器! 看完这本书,AI真的会替你干活! ▼点击下方,即可购书 Part.1 什么是Skills? Skills是Anthropic专为Claude打造的模块化能力框架,现今已被众多大语言模型工具借鉴沿用。简单

让“小爱音箱PRO”智能起来:接入豆包AI

下面提供从 0 到 1 的完整流程,包含豆包 API 申请、MiGPT 部署、配置与使用,确保你能顺利让小爱音箱 Pro 用上豆包的强大能力。 一、准备工作(必做) 二、申请豆包 API 密钥(关键步骤) 豆包 API 需通过火山引擎方舟平台申请,以下是详细步骤: 1. 注册与实名认证 1. 访问火山引擎官网:https://www.volcengine.com/ 2. 注册账号并完成实名认证(个人 / 企业均可) 3. 登录后进入方舟大模型平台 2. 创建 API 密钥与推理接入点 1. 进入控制台 → API 密钥管理 → 点击 "

Kubernetes与AI推理服务最佳实践

Kubernetes与AI推理服务最佳实践 1. AI推理服务核心概念 1.1 什么是AI推理服务 AI推理服务是指将训练好的AI模型部署为可访问的服务,用于实时或批量处理推理请求。在Kubernetes环境中,AI推理服务需要考虑资源管理、性能优化和高可用性。 1.2 常见的AI推理框架 * TensorFlow Serving:Google开源的机器学习模型服务框架 * TorchServe:PyTorch官方的模型服务框架 * ONNX Runtime:微软开源的跨平台推理引擎 * Triton Inference Server:NVIDIA开源的高性能推理服务器 2. GPU资源管理 2.1 安装GPU驱动和NVIDIA Device Plugin # 安装NVIDIA驱动(在节点上执行) apt-get install -y nvidia-driver-535 # 安装NVIDIA Device Plugin kubectl apply -f https://raw.githubusercontent.com/NVIDIA/