【论文阅读】Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation

【论文阅读】Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation

用于频率自适应多模态推荐的结构化谱推理

摘要

虽然最近的工作探索了频域作为分离稳定信号和噪声信号的透镜,但大多数方法依赖于静态滤波或重新加权,缺乏对频谱结构进行推理或适应特定模态可靠性的能力。

为了应对这些挑战,我们提出了一种用于频率感知多模态推荐的结构化谱推理(SSR)框架。

我们的方法遵循四阶段流程:

(i)通过图引导的变换将基于图的多模态信号分解为频带以隔离语义粒度;

(ii) 通过频带掩蔽来调制频带级可靠性,这是一种具有预测一致性目标的训练时掩蔽,可抑制脆性频率分量;

(iii) 使用高光谱推理与低阶跨频带交互融合互补频率线索;

(iv)通过对比正则化对齐特定模态的光谱特征,以促进语义和结构的一致性。

引言

多模态推荐把协同交互与图像/文本一起用时,模态噪声、语义错位和冗余会沿用户–物品图传播被放大,导致表示不稳、冷启动效果差。现有空间域融合和许多频域滤波方法多是“拼接/静态重加权”,缺少频带级自适应调制与跨频带结构化推理来区分“信息频带”和“噪声频带”。

为了应对这些挑战,我们提出了用于频率感知多模态图推荐的结构化谱推理(SSR)。 SSR 采用四级管道,在共享频谱坐标系内分解、调制、融合和对齐信号。

为应对这些挑战,我们提出用于频率感知的多模态图推荐的结构化频谱推理(Structured Spectral Reasoning, SSR)。SSR 采用一个四阶段流程,在共享的频谱坐标系中对信号进行分解、调制、融合与对齐。基于这样的观察:频率映射能够揭示按频带划分的结构,从而同时捕捉协同语义与模态特有细节,我们将学习过程组织为围绕频带级操作与监督展开。不同于把频带当作静态特征或仅做轻度重加权,SSR 先把输入转换为频谱表示,再对其信息量与稳定性进行推理。

我们引入频带掩蔽(Spectral Band Masking, SBM):一种训练阶段的频带级扰动,并配合预测一致性目标,以降低对脆弱频带的依赖并提升性能保持度。我们还设计了与图结构兼容的超光谱算子(G-HSNO),通过紧凑的低秩参数化来建模跨频带与跨模态的依赖关系。此外,一个频谱对比目标在不增加推理开销的情况下,促进频带级跨模态一致性。总体而言,这些组件共同构成了一种连贯且高效的多模态图结构化频谱建模方法。

方法

在这里插入图片描述
图 1:我们提出的框架的总体架构。该模型遵循结构化的四阶段流程:(i)分解执行特定于模态的图小波变换以解开多频率分量; (ii) 调制应用频谱带掩蔽 (SBM),以任务自适应方式扰动和降低不可靠频带的权重; (iii) Fusion 利用低阶图超谱神经算子 (G-HSNO) 来推理跨频带和跨模式依赖关系; (iv) 对齐引入谱对比正则化 (SCR),以加强跨模态的语义一致性和谱鲁棒性。
0)输入是什么?(左侧)

系统有三种物品信息:ID 特征、图像特征、文本特征
作者先在用户–物品图上用 GCN/LightGCN 这类传播,得到每种模态各自的“协同表示”(也就是:带上了交互关系的表示)。1)Decomposition:先把信号按“频率”拆成三段(低/中/高频)

你可以把“频率”理解成:这个信号在图上变化得快不快低频:变化慢、更平滑,通常更像“稳定的总体偏好/大众趋势”。高频:变化快、更尖锐,通常更像“细节差异”,但也更可能是噪声。

所以作者把每个模态的图信号做一次谱/小波变换,然后切成 Spectral Band1/2/3,对应低/中/高频三份子信号。2)Modulation:用 SBM 训练时“随机遮掉某些频带”,逼模型别走偏

这一步的核心是 Spectral Band Masking (SBM)
做法很像数据增强,但增强对象不是像素或词,而是整段频带:训练时随机把某些频带置零(mask),得到一个“被扰动的频谱视图”。同时保留原来的全频输入。然后加一个一致性损失:要求 原输入的预测mask 后的预测 尽量一致(图里写的 LSBM=E∥f(x)−f(x~)∥2L_{SBM} = \mathbb{E}\|f(x)-f(\tilde x)\|^2LSBM​=E∥f(x)−f(x~)∥2)。

直觉很简单:
如果模型只依赖某个“脆弱频带”(比如高频噪声),一 mask 它预测就崩;一致性约束会逼模型学到更稳的证据组合。3)Fusion:用 G-HSNO 做“跨频带 + 跨模态”的结构化推理

前面你把每个模态都拆成了多个频带。接下来要解决两件事:频带之间怎么互相影响(低频和高频不是孤立的)。模态之间怎么互相补充(图像/文本/ID 怎么合到一起)。

作者用一个叫 Graph HyperSpectral Neural Operator (G-HSNO) 的模块来做这件事。
你可以把它想成:对每个频带 mmm,它会从所有其他频带 nnn“取信息”并加权汇总,得到新的 z(m)z^{(m)}z(m)。

图里那句就是:
z(m)=∑n=1MKmnx(n) z^{(m)}=\sum_{n=1}^{M} K_{mn}x^{(n)} z(m)=n=1∑M​Kmn​x(n)
区别在于:KmnK_{mn}Kmn​ 不是随便学的一个大矩阵,而是用 **低秩(CP 分解)**把参数压缩,避免太贵。

结果就是得到一个按频带组织的多模态表示(band-wise multimodal representation),同时它已经把“频带交互、模态交互、图结构”都考虑进去了。4)Alignment:用对比学习让不同模态在同一频带里“语义对齐”

最后作者加了 Spectral Contrastive Regularization (SCR)
你可以理解成:在同一个频带里,图像表示、文本表示、ID 表示应该表达“同层次”的语义。所以用 InfoNCE 做对比学习:把“同一物品同一频带的不同模态”拉近,把不匹配的拉远。它只在训练里起作用,推理时不额外增加开销(图里也强调了这一点)。5)预测与总损失(右上角)

预测就是用户向量和物品向量做内积再过 sigmoid:y^uv=σ(zu⊤zv)\hat y_{uv}=\sigma(z_u^\top z_v)y^​uv​=σ(zu⊤​zv​)。
总损失是三项加权和:LBCEL_{BCE}LBCE​:推荐的主任务损失LSBML_{SBM}LSBM​:mask 频带后的预测一致性LSCRL_{SCR}LSCR​:跨模态的频带级对比对齐

$$
L = L_{BCE}+\lambda L_{SBM}+\eta L_{SCR}
荐的主任务损失LSBML_{SBM}LSBM​:mask 频带后的预测一致性LSCRL_{SCR}LSCR​:跨模态的频带级对比对齐

L=LBCE+λLSBM+ηLSCR L = L_{BCE}+\lambda L_{SBM}+\eta L_{SCR} L=LBCE​+λLSBM​+ηLSCR​

Read more

当AI绘画遇上风格翻译:SDXL Prompt Styler如何破解创作失控难题

当AI绘画遇上风格翻译:SDXL Prompt Styler如何破解创作失控难题 【免费下载链接】sdxl_prompt_styler 项目地址: https://gitcode.com/gh_mirrors/sd/sdxl_prompt_styler 为什么同样的"未来主义建筑"提示词,有人能生成杂志级渲染图,而你得到的却是模糊不清的拼凑图像?在AI绘画的世界里,业余爱好者与专业创作者之间隔着一道看不见的鸿沟——这道鸿沟并非来自创意差异,而是源于对提示词工程的掌握程度。SDXL Prompt Styler的出现,正在将这道鸿沟转化为通途,让每个创作者都能获得专业级的风格控制能力。 创作困境:当灵感遭遇技术瓶颈 你是否经历过这样的创作挫折:脑海中清晰的画面,却无法通过文字准确传达给AI?输入"梦幻森林",得到的可能是色彩俗艳的儿童插画;尝试"赛博朋克城市",结果却是元素堆砌的混乱场景。这种&

【 AR眼镜】核心技术详解:硬件架构、核心算法、应用场景与发展趋势

【 AR眼镜】核心技术详解:硬件架构、核心算法、应用场景与发展趋势

文章目录 * 目录 * 引言 * 一、AI眼镜核心硬件架构 * 二、AI眼镜核心技术栈(软件+算法) * 2.1 环境感知技术(核心:计算机视觉) * 2.2 AI计算技术(核心:边缘智能) * 2.3 人机交互技术(核心:自然交互) * 三、AI眼镜软件生态与应用场景 * 3.1 软件生态架构 * 3.2 核心应用场景(行业+消费) * 四、AI眼镜关键技术挑战与解决方案 * 五、AI眼镜未来发展趋势 * 5.1 技术趋势 * 5.2 行业趋势 * 六、总结 目录 引言 若对您有帮助的话,请点赞收藏加关注哦,

1200PLC与爱普生机器人modbus_TCP通讯

1200PLC与爱普生机器人modbus_TCP通讯

1.前言 首先申明一下我的硬件信息 机器人:C4-A601S 控制器:RC700 PLC:西门子S7-1200(CPU:1217C/DC/DC/DC) 2.控制器IP地址查看及修改 在配置控制器相关信息时需要先用网线连接PC与机器人控制器连接,爱普生机器人出厂设定网址为192.168.0.1(我这里是之前修改过了) 若默认没有显示以太网连接,点击右侧的增加,选择“通过以太网连接到控制器”后点击确定 如果控制器网址被修改过了,不知道是多少,可以用一根PC线,一头接在控制器的“开发用PC连接专用USB端口”另一头接在电脑USB口 这时候再在通讯处选择USB连接就可以通上了 现在就可以在“系统配置”处看到控制器的IP地址以及相关信息了,如果有需要也可以直接在这修改IP地址。 3.机器人控制器配置 网线连接好后开始配置通讯相关信息 1.控制设备 控制设备修改为远程I/O 2.现场总线 现场总线类型修改为“Modbus TCP”

AI无人机赋能乡村道路管护构建智慧交通的“最后一公里“新范式,基于YOLOv8全系列【n/s/m/l/x】参数模型开发构建公共交通道路场景下路面缺陷病害智能化检测预警系统

AI无人机赋能乡村道路管护构建智慧交通的“最后一公里“新范式,基于YOLOv8全系列【n/s/m/l/x】参数模型开发构建公共交通道路场景下路面缺陷病害智能化检测预警系统

在乡村振兴战略的推进过程中,"村村通"工程作为连接城乡的重要纽带,已实现全国98%以上的行政村通硬化路。然而,随着农村公路里程的快速增长,传统人工巡检模式逐渐暴露出效率低、覆盖难、响应慢等痛点。当AI技术遇上低空无人机,一场乡村道路管护的智能化革命正在悄然发生,为破解农村交通治理难题提供了创新方案。 一、传统巡检之困:乡村道路管护的"阿喀琉斯之踵" 农村公路具有"点多、线长、面广"的典型特征,全国农村公路总里程已突破450万公里。传统人工巡检模式下,养护队伍需定期徒步或驾车巡查,日均巡检里程不足20公里,且受地形限制,桥梁涵洞、临水临崖等特殊路段存在巡检盲区。某农业大省调研显示,农村公路病害发现平均滞后周期达47天,裂缝发展成坑槽的比例高达63%,直接导致养护成本增加3-5倍。 更严峻的是,农村地区技术人才短缺,巡检人员平均年龄超过50岁,对裂缝宽度、沉陷深度等关键指标的判断依赖经验,数据记录仍采用纸质台账,难以实现病害发展的动态追踪。这种"被动式"