论文笔记:OmniVTLA 视觉 - 触觉 - 语言 - 行动模型与语义对齐触觉感知
OmniVTLA 是一种引入触觉感知的视觉 - 语言 - 行动(VLA)模型架构。针对现有 VLA 忽视触觉的问题,该模型提出双路径触觉编码器框架,结合预训练 ViT 与语义对齐触觉 ViT(SA-ViT)。同时发布 ObjTac 数据集,包含 13.5 万条三模态样本。实验表明,OmniVTLA 在抓取与放置任务中成功率显著提升,夹爪达 96.9%,灵巧手达 100%,且轨迹更平滑。

OmniVTLA 是一种引入触觉感知的视觉 - 语言 - 行动(VLA)模型架构。针对现有 VLA 忽视触觉的问题,该模型提出双路径触觉编码器框架,结合预训练 ViT 与语义对齐触觉 ViT(SA-ViT)。同时发布 ObjTac 数据集,包含 13.5 万条三模态样本。实验表明,OmniVTLA 在抓取与放置任务中成功率显著提升,夹爪达 96.9%,灵巧手达 100%,且轨迹更平滑。

近来的视觉 - 语言 - 行动(VLA)模型建立在视觉 - 语言方法之上,已取得有前景的结果,并展现了在机器人操作任务上实现任务泛化的可能性。然而,由于触觉传感器的异质性以及触觉数据采集的困难,现有 VLA 模型显著忽视了触觉感知的重要性,并在接触密集型任务中表现不佳。为解决这一问题,本文提出 OmniVTLA,这是一种引入触觉感知的新型架构。
具体贡献如下:
真实环境实验显示,相比最新 VLA 基线方法,OmniVTLA 在抓取与放置任务中取得了显著提升:使用夹爪时成功率达 96.9%(较基线高 21.9%),使用灵巧手时成功率达 100%(较基线高 6.2%)。此外,借助触觉感知显著降低了任务完成时间,并生成更为平滑的运动轨迹。
触觉感知是人类灵巧度的基础,使人类能够以惊人的精度与适应性完成复杂任务。尽管视觉提供了全局空间上下文,触觉感知却具有互补优势:能够直接测量接触动力学(如压力分布、纹理),对视觉遮挡具有鲁棒性,并提供用于实时控制的高频反馈。
在机器人领域,视觉与触觉传感的融合已成为提升操作能力的一个前景方向。早期的工作侧重于小规模模型,将视觉与触觉特征结合用于特定任务。近期的视觉 - 语言 - 行动(VLA)模型正在变革机器人操作领域,利用大规模预训练的视觉 - 语言模型来解释自然语言指令与视觉观测。然而,这些模型主要依赖视觉与语言,忽视了触觉感知所提供的丰富语义与物理反馈。
为弥补这一差距,我们提出 OmniVTLA(视觉 - 触觉 - 语言 - 行动模型),一种将视觉、触觉与语言统一到共享语义空间的新型架构。VTLA 利用对比学习,将高分辨率触觉信号与视觉和语言概念进行对齐。具体而言,我们为触觉数据引入双编码器路径以应对异质性,分别采用预训练的视觉 Transformer(ViT)与语义对齐的触觉 ViT(SA-ViT)。其次,构建 ObjTac 数据集,采集文本、视觉与基于力的触觉数据。第三,利用跨传感器数据训练语义对齐的触觉编码器。
大量实验表明,VTLA 优于 VLA 基线方法。在抓取 - 放置任务中,VTLA 使夹爪的成功率提升 21.9% 至 96.9%,并使灵巧手的成功率提升 6.2% 至 100%。此外,VTLA 生成更为平滑的轨迹。
触觉感知的早期研究主要聚焦于处理低层物理信号(如力、振动、形变)以完成特定感知任务,例如抓取稳定性预测与打滑检测。最近的研究转向学习通用的触觉表征,以在任务、传感器与模态之间实现可迁移性。这些工作通过数据集构建、共享嵌入空间、可迁移架构以及统一建模框架,展示了跨模态对齐与可泛化表征对于触觉感知的重要性。尽管这些方法提升了触觉感知能力,但仍与动作策略生成相脱耦,限制了其在机器人实时控制中的适用性。此外,大多数现有工作采用基于视觉的触觉数据,而对同样在机器人策略学习中应用广泛的基于力的触觉数据关注不足。
视觉 - 触觉策略学习的最新进展在接触密集型操作中取得了显著突破。强化学习框架已有效地将视觉与触觉输入结合,用于装配任务与灵巧的手内操控。近来,领域内愈发采用模仿学习范式,以探索用于细粒度操作的视触觉表征与系统架构。尽管这些方法在特定任务上表现出色,但与视觉 - 语言 - 行动模型相比,其语义推理与泛化能力仍然有限。
VLA 模型已成为通用型机器人策略的一种强大范式。Brohan et al. 率先将机器人动作表示为语言 token,从而实现从网络级预训练的知识迁移。后续工作通过基于流或扩散的动作生成进一步扩展了这些能力。尽管 VLA 模型擅长开放世界的泛化,仅依赖视觉与语言也限制了其在需要精确物理交互的接触密集型任务中的表现。
新近的触觉增强方法通过基于语言的传感器融合、引入触觉的 VLA 学习以及低维的力感知控制来应对这些局限。然而,这些方法尚未充分探索触觉编码器的设计。我们的 OmniVTLA 框架通过统一的跨模态表征学习,为触觉建立双编码器路径,从而在根本上推动了这一范式的发展。
形式上,动作模型的目标是对分布 $p(\mathbf{A}_t|\mathbf{o}t)$ 建模,其中 $\mathbf{A}t= {a_t,a{t+1},\ldots,a{t+H-1}}$ 表示相应的动作序列,$\mathbf{o}_t$ 表示当前时刻的观测。对于典型的 VLA 模型,观测由若干 RGB 图像、语言提示以及机器人本体感觉状态组成,模型可形式化为:
$$o_t=\mathbf{M}_{\text{VLA}}(\mathbf{A}t|f{\phi}(\mathbf{I}_t^{i}),l_t)$$
其中 $\mathbf{I}_t^{i}$ 表示第 i 张图像,$l_t$ 是一串语言 token。通常,图像通过基于视觉 Transformer(ViT)的对比式图像编码器进行编码,并与文本 token 一起投射到潜在嵌入空间中。
同时,我们的 VTLA 模型目标是在输入中纳入触觉数据,如图 2 所示。VTLA 模型形式化如下:
$$o_t=\mathbf{M}_{\text{VTLA}}(\mathbf{A}t|f{\phi}(\mathbf{I}t^{i}),f{\theta}(\mathbf{T}_t^{j}),l_t)$$
其中 $\mathbf{T}_t^{j}$ 表示第 j 路触觉数据。直观地说,触觉数据可以重映射为张量,并用类似 ViT 的结构按图像编码器方式进行编码,但触觉数据的特性与视觉数据存在显著差异。
所提出的 OmniVTLA 构建于 $\pi_0$ 之上,由三个核心组件构成:分词器、骨干网络与动作头。分词器负责处理语言指令、图像观测及触觉观测,并将所有模态投射为潜在 token。
具体而言,对于包含第三人称视角与腕部视角的图像,我们将原始图像缩放至 224×224,每幅图像产生 256 个 token。对于触觉数据,我们将数据范围归一化为 int8,将多传感器输入拼接成单幅图像,并将缩放至 224×224 的输入送入类 ViT 编码器以生成 256 个 token。Gemma-2B 骨干网络处理串接后的 token 以生成动作 token;动作头依据 $\pi_0$ 使用 flow matching 损失进行训练以解码这些动作 token。
现有工作对触觉编码器的设计关注不足,主要因为存在两类异质性:(1)触觉与视觉数据之间的异质性;(2)不同触觉传感器之间的异质性。因此,值得探索四种不同的触觉编码器:
尽管已有工作探索了视觉式触觉传感器的统一表征,但它无法很好地泛化到基于力的触觉感知。为解决这一问题,我们构建了自有数据集 ObjTac,使文本、视频与基于力的触觉数据相互对齐。该数据集涵盖 10 类物体,并按表面粗糙度与材料硬度进行分类。
数据采集与处理流程:
为训练更好的语义对齐编码器,采用 AnyTouch 的第二阶段训练流程,以实现多模态与跨传感器对齐。总对齐损失公式如下:
$$\mathcal{L}{align}=\alpha{VL}* \frac{\mathcal{L}{V\to L}+\mathcal{L}{L\to V}}{2}+\alpha_{VT}* \frac{\mathcal{L}{V\to T}+\mathcal{L}{T\to V}}{2} +\alpha_{TL}* \frac{\mathcal{L}{T\to L}+\mathcal{L}{L\to T}}{2}$$
借助 ObjTac 数据集,这一语义对齐触觉编码器能更好地适配所用触觉传感器并对齐语义表征,从而将触觉信号锚定在视觉与语言语境中。
触觉信号在这个任务中的意义非常关键。我们可以从感知层面和控制层面两方面来看:
基线与训练细节:将 VTLA 模型与 Diffusion Policy(DP)作为非 VLM 基线,以 $\pi_0$ 作为 VLA 基线进行比较。
实现与任务设置:机器人系统包括 UR5 机械臂、带触觉传感器与腕部相机的夹爪、装有 11 个触觉传感器且配备腕部相机的灵巧手。在夹爪平台上对四种物体执行抓取—放置任务,在灵巧手平台上对两种物体执行相同任务。
评估指标:离线验证计算均方误差(MSE);真实环境评估采用成功率(SR)、完成时间(CT)及运动平滑度三项指标。
验证结果:基于遥操作驱动的验证数据进行的离线验证表明,OmniVTLA 在多种物体上均展现出更优的预测性能。OmniVTLA 在所有模型中取得最低的 MSE,平均为 $1.40\times10^{-4}$。结果表明,语义对齐(SA)触觉编码器能有效将触觉信号与视觉、语言线索融合。
真实环境结果:真实环境实验验证了在抓取—放置的接触场景中,OmniVTLA 优于 $\pi_0$ 与 DP 两种基线。
轨迹平滑度:触觉显著改善运动平滑度,SA 编码器取得最低的平均平滑度指标,较 VLA 基线降低 89.6%。这与'空域快行、接触逼近才减速'的直觉原则一致。
定性结果:VLA 模型常因接触感知不足而无法抬起目标;而 OmniVTLA 利用语义触觉线索稳定抓持并生成平滑轨迹。
我们提出 OmniVTLA——一种新的视觉 - 触觉 - 语言 - 行动模型,并给出一个与视觉和语言模态进行语义对齐的触觉编码器。我们提出双编码器路径以解决触觉数据的异质性问题。此外,我们构建了 ObjTac 数据集。实验结果表明,相比最新的 VLA 基线方法,我们取得了显著提升。未来工作将探索更复杂的任务、更高效的触觉表征,以及具有时间动态性的融合架构。
数据集物体清单:ObjTac 数据集共包含 10 个类别下的 56 种物体。
数据采集流程:包括触摸(Touch)与抓取(Grasp)两个过程。Touch 过程中记录指尖触觉传感器数据及精确时间戳,同步采集第一人称 RGB 视频。Grasp 过程旨在研究物体操作的动力学。
训练细节:各模型的训练细节见相关表格。
动作分片尺寸消融研究:在不同片段长度下,OmniVTLA 始终呈现最低的 MSE,突显其在处理序列动作依赖方面的鲁棒性。
动作轨迹对比:OmniVTLA 在触觉丰富的操作任务中具有明显优势,约减少 50% 的动作步数,显示出显著更高的操作效率。更重要的是,OmniVTLA 在整个过程中表现出更优的运动平滑性。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online