论文笔记：OmniVTLA 视觉 - 触觉 - 语言 - 行动模型与语义对齐触觉感知

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

摘要

近来的视觉 - 语言 - 行动（VLA）模型建立在视觉 - 语言方法之上，已取得有前景的结果，并展现了在机器人操作任务上实现任务泛化的可能性。然而，由于触觉传感器的异质性以及触觉数据采集的困难，现有 VLA 模型显著忽视了触觉感知的重要性，并在接触密集型任务中表现不佳。为解决这一问题，本文提出 OmniVTLA，这是一种引入触觉感知的新型架构。

具体贡献如下：

双路径触觉编码器框架：通过使用预训练的视觉 Transformer（ViT）与语义对齐的触觉 ViT（SA-ViT），提升了对多种视觉式与力觉式触觉传感器的感知能力。
ObjTac 数据集：基于力觉的综合触觉数据集，覆盖 10 个类别下的 56 种物体，包含 13.5 万条三模态样本。
语义对齐触觉编码器：训练统一的触觉表征，作为 OmniVTLA 更优的初始化。

真实环境实验显示，相比最新 VLA 基线方法，OmniVTLA 在抓取与放置任务中取得了显著提升：使用夹爪时成功率达 96.9%（较基线高 21.9%），使用灵巧手时成功率达 100%（较基线高 6.2%）。此外，借助触觉感知显著降低了任务完成时间，并生成更为平滑的运动轨迹。

引言

触觉感知是人类灵巧度的基础，使人类能够以惊人的精度与适应性完成复杂任务。尽管视觉提供了全局空间上下文，触觉感知却具有互补优势：能够直接测量接触动力学（如压力分布、纹理），对视觉遮挡具有鲁棒性，并提供用于实时控制的高频反馈。

在机器人领域，视觉与触觉传感的融合已成为提升操作能力的一个前景方向。早期的工作侧重于小规模模型，将视觉与触觉特征结合用于特定任务。近期的视觉 - 语言 - 行动（VLA）模型正在变革机器人操作领域，利用大规模预训练的视觉 - 语言模型来解释自然语言指令与视觉观测。然而，这些模型主要依赖视觉与语言，忽视了触觉感知所提供的丰富语义与物理反馈。

为弥补这一差距，我们提出 OmniVTLA（视觉 - 触觉 - 语言 - 行动模型），一种将视觉、触觉与语言统一到共享语义空间的新型架构。VTLA 利用对比学习，将高分辨率触觉信号与视觉和语言概念进行对齐。具体而言，我们为触觉数据引入双编码器路径以应对异质性，分别采用预训练的视觉 Transformer（ViT）与语义对齐的触觉 ViT（SA-ViT）。其次，构建 ObjTac 数据集，采集文本、视觉与基于力的触觉数据。第三，利用跨传感器数据训练语义对齐的触觉编码器。

大量实验表明，VTLA 优于 VLA 基线方法。在抓取 - 放置任务中，VTLA 使夹爪的成功率提升 21.9% 至 96.9%，并使灵巧手的成功率提升 6.2% 至 100%。此外，VTLA 生成更为平滑的轨迹。

方法

问题形式化

形式上，动作模型的目标是对分布 $p(\mathbf{A}_t|\mathbf{o}t)$ 建模，其中 $\mathbf{A}t= {a_t,a{t+1},\ldots,a{t+H-1}}$ 表示相应的动作序列，$\mathbf{o}_t$ 表示当前时刻的观测。对于典型的 VLA 模型，观测由若干 RGB 图像、语言提示以及机器人本体感觉状态组成，模型可形式化为：

$$o_t=\mathbf{M}_{\text{VLA}}(\mathbf{A}t|f{\phi}(\mathbf{I}_t^{i}),l_t)$$

其中 $\mathbf{I}_t^{i}$ 表示第 i 张图像，$l_t$ 是一串语言 token。通常，图像通过基于视觉 Transformer（ViT）的对比式图像编码器进行编码，并与文本 token 一起投射到潜在嵌入空间中。

同时，我们的 VTLA 模型目标是在输入中纳入触觉数据，如图 2 所示。VTLA 模型形式化如下：

$$o_t=\mathbf{M}_{\text{VTLA}}(\mathbf{A}t|f{\phi}(\mathbf{I}t^{i}),f{\theta}(\mathbf{T}_t^{j}),l_t)$$

其中 $\mathbf{T}_t^{j}$ 表示第 j 路触觉数据。直观地说，触觉数据可以重映射为张量，并用类似 ViT 的结构按图像编码器方式进行编码，但触觉数据的特性与视觉数据存在显著差异。

采用双编码器路径的整体架构

所提出的 OmniVTLA 构建于 $\pi_0$ 之上，由三个核心组件构成：分词器、骨干网络与动作头。分词器负责处理语言指令、图像观测及触觉观测，并将所有模态投射为潜在 token。

具体而言，对于包含第三人称视角与腕部视角的图像，我们将原始图像缩放至 224×224，每幅图像产生 256 个 token。对于触觉数据，我们将数据范围归一化为 int8，将多传感器输入拼接成单幅图像，并将缩放至 224×224 的输入送入类 ViT 编码器以生成 256 个 token。Gemma-2B 骨干网络处理串接后的 token 以生成动作 token；动作头依据 $\pi_0$ 使用 flow matching 损失进行训练以解码这些动作 token。

现有工作对触觉编码器的设计关注不足，主要因为存在两类异质性：（1）触觉与视觉数据之间的异质性；（2）不同触觉传感器之间的异质性。因此，值得探索四种不同的触觉编码器：

VTLA-FS：触觉编码器从零开始训练。
VTLA-Pre：触觉编码器由大规模数据集的预训练视觉编码器初始化。
VTLA-SA：触觉编码器先通过跨模态对比学习获得语义层面对齐，再微调。
OmniVTLA：双编码器路径，其中一路为 VTLA-Pre，另一路为 VTLA-SA。

语义对齐的触觉编码器

尽管已有工作探索了视觉式触觉传感器的统一表征，但它无法很好地泛化到基于力的触觉感知。为解决这一问题，我们构建了自有数据集 ObjTac，使文本、视频与基于力的触觉数据相互对齐。该数据集涵盖 10 类物体，并按表面粗糙度与材料硬度进行分类。

数据采集与处理流程：

对每个物体进行 2–5 次交互试验，每次持续 10–60 秒，共得到 270,000 条力觉数据记录。同时采集第一人称视觉视频。
为语言模态添加物体级标注，包括物体名称、材料类型等。
通过时间戳进行时间同步，以对齐视觉与触觉模态。

为训练更好的语义对齐编码器，采用 AnyTouch 的第二阶段训练流程，以实现多模态与跨传感器对齐。总对齐损失公式如下：

$$\mathcal{L}{align}=\alpha{VL}* \frac{\mathcal{L}{V\to L}+\mathcal{L}{L\to V}}{2}+\alpha_{VT}* \frac{\mathcal{L}{V\to T}+\mathcal{L}{T\to V}}{2} +\alpha_{TL}* \frac{\mathcal{L}{T\to L}+\mathcal{L}{L\to T}}{2}$$

借助 ObjTac 数据集，这一语义对齐触觉编码器能更好地适配所用触觉传感器并对齐语义表征，从而将触觉信号锚定在视觉与语言语境中。

实验

为什么要用触觉？

触觉信号在这个任务中的意义非常关键。我们可以从感知层面和控制层面两方面来看：

感知层面：视觉无法感知接触状态，特别是在遮挡或透明物体的场景中，视觉信息常常缺失；触觉传感器能直接感知到力的分布、接触面积、压力变化等物理信息，补足视觉的盲区。
控制层面：触觉提供实时的反馈信号，当夹爪接触物体时，触觉信号会突变；模型可以根据这种变化自动知道何时该减速、何时该停止闭合；因此能防止过夹或夹空。

实验设置

基线与训练细节：将 VTLA 模型与 Diffusion Policy（DP）作为非 VLM 基线，以 $\pi_0$ 作为 VLA 基线进行比较。

实现与任务设置：机器人系统包括 UR5 机械臂、带触觉传感器与腕部相机的夹爪、装有 11 个触觉传感器且配备腕部相机的灵巧手。在夹爪平台上对四种物体执行抓取—放置任务，在灵巧手平台上对两种物体执行相同任务。

评估指标：离线验证计算均方误差（MSE）；真实环境评估采用成功率（SR）、完成时间（CT）及运动平滑度三项指标。

评估结果

验证结果：基于遥操作驱动的验证数据进行的离线验证表明，OmniVTLA 在多种物体上均展现出更优的预测性能。OmniVTLA 在所有模型中取得最低的 MSE，平均为 $1.40\times10^{-4}$。结果表明，语义对齐（SA）触觉编码器能有效将触觉信号与视觉、语言线索融合。

真实环境结果：真实环境实验验证了在抓取—放置的接触场景中，OmniVTLA 优于 $\pi_0$ 与 DP 两种基线。

对于使用夹爪的 $\pi_0$，OmniVTLA 平均 SR 达到 96.9%，体现了双触觉解码器设计的优势。
对于采用四指灵巧手的 $\pi_0$，OmniVTLA 将 SR 提高 6.2% 至 100%。
对于 DP 基线，引入触觉后平均 SR 提升 18.7%。

轨迹平滑度：触觉显著改善运动平滑度，SA 编码器取得最低的平均平滑度指标，较 VLA 基线降低 89.6%。这与'空域快行、接触逼近才减速'的直觉原则一致。

定性结果：VLA 模型常因接触感知不足而无法抬起目标；而 OmniVTLA 利用语义触觉线索稳定抓持并生成平滑轨迹。

结论与未来工作

我们提出 OmniVTLA——一种新的视觉 - 触觉 - 语言 - 行动模型，并给出一个与视觉和语言模态进行语义对齐的触觉编码器。我们提出双编码器路径以解决触觉数据的异质性问题。此外，我们构建了 ObjTac 数据集。实验结果表明，相比最新的 VLA 基线方法，我们取得了显著提升。未来工作将探索更复杂的任务、更高效的触觉表征，以及具有时间动态性的融合架构。

附录

数据集与训练细节

数据集物体清单：ObjTac 数据集共包含 10 个类别下的 56 种物体。

数据采集流程：包括触摸（Touch）与抓取（Grasp）两个过程。Touch 过程中记录指尖触觉传感器数据及精确时间戳，同步采集第一人称 RGB 视频。Grasp 过程旨在研究物体操作的动力学。

训练细节：各模型的训练细节见相关表格。

论文笔记：OmniVTLA 视觉 - 触觉 - 语言 - 行动模型与语义对齐触觉感知

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

摘要

引言

相关工作

用于感知任务的触觉感知

面向操作的视觉 - 触觉融合

视觉 - 语言 - 行动模型

方法

问题形式化

采用双编码器路径的整体架构

语义对齐的触觉编码器

实验

为什么要用触觉？

实验设置

评估结果

结论与未来工作

附录

数据集与训练细节

更多结果

更多推荐文章

相关免费在线工具

论文笔记：OmniVTLA 视觉 - 触觉 - 语言 - 行动模型与语义对齐触觉感知

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

摘要

引言

相关工作

用于感知任务的触觉感知

面向操作的视觉 - 触觉融合

视觉 - 语言 - 行动模型

方法

问题形式化

采用双编码器路径的整体架构

语义对齐的触觉编码器

实验

为什么要用触觉？

实验设置

评估结果

结论与未来工作

附录

数据集与训练细节

更多结果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具