【论文阅读】Vision-skeleton dual-modality framework for generalizable assessment of Parkinson’s disease ga

优质文章学习记录

07 Apr 2026 — 10 min read

论文题目：《Vision-skeleton dual-modality framework for generalizable assessment of Parkinson’s disease gait》
论文链接：https://doi.org/10.1016/j.media.2025.103727
代码链接：https://github.com/FJNU-LWP/PD-gait-VSDF

视觉-骨架双模态框架：通过视频实现帕金森病步态的泛化评估

研究背景介绍

帕金森病评估与帕金森病评分量表（MDS-UPDRS）

帕金森病步态评估

研究内容

总体方法流程

关键点视觉 Transformer (KVT)

图像块嵌入 (Patches embedding)

位置与连接嵌入 (Positions and connections embedding)

关键点自注意力 (Keypoints Self-Attention, KSA)

骨架特征提取 (Skeleton features extraction)

时间融合编码器 (Temporal Fusion Encoder)

实验结果

结论

研究背景介绍

帕金森病评估与帕金森病评分量表（MDS-UPDRS）

步态评估在衡量帕金森病（PD）患者的病情严重程度中起着至关重要的作用。通过仔细观察和分析步态表现，医生可以深入了解帕金森病的进展，从而制定更精确的诊断和治疗方案。目前在临床实践中，被广泛接受的 PD 步态评估标准是基于 MDS-UPDRS（统一帕金森病评分量表）第三部分的内容。在评估过程中，患者必须遵守 MDS-UPDRS 中规定的测试协议，以准确捕捉其步态特征。这要求经过专业培训的评估人员仔细观察关键的步态指标，并对步态表现进行全面评估。然而，这种方法极其耗时，且需要大量的医疗资源。尽管评估人员具备专业培训和丰富经验，但主观性差异仍可能影响评分，引入了显著的主观性因素。因此，临床上迫切需要一种客观且精确的 PD 患者步态评估方法。近年来，许多研究探索了基于可穿戴传感器的各种自动化技术来量化 PD 患者的步态运动。然而，这些方法依赖于直接接触患者身体的传感器，不可避免地会影响 PD 患者的自然运动，这阻碍了它们在临床实践中的广泛采用。

帕金森病步态评估

随着计算机视觉技术的进步，基于视频的非接触式 PD 步态评估方法应运而生，克服了基于传感器方法的局限性。视频技术为 PD 评估提供了一种非接触、可扩展且无创的方法。近期的研究利用视频技术，辅以深度学习和人体姿态估计算法，来准确量化人体运动，证明了非接触式视频分析技术能够有效、快速地评估 PD 患者的步态。然而，目前大多数基于视频的方法仅仅依赖于在视频中通过人体姿态估计获取的骨架信息，而忽略了 PD 步态的视觉特征。而且，它们仅应用于单一录制视角的 PD 步态评估，展现出有限的泛化能力。此外，大多数现有的基于视频的方法依赖于光流或姿态估计等中层特征，这可能会在提取过程中丢弃原始 RGB 图像中的某些视觉信息。但是，直接使用视频中的全部 RGB 信息又会引入不必要的背景细节，并显著增加不必要的计算量。事实上，临床评估人员主要关注的是各个特定身体部位的状态。不仅如此，由于 PD 步态评估是一个综合的过程，除了局部视觉细节，如何有效地利用更宏观的骨架运动特征也值得进一步考量。

研究内容

总体方法流程

视觉-骨架双模态框架总体工作流程如下图所示。首先，通过人体姿态估计技术从步态视频中提取关键点的视觉信息和骨架信息。对于关键点视觉，模型将带有坐标信息的特征块输入到关键点视觉 Transformer（KVT）中以提取视觉特征。随后，模型将提取到的骨架运动特征与 KVT 提取的关键点视觉特征进行融合，并输入到时间融合编码器（Temporal Fusion Encoder）中，以进一步提取步态的时间动态特征。最后，最终的评估分数由一个多层感知器（MLP）头部输出。

关键点视觉 Transformer (KVT)

为了捕捉局部身体部位在行走时的视觉细节，作者设计了一种全新的 Transformer 模型来提取人体关键点的视觉特征（如下图所示）。

图像块嵌入 (Patches embedding)

模型并非将整张图片输入，而是围绕关键点提取短时间序列的帧序列图像块（如下图）。对于视频

，获取关键点局部视频块

后，使用 3D 卷积来提取反映短期变化的特征，从而生成关键点Tokens (KT)

。

位置与连接嵌入 (Positions and connections embedding)

考虑到关键点不仅具有绝对的坐标位置，关键点之间还存在物理结构上的连通性。该模型通过可学习的线性投影直接嵌入关键点坐标

，并与

拼接得到

：

随后，引入了基于关键点邻接矩阵

的邻接嵌入（Adjacency Embedding, AE）来表示身体各部位之间的连接信息：

最后，将 AE 加入到特征中，并在序列头部添加一个 CLS Token ：

关键点自注意力 (Keypoints Self-Attention, KSA)

如下图所示，输入数据首先通过线性投影转换为 Queries (Q), Keys (K), Values (V) ：

在 Transformer 的自注意力计算阶段，模型将上述的邻接嵌入（AE）融入其中，使得注意力权重的计算不仅基于特征相似度，还能充分考虑到人体关键点之间的物理连接性：

骨架特征提取 (Skeleton features extraction)

在获取了人类关键点的视觉特征后，模型采用经典的时空图卷积网络（ST-GCN）来提取 PD 步态的全局骨架特征。该部分将空间连接与时间维度相结合，能够从宏观角度提取人体行走的运动规律：

时间融合编码器 (Temporal Fusion Encoder)

对于同一时间段内提取到的“局部关键点视觉特征”与“全局骨架运动特征”，模型首先通过拼接（Concatenation）的方式进行特征融合

。为了提取整个视频的全局时间动态特性，融合后的特征序列被输入到时间融合编码器中，该编码器还加入了时间嵌入（Temporal Embeddings, TE）：

最后，评估分数由 MLP 头部计算输出：

实验结果

在作者的研究中，由于单独特征在不同评分等级上的表现存在差异，因此作者在实验部分首先进行了骨架运动与关键点视觉的消融实验。作者列举了所提框架中两个分支之间相互比较，该实验结果如下表：

由该结果可以看出，在双模态方法中，关键点视觉在非0评分的量化中表现比骨架运动更好。这表明关键点视觉能够更好地捕捉步态中细微特征的变化。此外，还可以看出双模态特征融合能有效提升对视频中PD步态的整体评估准确性。

此外，作者还比较了目前几种帕金森步态严重程度评估的方法。表明了本文提出的方法以视频方式在一个更多参与者的数据集中实现了更为准确的帕金森步态评估，并在更一般的录制条件下（Ours-2 跨视角）展现出了极其显著的泛化优势。

结论

该研究开创性地提出了一种用于评估 MDS-UPDRS 步态严重程度的视觉-骨架双模态深度学习框架。通过引入独特的关键点视觉 Transformer 以及时间融合编码器，该模型不仅有效弥补了传统骨架方法在微小视觉特征上的丢失，还显著提高了多类别评分的准确性。更重要的是，该模型在更一般化的跨视角监控数据上表现出了极高的鲁棒性，这为未来在家庭和社区环境中实现无约束的帕金森病远程监测与评估提供了极其可行的技术方案。

AI提示词：零基础入门与核心概念

AI提示词：零基础入门与核心概念 📝 本章学习目标：理解什么是提示词，掌握提示词的核心概念，建立正确的AI对话思维，为后续学习打下坚实基础。一、什么是提示词？ 1.1 提示词的定义提示词（Prompt），简单来说，就是你发给AI的指令或问题。它是人类与人工智能沟通的桥梁，是你告诉AI"我想要什么"的方式。想象一下，你雇佣了一位超级聪明但对你的需求一无所知的助手。这位助手知识渊博、能力强大，但它需要你清晰地告诉它要做什么。提示词就是你给这位助手的工作指令。 💡 核心认知：提示词不是简单的"提问"，而是一种结构化的指令设计。好的提示词能让AI精准理解你的意图，输出高质量的结果；糟糕的提示词则会让AI"答非所问"，浪费你的时间。 1.2 提示词的重要性为什么提示词如此重要？让我们通过一个对比来说明： ❌ 糟糕的提示词：帮我写点东西 ✅ 好的提示词：请帮我写一篇关于&

支持LoRA和QLoRA的LLama-Factory镜像已发布，轻松节省GPU算力成本

支持LoRA和QLoRA的LLama-Factory镜像已发布，轻松节省GPU算力成本在大模型时代，一个现实问题困扰着无数开发者：如何用有限的硬件资源微调动辄数十亿参数的语言模型？全参数微调虽然效果好，但一张A100显卡都未必扛得住。而如今，这个问题正在被彻底改写。随着LoRA与QLoRA技术的成熟，以及LLama-Factory这类集成化框架的推出，我们已经可以在单张RTX 3090上完成7B甚至13B级别模型的高效微调——这在过去几乎是不可想象的。更重要的是，整个过程不再需要编写复杂的训练脚本，非技术人员也能通过图形界面完成定制化训练。这一切的背后，是参数高效微调（PEFT）与量化技术的深度融合，也是开源社区对“普惠AI”的一次有力实践。 LoRA：让微调变得轻量而高效传统微调会更新模型中所有参数，以LLaMA-7B为例，约有67亿个可训练参数，光优化器状态就可能占用超过80GB显存。这种资源消耗对于大多数个人或中小企业来说是难以承受的。 LoRA（Low-Rank Adaptation）的出现改变了这一局面。它的核心思想非常巧妙：冻结原始权重，仅引入少量可训练

基于Whisper-large-v3的多语言翻译系统开发

基于Whisper-large-v3的多语言翻译系统开发想象一下这样的场景：一场国际线上会议正在进行，参会者来自世界各地，说着不同的语言。一位德国同事用德语发言，一位日本伙伴用日语提问，而你作为会议组织者，需要实时理解所有人的发言，并确保沟通顺畅。传统做法是雇佣多名翻译，成本高昂且响应延迟。现在，有了基于Whisper-large-v3构建的多语言翻译系统，这一切都可以自动化完成，而且成本只是传统方案的零头。本文将带你一步步构建这样一个系统，从语音识别到文本翻译，形成一个完整的流水线。无论你是想为跨国团队开发内部工具，还是想为内容平台添加多语言字幕功能，这套方案都能为你提供一个坚实的起点。 1. 为什么选择Whisper-large-v3？在开始动手之前，我们先聊聊为什么Whisper-large-v3是构建多语言翻译系统的理想选择。 Whisper-large-v3是OpenAI开源的语音识别模型，它最大的特点就是“多语言”和“高精度”。这个模型在超过100万小时的音频数据上训练过，支持99种语言的识别，包括英语、中文、法语、德语、日语、韩语等主流语言，甚至还能识别

从Obsidian App迁移到Obsidian.nvim：保留所有功能的无缝过渡方案

从Obsidian App迁移到Obsidian.nvim：保留所有功能的无缝过渡方案【免费下载链接】obsidian.nvimObsidian 🤝 Neovim 项目地址: https://gitcode.com/gh_mirrors/obs/obsidian.nvim Obsidian.nvim是一款将Obsidian的强大功能与Neovim的高效编辑体验完美结合的插件。如果你是Obsidian App的忠实用户，又想体验Neovim带来的极致编辑效率，本文将为你提供一份保留所有功能的无缝迁移指南，让你轻松过渡到Obsidian.nvim的世界。为什么选择Obsidian.nvim？ Obsidian.nvim不仅继承了Obsidian App的核心功能，还融入了Neovim的强大编辑能力。它支持双向链接、标签管理、每日笔记等Obsidian的标志性功能，同时提供了Vim快捷键、代码高亮、插件扩展等Neovim特有的优势。对于习惯使用Obsidian进行知识管理，又追求高效编辑体验的用户来说，Obsidian.nvim是理想的选择。准备工作：安装Obsidia

研究背景介绍

帕金森病评估与帕金森病评分量表（MDS-UPDRS）

帕金森病步态评估

研究内容

总体方法流程

关键点视觉 Transformer (KVT)

图像块嵌入 (Patches embedding)

位置与连接嵌入 (Positions and connections embedding)

关键点自注意力 (Keypoints Self-Attention, KSA)

骨架特征提取 (Skeleton features extraction)

时间融合编码器 (Temporal Fusion Encoder)

实验结果

结论

Read more

AI提示词：零基础入门与核心概念

支持LoRA和QLoRA的LLama-Factory镜像已发布，轻松节省GPU算力成本

基于Whisper-large-v3的多语言翻译系统开发

从Obsidian App迁移到Obsidian.nvim：保留所有功能的无缝过渡方案