ThyGPT 多模态大模型：甲状腺结节活检率降低 40%+ 研究解析

引言

甲状腺结节是成人高发的内分泌疾病，患病率超 60%，且女性发病率是男性的 3 倍。尽管多数结节为良性（仅 7-15% 恶性），但临床诊断中，超声依赖放射科医生经验、细针穿刺（FNA）仍有 15% 不确定性，导致过度诊疗问题突出 —— 不必要的活检或手术不仅给患者带来身心创伤，还大幅增加医疗支出。

传统 AI 辅助诊断（CAD）模型虽能分析超声图像，却因'黑箱特性'（无法解释决策依据）和'沉默特性'（仅输出分数/标签无交互），难以被临床接纳。为此，中国团队研发了甲状腺结节多模态生成式预训练模型（ThyGPT），首次提出 AIGC-CAD 概念，通过自然语言交互实现透明诊断，助力医生降低活检率、减少漏诊，为甲状腺结节诊疗提供新范式。

基本信息

![图片]

文章标题：Multimodal GPT model for assisting thyroid nodule diagnosis and management
期刊：npj Digital Medicine
影响因子：IF=15.1
发表时间：2025 年 5 月 3 日
研究单位：浙江肿瘤医院、浙江大学、浙江中医药大学附属第一医院等 9 家中国医院/科研机构（多中心联合研究）
数据集：
1. 总样本：59,406 例甲状腺结节患者，覆盖 9 家医院
2. 图像数据：511,620 张超声图像（来自 65 台不同品牌超声设备）
3. 文本数据：49,733 份超声报告、11 份甲状腺结节诊断指南
4. 验证集：2 个独立测试集（测试集 1：2964 患者 3376 结节，含病理结果；测试集 2：1263 份报告，含 157 份错误报告）
代码地址：https://github.com/seista131/ThyGPT
论文地址：https://www.nature.com/articles/s41746-025-01652-9

研究背景与意义

临床中，甲状腺结节的风险评估依赖**超声（US）和细针穿刺活检（FNA）**两大手段，但存在明显痛点：

诊断主观性强：超声结果高度依赖医生经验，不同医生对同一结节的判断可能差异显著；
FNA 局限性：约 15% 结节经 FNA 后仍无法确定良恶性，导致'过度活检'（良性结节也穿刺）或'漏诊'（恶性结节未穿刺）；
传统 CAD 瓶颈：现有模型仅能提取图像特征输出分数，医生无法知晓'模型为何这么判'，且无交互能力 —— 若模型出错（如 AI 幻觉），医生难以识别，最终导致多数医院放弃使用 CAD。

这些问题直接引发过度诊疗危机：据统计，全球每年有大量良性甲状腺结节患者接受不必要的穿刺或手术，仅中国每年因此产生的额外医疗支出超 10 亿元。因此，研发透明、可交互、高精准的 AI 辅助工具，成为解决甲状腺结节诊疗痛点的关键。

研究内容与方法

ThyGPT 的核心设计围绕'多模态融合 + 临床实用性'展开，从数据集构建、网络结构到训练方法，均贴合真实临床场景。

数据集构建（多中心 + 分层验证）

为确保模型泛化性，团队设计了'1 个训练集 + 2 个独立测试集'，覆盖不同医院、设备和临床场景，详细信息如下：

数据集类型	来源医院	样本量	核心用途	关键特征
训练集	中心 1-4	56,285 例患者；487,246 张超声图；48,470 份报告；11 份指南	模型训练与参数优化	含完整病理结果、标准化图像标注（结节边界、回声、钙化等）
测试集 1	中心 5-8	2964 例患者；3376 个结节（1601 个恶性）	评估诊断准确率与活检减少效果	所有结节均有手术病理结果（金标准），可验证漏诊/误诊率
测试集 2	中心 5+9	1263 份超声报告（157 份含错误）	评估报告错误检测能力	错误分 5 类：遗漏（35 例）、插入（30 例）、侧别混淆（33 例）、不一致（36 例）、其他（23 例）

数据预处理细节：

图像标注：由 2 名 10 年以上经验的超声科医生用 Labelme 工具手动标注结节边界、钙化区等语义特征，确保标注一致性；
图像标准化：所有超声图 resize 至 224×224 像素（保持原比例防失真），像素强度归一化至 [0,1]，再标准化为均值 0、标准差 1，消除设备参数差异影响；
数据增强：为提升模型鲁棒性，采用多策略增强：
- 几何变换：旋转 ±10°、随机裁剪（保留≥85% 结节区域）、缩放 80-120%；
- 强度变换：亮度 ±15%、对比度 ±10%、添加高斯噪声（σ=0.01），模拟真实成像差异

![图片]

网络结构（多模态 Transformer+LLaMA3 基础）

ThyGPT 以LLaMA3 大模型为基础框架，融合 Transformer 多头部自注意力机制，实现'超声图像 + 文本（报告/指南）+ 病理结果'的跨模态理解，结构分为 3 大模块：

1. 输入嵌入模块（多模态融合入口）

图像嵌入：超声图像经卷积层提取视觉特征后，通过线性映射转化为与文本 token 维度一致的向量；
文本嵌入：超声报告、诊断指南等文本经 LLaMA3 的 tokenizer 处理，生成文本向量；
跨模态对齐：通过注意力机制将图像向量与文本向量融合，建立'图像特征 - 文字描述'的语义关联（如'钙化'在图像中的位置与报告中'存在微钙化'的对应）。

2. 核心推理模块（诊断与解释生成）

多头部自注意力：并行计算不同维度的特征权重（如结节边界、回声、钙化对恶性风险的贡献），输出可解释的特征重要性；
生成式解码器：基于融合特征生成自然语言诊断结果，包括：
- 恶性风险评分（0-1 分）；
- 关键特征分析（如'75% 恶性风险来自结节边缘，19% 来自点状钙化'）；
- 指南依据（如'符合 ACR TI-RADS 4 类标准'）。

3. 交互反馈模块（医生 - 模型对话）

支持医生通过自然语言提问获取细节，例如：

医生提问：'为何判断该结节为恶性？'

模型回复：'基于超声图像中结节边界不清、存在微钙化，结合病理数据库中相似案例的恶性率 92%，故给出 0.83 的恶性评分'。

![图片]

训练方法（两阶段训练 + 临床规则融入）

1. 第一阶段：预训练（特征学习）

数据输入：训练集的超声图像、报告、指南文本；
目标函数：交叉熵损失（匹配图像特征与文本描述的一致性）+ 均方误差（优化恶性风险评分与病理结果的偏差）；
训练参数：批次大小 32，学习率 2.5×10⁻⁷，余弦退火调度，训练步数 1500。

2. 第二阶段：微调（临床适配）

数据输入：带病理结果的结节样本（确保评分与真实恶性率对齐）；
融入临床规则：将 ACR TI-RADS 等指南中的分类标准转化为约束条件（如'存在微钙化则 TI-RADS 类别不低于 4 类'）；
目标函数：新增'临床一致性损失'，惩罚与指南冲突的输出；
训练参数：冻结预训练模型的底层参数，仅微调解码器，学习率 1×10⁻⁴，训练步数 3000。

3. 评估方法

采用临床常用指标评估性能：

诊断准确性：AUC（ROC 曲线下面积）、灵敏度（TPR）、特异度（TNR）、阳性预测值（PPV）、阴性预测值（NPV）；
临床价值：活检率降低比例、漏诊率变化；
纠错能力：错误检测率、处理速度（与人类医生对比）。

实验结果分析

ThyGPT 的实验验证围绕'辅助诊断'和'报告纠错'两大核心功能展开，结果均通过独立测试集验证，且具有统计学显著性（p<0.001）。

辅助诊断：医生准确率大幅提升，活检率降 40%+

1. 放射科医生诊断性能提升

对比'无辅助''传统热图辅助''ThyGPT 辅助'三种场景，6 名医生（3 名初级：<5 年经验；3 名高级：>10 年经验）的诊断能力显著提升：

评估指标	无辅助（平均）	热图辅助（平均）	ThyGPT 辅助（平均）	p 值
AUC	0.805	0.848	0.908	<0.001
灵敏度（TPR）	0.802	0.827	0.893	0.030
特异度（TNR）	0.809	0.868	0.922	<0.001
正确改变率	-	-	10.5%	-
错误改变率	-	-	0.2%	-

分层差异：初级医生诊断改变率（11.5%）高于高级医生（9.9%），说明 ThyGPT 对经验不足的医生辅助价值更显著；

关键突破：ThyGPT 辅助下，高级医生 AUC 达 0.916，初级医生达 0.899，接近高级医生无辅助水平，缩小了不同经验医生的诊断差距。

![图片]

2. 减少不必要活检，降低漏诊率

基于 ThyGPT 的恶性风险评分，团队设计了临床决策规则：

高 PPV 结节（评分 > 0.7，PPV>0.96）：可跳过 FNA 直接考虑手术；
中风险结节（0.3≤评分≤0.7）：结合 ACR 指南决定是否 FNA；
高 NPV 结节（评分 <0.3，NPV>0.975）：仅随访，无需 FNA。

应用该规则后，测试集 1 的活检率从64.2% 降至 23.3%（减少超 40%），而恶性结节漏诊率从11.6% 降至 5.3%，实现'减少创伤'与'保障精准'的平衡。

![图片]

报告纠错：速度比人快 1610 倍，错误检测率 90.5%

测试集 2 中，ThyGPT 与 3 名初级、3 名高级医生的报告错误检测能力对比：

错误检测率：ThyGPT 达 90.5%（142/157 例错误），显著高于医生平均水平（76.4%）；
医生 + ThyGPT：医生错误检测率提升至 96.2%（151/157 例），接近完美；
处理速度：ThyGPT 平均每报告处理时间 0.031 秒，医生平均 49.9 秒，速度提升1610 倍；

错误类型适配：对'侧别混淆'（如左甲状腺写成右）错误检测率 100%，对'特征不一致'（报告说无钙化但图像有钙化）检测率 89.2%。

![图片]

亚型识别挑战：FTC 最难诊断，小结节漏诊率高

尽管整体性能优异，ThyGPT 在特定结节亚型上仍有局限：

恶性亚型差异：滤泡状甲状腺癌（FTC）漏诊率最高 —— 医生漏诊 44.7%，ThyGPT 漏诊 17.0%，虽优于医生但仍需优化；
小结节问题：直径 < 10mm 的结节（尤其 ACR TR3 类）漏诊率高于大结节，主要因小结节特征不明显（如钙化、边界模糊难以识别）。

优势与局限

优势

透明可解释：通过自然语言交互输出诊断依据（如'恶性风险来自边缘特征'），解决传统 CAD'黑箱'问题，提升医生信任度；
临床价值落地：同时实现'降活检率'和'提准确率'，直接减少患者创伤与医疗支出，符合临床需求；
多场景适配：支持多语言（p=0.816）、兼容 65 台不同超声设备，可在不同地区、不同级别医院推广；
人机协作优化：不替代医生，而是作为

ThyGPT 多模态大模型：甲状腺结节活检率降低 40%+ 研究解析

引言

基本信息

研究背景与意义

研究内容与方法

数据集构建（多中心 + 分层验证）

网络结构（多模态 Transformer+LLaMA3 基础）

1. 输入嵌入模块（多模态融合入口）

2. 核心推理模块（诊断与解释生成）

3. 交互反馈模块（医生 - 模型对话）

训练方法（两阶段训练 + 临床规则融入）

1. 第一阶段：预训练（特征学习）

2. 第二阶段：微调（临床适配）

3. 评估方法

实验结果分析

辅助诊断：医生准确率大幅提升，活检率降 40%+

1. 放射科医生诊断性能提升

2. 减少不必要活检，降低漏诊率

报告纠错：速度比人快 1610 倍，错误检测率 90.5%

亚型识别挑战：FTC 最难诊断，小结节漏诊率高

优势与局限

优势

更多推荐文章

相关免费在线工具

ThyGPT 多模态大模型：甲状腺结节活检率降低 40%+ 研究解析

引言

基本信息

研究背景与意义

研究内容与方法

数据集构建（多中心 + 分层验证）

网络结构（多模态 Transformer+LLaMA3 基础）

1. 输入嵌入模块（多模态融合入口）

2. 核心推理模块（诊断与解释生成）

3. 交互反馈模块（医生 - 模型对话）

训练方法（两阶段训练 + 临床规则融入）

1. 第一阶段：预训练（特征学习）

2. 第二阶段：微调（临床适配）

3. 评估方法

实验结果分析

辅助诊断：医生准确率大幅提升，活检率降 40%+

1. 放射科医生诊断性能提升

2. 减少不必要活检，降低漏诊率

报告纠错：速度比人快 1610 倍，错误检测率 90.5%

亚型识别挑战：FTC 最难诊断，小结节漏诊率高

优势与局限

优势

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具