ThyGPT 多模态大模型:甲状腺结节活检率降低 40%+ 研究解析
介绍 ThyGPT 多模态大模型,基于 LLaMA3 架构融合超声图像与文本数据。该模型在 npj Digital Medicine 发表,IF=15.1。研究显示,辅助医生诊断准确率提升,活检率降低超 40%,漏诊率下降。同时具备报告纠错功能,速度比人快 1610 倍。模型透明可解释,支持人机协作,但在特定亚型识别上仍有局限。

介绍 ThyGPT 多模态大模型,基于 LLaMA3 架构融合超声图像与文本数据。该模型在 npj Digital Medicine 发表,IF=15.1。研究显示,辅助医生诊断准确率提升,活检率降低超 40%,漏诊率下降。同时具备报告纠错功能,速度比人快 1610 倍。模型透明可解释,支持人机协作,但在特定亚型识别上仍有局限。

甲状腺结节是成人高发的内分泌疾病,患病率超 60%,且女性发病率是男性的 3 倍。尽管多数结节为良性(仅 7-15% 恶性),但临床诊断中,超声依赖放射科医生经验、细针穿刺(FNA)仍有 15% 不确定性,导致过度诊疗问题突出 —— 不必要的活检或手术不仅给患者带来身心创伤,还大幅增加医疗支出。
传统 AI 辅助诊断(CAD)模型虽能分析超声图像,却因'黑箱特性'(无法解释决策依据)和'沉默特性'(仅输出分数/标签无交互),难以被临床接纳。为此,中国团队研发了甲状腺结节多模态生成式预训练模型(ThyGPT),首次提出 AIGC-CAD 概念,通过自然语言交互实现透明诊断,助力医生降低活检率、减少漏诊,为甲状腺结节诊疗提供新范式。
![图片]
临床中,甲状腺结节的风险评估依赖**超声(US)和细针穿刺活检(FNA)**两大手段,但存在明显痛点:
这些问题直接引发过度诊疗危机:据统计,全球每年有大量良性甲状腺结节患者接受不必要的穿刺或手术,仅中国每年因此产生的额外医疗支出超 10 亿元。因此,研发透明、可交互、高精准的 AI 辅助工具,成为解决甲状腺结节诊疗痛点的关键。
ThyGPT 的核心设计围绕'多模态融合 + 临床实用性'展开,从数据集构建、网络结构到训练方法,均贴合真实临床场景。
为确保模型泛化性,团队设计了'1 个训练集 + 2 个独立测试集',覆盖不同医院、设备和临床场景,详细信息如下:
| 数据集类型 | 来源医院 | 样本量 | 核心用途 | 关键特征 |
|---|---|---|---|---|
| 训练集 | 中心 1-4 | 56,285 例患者;487,246 张超声图;48,470 份报告;11 份指南 | 模型训练与参数优化 | 含完整病理结果、标准化图像标注(结节边界、回声、钙化等) |
| 测试集 1 | 中心 5-8 | 2964 例患者;3376 个结节(1601 个恶性) | 评估诊断准确率与活检减少效果 | 所有结节均有手术病理结果(金标准),可验证漏诊/误诊率 |
| 测试集 2 | 中心 5+9 | 1263 份超声报告(157 份含错误) | 评估报告错误检测能力 | 错误分 5 类:遗漏(35 例)、插入(30 例)、侧别混淆(33 例)、不一致(36 例)、其他(23 例) |
数据预处理细节:
![图片]
ThyGPT 以LLaMA3 大模型为基础框架,融合 Transformer 多头部自注意力机制,实现'超声图像 + 文本(报告/指南)+ 病理结果'的跨模态理解,结构分为 3 大模块:
支持医生通过自然语言提问获取细节,例如:
模型回复:'基于超声图像中结节边界不清、存在微钙化,结合病理数据库中相似案例的恶性率 92%,故给出 0.83 的恶性评分'。
![图片]
![图片]
采用临床常用指标评估性能:
ThyGPT 的实验验证围绕'辅助诊断'和'报告纠错'两大核心功能展开,结果均通过独立测试集验证,且具有统计学显著性(p<0.001)。
对比'无辅助''传统热图辅助''ThyGPT 辅助'三种场景,6 名医生(3 名初级:<5 年经验;3 名高级:>10 年经验)的诊断能力显著提升:
| 评估指标 | 无辅助(平均) | 热图辅助(平均) | ThyGPT 辅助(平均) | p 值 |
|---|---|---|---|---|
| AUC | 0.805 | 0.848 | 0.908 | <0.001 |
| 灵敏度(TPR) | 0.802 | 0.827 | 0.893 | 0.030 |
| 特异度(TNR) | 0.809 | 0.868 | 0.922 | <0.001 |
| 正确改变率 | - | - | 10.5% | - |
| 错误改变率 | - | - | 0.2% | - |
关键突破:ThyGPT 辅助下,高级医生 AUC 达 0.916,初级医生达 0.899,接近高级医生无辅助水平,缩小了不同经验医生的诊断差距。
![图片]
基于 ThyGPT 的恶性风险评分,团队设计了临床决策规则:
应用该规则后,测试集 1 的活检率从64.2% 降至 23.3%(减少超 40%),而恶性结节漏诊率从11.6% 降至 5.3%,实现'减少创伤'与'保障精准'的平衡。
![图片]
测试集 2 中,ThyGPT 与 3 名初级、3 名高级医生的报告错误检测能力对比:
错误类型适配:对'侧别混淆'(如左甲状腺写成右)错误检测率 100%,对'特征不一致'(报告说无钙化但图像有钙化)检测率 89.2%。
![图片]
![图片]
尽管整体性能优异,ThyGPT 在特定结节亚型上仍有局限:

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online