大模型踏入医疗行业与人类医生一较高下时,它能达到什么水平?
就在最近,医学顶刊 BMJ 便给出了这样一个结论:
在遵循公认的临床抑郁症治疗标准方面,先进大模型可能比医生要强!
从研究结果上来看,大语言模型(LLM)在轻度和重度抑郁症治疗方面,已经达到了公认的治疗标准。
不仅如此,它们还不会被患者的外在因素所影响(包括性别、社会阶层等等),这就比人类初级医生还要强上一点。
这是否就意味着类 LLM 选手们现在可以'持证上岗'了呢?
非也,非也。
考虑到抑郁症治疗的持续性和患者病情的多样性,这项研究认为,真正的治疗过程还是需要人类医生来进行。
不过研究同样指出,LLM 对于现阶段医疗可以起到辅助决策的帮助:
有可能加强初级卫生保健的决策,提高精神卫生服务的质量和公正性。
毕竟自从 LLM 热潮以来,包括谷歌在内的众多 AI 玩家,都致力于推动其在医学领域中的作用。
甚至像'男孩阅医无数,最后竟被 AI 成功诊出病因'这样的新闻也是频频被曝出。
那么问题来了——LLM 在现实中的医疗领域,到底走到了哪一步?
LLM,已然深扎医疗
一直以来,医疗行业都被视为 AI 落地的重要领域。
在深度学习浪潮刚刚兴起之时,深度学习三巨头之一 Hinton 就说出了名言:
5 年内 AI 可以取代放射科医生。
尽管这个表达有些激进,但它揭露了一个事实,至少在科研层面,AI 和医疗的结合是非常被看好的。
在过去一段时间以来,AI 医疗场景不断开拓,比如利用 CV 算法识别病灶、检测心电图等。科技巨头们都紧跟趋势,如微软、谷歌、IBM 等都在持续投入资金,推进 AI 医疗落地。
尤其在 ChatGPT 趋势到来以后,LLM 更强的学习能力、更好的迁移能力以及更深的理解能力,都为 AI 医疗落地打开新局面。
而且这会是一个很确定的趋势,因为技术、应用落地和行业发展都准备好了。
首先技术方面,今年是大模型爆发的一年,目前国内已经形成'百模大战'格局。
诸多大模型厂商都主打 To B 路线,正在加速推动大模型在各个行业的应用。还有一些厂商直接推出面向医疗的行业大模型,所以对于医疗领域而言,当下是不缺'模'的。
其次,大模型和医疗领域也天生非常契合。
在常见的问诊、病历生成、患者病史分析等场景,都需要医生基于历史信息进行整合总结、分析判断,这正是大模型的长项。
比如利用大模型的总结摘要能力,可以快速对多类数据进行总结并形成摘要,帮医生完成繁琐、重复性高的工作,提升效率。
并且实际落地上,只需以基座大模型为底,应用专业医疗数据训练,就能得到一个强大的医疗大模型,这能从根本上加速 AI 医疗落地。还能在一个系统中集成多个子模型,即可快速覆盖更多场景。
再来看行业发展方面,以国内情况为例,数字化医疗、AI 医疗逐渐发展为一个独立赛道,玩家们利用数据分析、自然语言处理(NLP)、结构化数据等技术,已经成功将 AI 引入临床诊断决策、病例数据管理等。
简单理解,这是一个能优化医院看诊、决策、预警、管理等方面的智能应用,核心目标就是让医院数字化系统运行更加丝滑流畅,提高医生诊疗效率。
它主要融入了 PDCA 过程管理和 CDSS(临床决策支持系统)。利用机器学习、深度学习、大数据挖掘等技术,可以智能识别分析病历文书、LIS/RIS 报告等患者完整病历数据;为医院构建专门的医学知识库;给医生、医技、护士、管理方提供实时智能参考与建议。
综上,医疗大模型应用落地路径已经比较明确。但是落地的过程却没有想象中的那般容易。
医疗大模型落地,怎么解?
AI 大模型与医疗结合,首先需要保障患者的数据安全。
有学者表示,医院的数据,具有协同与共享需求大、敏感信息多、数据价值高等特点,各种因素导致的攻击、泄露都可能给医院带来不可估量的损失。为此,医院需要建立数据管理制度,这其中,一方面要解决数据资产的梳理、纳管,以及医院数据的分类分级;另一方面,还要针对医院不同数据场景需求的数据安全管控、监测规范和数据合规使用的流程,将技术与管理流程相结合。
'此外,基于医院有大量工作需要依托数据开展以及监管部门的紧急数据上报任务等,相关部门的协同尤为重要;而数据共享的风险监测、脱敏保护、合规使用等,也需要从技术保障层面给予数据安全一定助力。'
现阶段,医疗健康领域各责任主体按照《'十四五'全民健康信息化规划》《国家健康医疗大数据标准、安全和服务管理办法(试行)》等文件的要求,推进数据应用服务及安全管理。
其次,AI 大模型与医疗的结合的优劣,还需纳入相关标准。有学者表示,评价维度涉及多方内容,首先,应该重点关注不同的医疗场景下大模型的精度、准确性,通过行业测试问题集,结合医生评价,对大模型实际应用结果进行评估验证。
其次,应关注个人信息保护和数据安全,针对数据采集、预处理、使用及管理提出全流程的规范化要求,并围绕内容可靠性、内容合规性及价值观对齐三方面,确保生成内容的安全可靠。最后,大模型的可扩展性、鲁棒性也是评价大模型服务能力的关键点。


