国内首个脑血管专病大模型亮相 对话参与医生:被AI“上了一课”
每经记者 林(lín)姿辰 每经编辑(jí) 张海妮
距离谷歌大模(mó)型(MedPaLM 2)拿(ná)下(xià)美国医(yī)学执照考试已经快(kuài)两(liǎng)年了,人工智能(AI)够资格成为临床医生的“假想敌”了吗?
今年7月,一篇(piān)发表于Nature Medicine的论(lùn)文显示,即使是目(mù)前最先进的大语言模型(LLM)也无(wú)法为(wèi)所(suǒ)有患者作出(chū)准确诊断,且 诊断正确率(73%)明显差于人类医生(89%);在极端(duān)情(qíng)况(胆囊炎诊断)下,LLM的正确率仅为(wèi)13%。
但(dàn)对于北京清华长庚医(yī)院神经中心医师邳(pī)靖陶来说,他今年(nián)刚被AI“上了一课”。8月下旬,邳靖陶参与的(de)灵犀医学脑(nǎo)血管病(bìng)专病大模(mó)型正式发布,该模型由其(qí)所在医(yī)院的神经(jīng)中心武剑教授团队主导研(yán)发,是国内首个基于(yú)专病的(de)医学人工智能模型。
“大模型的能力(lì)说强也(yě)强,说弱也(yě)弱(ruò),我们(men)不(bù)能让它天马行(xíng)空地自由发挥。”邳(pī)靖陶表示,专病大模型与ChatGPT的最大不同,是要将AI杜撰的似是而(ér)非的(de)诊疗建议扼杀在摇篮(lán)里,避免灾难性后(hòu)果。
8月下旬,灵犀医(yī)学脑血管(guǎn)病专病(bìng)大模型正式发布,该模型由北京清华长(zhǎng)庚(gēng)医院神经中心武剑教授团队主导研(yán)发,是(shì)国内首个基于专病的医学人工(gōng)智能模(mó)型(xíng)。图为灵犀医学大(dà)模型技术(shù)交流会(huì)现场。 受访者供图
对(duì)标专科和(hé)专病专家
作(zuò)为国内四大(dà)慢(màn)病(bìng)之一,脑血管病的首次发病者(zhě)约有三分之二是60岁以上(shàng)的(de)老年人,其具有“高发(fā)病率、高患病率、高死亡率、高复 发率”的特(tè)点(diǎn)。而截至2021年,我国(guó)65岁及以上的老年人口(kǒu)已经 超过2亿人,脑血管病医生短缺、水平参差不齐的问题尤为突出。
“基层医院不缺全(quán)科医生,但缺(quē)专 科专家或专病专(zhuān)家(jiā),这就是 大(dà)模型要解决(jué)的问题(tí)。”邳靖陶介绍,脑血管病专病大模型是医疗机构与科技(jì)企(qǐ)业的 合作产物。具体来说,新华三集团提供技(jì)术人员、AI算法和算力 ,北京清华长庚医院和清华大学提供大(dà)数据和临床需求,共(gòng)同打造一款面向临床医生的辅助(zhù)诊断(duàn)工具。
武(wǔ)剑教授曾表示(shì),医学人工智能在缓解医疗资源紧张和提升医疗服(fú)务水(shuǐ)平方面,具有巨大的潜力和(hé)优势。其核心在于对(duì)海量健康数(shù)据的(de)深度挖掘和智能分析,这能够大幅提升临床(chuáng)诊断和治疗(liáo)的准(zhǔn)确性(xìng)与效率。
目前,这个(gè)大模型的核心功能是分析和提取病历中的关键信(xìn)息,并与临(lín)床知识库(kù)相匹配,最终提供符合临床指南的标准化治疗建议(yì)。
一方面,临床医生(shēng)可以输入脱敏(不包括患者个人信(xìn)息)的(de)临床病(bìng)程信息,由大模型生成最终的治疗方案。其间 ,如果(guǒ)大模(mó)型察觉到病程信息存在疏漏,会提醒医生及时补充,保(bǎo)证病历(lì)记录的(de)标准(zhǔn)化。
另一方面,临(lín)床医生(shēng)也可以输入患者主诉(如(rú)主要症状(zhuàng)和持续时间等信(xìn)息)等简单信息,大模型将通(tōng)过选择性(xìng)交互引导问诊方向,根据医生点击的选(xuǎn)项(xiàng),逐步完善临床诊疗过程,提升医(yī)生的(de)循证能(néng)力。
专业性(xìng)体现(xiàn)在两方面
在邳靖陶看来(lái),与ChatGPT等通(tōng)用大模型相比 ,专病(bìng)大模型的专业性体(tǐ)现在思维链和知识库两方面。以脑血管病专病大模型为例,其数据(jù)来源包括两大部 分:一部分是经过脱敏处(chù)理的临(lín)床(chuáng)资料,涉及(jí)疾病的特定特征,发病情况以及诊疗(liáo)过程等综合信息。另(lìng)一部(bù)分是公开获取的(de)临床指南、大量神经病学和神经科学的教科书和参考书籍,这些构成了数据(jù)库的核心(xīn)内容。值(zhí)得注(zhù)意的是,大模型并不(bù)能直接接收这(zhè)些(xiē)知识,而是需要经临床医生(shēng)和工科团队之手(shǒu),将临床指南的框架和重点 内容重新整理,转化为计算机能够理解的语言和流程后(hòu),再(zài)输给大模型。
“如果不加限制地直接投喂,大模(mó)型(xíng)会发散(sàn)到其(qí)他方(fāng)面,生成一(yī)些新的理(lǐ)解(jiě)。但临(lín)床(chuáng)指(zhǐ)南已经是最高级别的标准化诊(zhěn)疗推荐,在此基础上的任何修改(gǎi)都是错误的,也不是(shì)我们想要(yào)的。”邳靖陶告诉(sù)记者,想让大模型“听(tīng)话”,除了要投(tóu)喂计算机能(néng)“听懂”的(de)知识,更关键的是教给它一套临床医生的“思(sī)维链”,并依托这一能 力对不同患者的临床资料进行推理。
例如,一位脑血管病医(yī)生的诊疗流程大致包括询问病史,进行体格检查,考虑辅助检查,综合分析后给出准确诊断等环节。基于诊断结果,医生会考(kǎo)虑患者的具体病因和(hé)其他基础疾(jí)病(bìng)情况,结合标准化的(de)诊疗(liáo)建(jiàn)议,制定规范化(huà)的治疗方案。
在这个过(guò)程中,不同的患者主诉指向(xiàng)不同的(de)询(xún)问方 向。但问题是,大模型的思维(wéi)虽然(rán)“发散”,但不具备自主搭建思维链的能力(lì),所以需(xū)要(yào)工科团队深刻理解临床诊疗场(chǎng)景,将医(yī)生的临床思维转换为机器可以(yǐ)理解的思维。而这个过程让临床(chuáng)医生和技术团队(duì),都经历了交叉学习的历练。
“Gap(差距)主要是语言交流上(shàng)的障碍,比(bǐ)如我们不理(lǐ)解思维链,他们不(bù)理解不同疾病间的关(guān)系。但(dàn)这不会对我们的研究造成实(shí)质性影响,只要了解对(duì)方领域(yù)的基础知识,就能扫清困难。”邳靖陶说。
负责的仍是临床医生
邳靖陶透露,目前脑血管病专病大模型正在北京清(qīng)华长庚(gēng)医院神经中心进行临床验(yàn)证。此(cǐ)前,他和同事们使用真实病例或模拟复杂(zá)临床场景,对大模型进行过内部测试。这项测试建立在前期简 单测试(shì)的基础之上,旨在评估大模型对不同复杂程度(dù)、不同语言风格和 不同级别医生的病(bìng)历(lì)的理解能力。
其中,最困扰邳靖陶(táo)的(de)一个问题是,如果大模型出现了(le)错误,怎么保证临(lín)床医生不(bù)受(shòu)干扰呢?换言之,临床医生应(yīng)该怎么处理和大模型之间的关(guā国内首个脑血管专病大模型亮相 对话参与医生:被AI“上了一课”n)系?
这一矛盾在首次内部测试时(shí)就出现(xiàn)了。当时,邳靖陶模拟了一个复杂的临(lín)床场(chǎng)景(jǐng),大模型给出的治疗方案和预想的“标准答案”有所出入。随(suí)后,技(jì)术人员介入(rù)并回溯(sù)了大模型的推理过程,试图找出可能的错误,却无(wú)功而返。而(ér)当邳靖陶用“标准答案”去(qù)匹配临床指(zhǐ)南时,让他印象(xiàng)深刻的结果出现了:是(shì)自己的诊疗思路存在盲区。
“一开始这个(gè)模型设计出来,到底能不能用于(yú)临床,能不能起(qǐ)到提升和改善(诊疗效率)的作用,其实我心里也没(méi)有底。但是这件事之后,给了我特别(bié)大的底气。”邳靖陶总结这次经(jīng)历,发(fā)现患(huàn)者的临床(chuáng)症状是 一个综合结果。例如,患者可能因为神经系统问题住院,但(dàn)心血管、肾脏、肝脏状况也在发生变(biàn)化。尽管医(yī)生接受过(guò)规范化的(de)专科(kē)培训,但诊疗思维仍(réng)可能存在(zài)盲(máng)点,无法保(bǎo)证每次都能(néng)提供全面(miàn)的(de)诊疗 方(fāng)案。
另外(wài),临床指南是不(bù)断更新的,并非所有医生都能(néng)及时更(gèng)新知识。当(dāng)医生的知识更新滞后时(shí),大模型(xíng)可以帮(bāng)助弥补这些纰漏。
不过,阅读指南并作出判断(duàn),仍是临床医生不能(néng)丢弃(qì)的基本功(gōng)。邳靖陶表示,如果医生发现大模型(xíng)提供的诊疗方案与自身判断不符,不(bù)应(yīng)简单地接受或拒绝,而应深入探究原因(yīn)。这一思考过程有(yǒu)助于医生提高临床诊疗能力(lì),是大模型作为临床辅助诊断工具的终极愿景。毕竟,虽然大模型(xíng)可以提供(gōng)结论(lùn),但(dàn)对(duì)诊疗过程负责的仍是临床医生本(běn)人 。
呼吁更(gèng)多人加入
2023年7月,谷歌Research和DeepMind共同打造的全球首(shǒu)个全科(kē)医疗大模型Med-PaLM M正式发布。资料显示,这个大模型具备临床语言、影像和基因组学的理(lǐ)解能力,用于临(lín)床指(zhǐ)日(rì)可待(dài)。
而根据《2023医(yī)疗(liáo)健康AI大模型行业研究报告》,截至2023年10月,国内累计公开的大模(mó)型数量达到238个,其中,医疗(liáo)大(dà)模(mó)型近50个,涉(shè)及患者问诊、医生助手、药物研发(fā)、健(jiàn)康(kāng)科普等多个领域。据邳(pī)靖陶观察,许多医疗(liáo)大模型(xíng)的开发从“全科”出发,试图直接构建一个涵盖所有专科的大型全科模型,供用户咨询各种疾病。
但在参 与构建脑血管病专病大模型(xíng)后,武剑教授团队对这一模式表示怀疑。他们(men)发现,把一种疾病的(de)临床指南梳(shū)理清楚颇具(jù)难度,打造对(duì)应的思(sī)维链(liàn)也耗时耗力,短期(qī)内(nèi)很难用同样的方法训练出全科模型。换言(yán)之,目前的全科大模型能够做 到医学科(kē)普(pǔ),但很难在特定专科领域提供有效的临(lín)床(chuáng)指导。因此,武剑教授团队的研发思路是以专病为起点,再走向(xiàng)全科。
“如果针对脑血管病的专病大模型走通了(le),我们可以把成功经(jīng)验复制(zhì)到其他神经(jīng)系(xì)统疾病上;如果神经系统疾病覆盖(gài)全面 了,就成了专科(kē)大模型;神经科的经验(yàn)再复制到其他科,就会形成一个真(zhēn)正(zhèng)的全科医疗大模型。”邳靖(jìng)陶表示,在武剑教授看来,国内发病人数越多、疾病(bìng)负(fù)担越(yuè)大的疾(jí)病,其(qí)专病大模型的临床需求和研发空间就会越大,例如我国(guó)发病率最高的四大慢病——高血压、糖尿病、冠心(xīn)病、脑血(xuè)管病都有非常广阔的大模型开发空间(jiān)。
而在脑血管病专病大模型(xíng)的发布会(huì)上,武剑教授已经通过招募令的形式,呼吁全国(guó)神经系统疾病领域的专(zhuān)家,以及人工智能领(lǐng)域的专业(yè)人士携(xié)手把握创新技术的改革可能,改善临床诊疗(liáo)现状。他表示,如(rú)果能打破学术壁垒,医疗大模型的重复性工作是完全可以避(bì)免的。
“这不是我们一个人能做的事情。”邳靖(jìng)陶说(shuō)。
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了