5月25日,互联网医疗公司医联正式发布了其自主研发的医疗大语言模型——MedGPT。该系统是基于Transformer模型架构研发的,系国内首款医疗大语言模型。即国内“首位AI 医生”。
当前,这位AI医生具有两方面的能力。一是问诊,这也是这款MedGPT的基础能力。如果要用疾病数量来描绘这种能力的强弱,医联此前的表述是,其MedGPT已经拥有近3000种疾病的首诊能力,覆盖80%以上的成年人疾病和90%以上的0-12岁儿科疾病。
【资料图】
另一方面,除了问诊,医联的这款MedGPT目标功能也包括疾病预防、治疗、康复等各个流程的智能化诊疗。这也是医联这款产品和同类产品相比的核心差异。也就是,不仅仅做问诊。
从技术的角度看,医联的MedGPT开放了众多接口,以支撑其能够实现多模块运行。王磊透露,医联MedGPT应用平台整合超过了1000多种医疗模块。具体到实践,在问诊环节结束之后,MedGPT会给患者开具医学检查项目,以进一步明确病情。患者则可以通过医联云检验等多模态能力进行检查。而在诊断后的治疗环节,患者也可以通过医联互联网医院实现送药到家。此外,MedGPT还会在患者收到药品后主动为患者进行用药指导与管理、智能随访复诊、康复指导等。
而历经这一系列环节,实际也是将医联的医疗资源储备调动了起来,并为其连接线下线上资源、开展行业合作奠定了基础。医联成立于2014年,是国内领先的互联网医院之一,线上医疗资源覆盖诸多科室,线下则依托未来医生的门店布局,拥有全科中心、专科中心、企业医务室、社康等多种业态,且业务覆盖全国多个城市。
医联MedGPT项目负责人王磊还表示,医联的MedGPT能和数字疗法衔接。其在发言中举例,当患者家长问“小朋友的意力不集中,我该怎么办?有没有相关治疗办法?”的时候,就可以在医联的MedGPT平台接入数字疗法插件,而其应用中也包括注意力不集中测试的数字疗法工具。
不过,这位AI医生想真正实现给人看病,目前看还有一段路要走。
首当其冲的是法规上的障碍,国内《互联网诊疗管理办法》明确规定,“不得对首诊患者开展互联网诊疗活动。”这也意味着,首诊红线之下,MedGPT及其同类产品的应用都存在实际限制。
这种限制是来源于,当前法规之内,首诊需要有线下医疗机构真人面诊,不能发生在虚拟的互联网线上,那么,基于互联网开展的人工智能诊断更不可能被允许。也就是,如果有患者被AI医生首诊了,这种情况肯定不是合规的。
这样的影响在于,若是想合规,就只能是复诊。但是这也意味着,如果患者在线下已经去过医院、做过化验、开过药方也拿到药了,则其再去线上找AI医生问诊的必要性可能也不存在了。
同时,基于复诊模式的AI医生和当前互联网医院提供的在线复诊处方业务,本质没有区别;在业务模式上,除了卖药和给予康复关怀,无法将线下或是实体的检验检测设备和资源关联起来,也提升了将业务起点延申至诊前或是预防环节的难度;而在业务范围上,想要突破慢病管理这种基于长期服药管理的疾病领域,也很难。
并且,失去首诊场景,AI医生给予的话语,与其说是诊断结论,不如说是参考建议,则其医疗权威性和引导患者下一阶段行动的可能性会大打折扣。最终,AI医生只能沦为虚名。另一方面,从开发AI医生的公司角度而言,无论是基于合规考虑,还是基于商业投入产出考虑,向公众大规模开放使用AI医生的时机也还没有到。
在5月25日的产品发布会上王磊也明确表示,由于现在医疗类大语言模型不能轻易发布,直至得到国家政策允许,MedGPT都不会向公众开放,该产品现阶段也仅用于学术研究。
虽然不对公众开放,但医疗诊断的准确性要求不会降低,而这也是AI医疗所面临的最核心问题。
在AI医疗领域,哈佛医学院数据科学家Kun-Hsing Yu的一句——“AI的一些医疗决策,实际上就是抛硬币”,曾让行业心有余悸。这位科学家的发言,质疑的是AI医疗模型很容易产生随机的判断,但医学诊断的准确性显然不能建立在概率之上。
并且,当前仍有大量AI医疗模型在实验过程中暴露出容易产生漏诊或是带偏见的诊断结果。例如,2021年,名为Epic Sepsis Model的医疗诊断模型被曝出严重漏检问题。该模型用于败血症筛查,通过识别病人早期患病特征检测,但密歇根大学医学院研究者通过分析了2.77万人的就诊情况发现,该模型未能识别67%败血症病患。此后,该公司对模型进行了大调整。
在发布会上,针对这方面的顾虑,王磊给出的答案是——MedGPT是一位善于提问的AI医生,它能够通过多轮问诊,引导患者收集足够的诊断决策因,再进到诊断环节,从而保证准确性。
王磊表示,这些决策因子包括症状类、病史类、检验检查类等等。通俗理解就是,医联的MedGPT能够连续问诊。具体而言,“患者一定回答了很多问题,MedGPT才会往下继续,MedGPT是不会轻易的给出诊断。提问例如,你以前得过什么病?得了多久?怎么治疗?治疗效果怎么样?” ,王磊说到。
之所以能形成这样“细致问诊的习惯”,是因为MedGPT经历了大量训练,训练的系统不仅仅有大语言模型,还有系列程调优技术以及医学致性校验技术。同时,在这个微调训练阶段,医联采量真实医参与监督微调,希望提升模型的疾病特征判断与模式识别能,确保医疗准确性。
王磊在发言中提及,在MedGPT的开发过程中,医联项目内部建立了“医联医学专家系统”,它是一个多维度的诊疗评价体系,包括评价问诊的准确率、效率、全面性、错误率、风险提示程度等;而MedGPT模型的每一次回答都会经过该医学专家系统校验,只有符合预期才能输出,没有符合预期就会让其重新作答,直到其达到要求,就好像AI医生在给出答案时身后有临床医生在时刻关注着。
并且,医联方面表示,公司也会让真实的临床医生和医疗专家浏览MedGPT的诊断过程,发现错误,就会给它修改校正,通过大量的输入和校正,来提升准确程度和问诊效率。同时,这也涉及到问诊效率问题。例如,如果一次问诊,通常只用10分钟就能问完,患者跟AI医生问诊开展了半小时,明显说明它效率极低,这也需要调整。
不过,考虑到每位病人病情的独特性,无论是AI还是人类医生,都很难完全按照诊疗规范进行病情判断,在一些罕见情况下更是如此,而此时一些资深专家医生的经验判断就成为了重要的因素,而这也是未来AI医疗要重点突破的地方。
无论是医联项目内部建立的“医联医学专家系统”还是给MedGPT做校正工作的医生、专家,都体现了在AI医疗应用开发阶段,真实临床经验的重要性。因为,医生和专家的诊疗经验往往能比书面诊疗标准更“一针见血”。如果AI诊断类产品仅仅是依据诊疗标准“照葫芦画瓢”反向设计问询环节,在遇到非典型症状或是较强的个体差异时,误诊风险会提升。因此,AI诊断类产品需要和医生、专家一起讨论开发。
而具体到开发涉及的数据量,据医联提供的材料,MedGPT在预训练阶段,已经使超20亿的医学文本数据;微调训练阶段,使约800万条的高质量结构化临床诊疗数据;开发过程中,投超100名医参与反馈监督微调训练。
当前,医联仍在加速MedGPT的研发。截至目前,医联MedGPT已经可以覆盖ICD10(指《疾病和有关健康问题的国际统计分类(第10次修订本)》)中60%的疾病病种,预计在2023年底可覆盖80%病种的就诊需求。王磊介绍,面对海量疾病,医联MedGPT的开发思路是为优先解决常见病,以提升应用的普惠能力。
就MedGPT的后续开发计划,王磊介绍称,很希望和医疗、医学领域的专家一起建立AI诊疗的标准建设,年底,团队还会招募患者参与临床试验,并和医疗机构开展合作。
(文章来源:界面新闻)