我院联合解放军总医院、吉林大学等机构,共同提出首个【脊柱诊疗大模型】SpineGPT

发布者:汤靖玲发布时间:2025-11-27浏览次数:10


我院2025级博士研究生董文辉及科研助理赵明,在副院长单彩峰教授准聘助理教授司晨阳的指导下,提出脊柱诊疗大模型SpineGPT。本研究联合了解放军总医院,浙二医院,华山医院的多位知名医生,并汇聚Pi3Lab,上海三友医疗器械股份有限公司等产学研多方力量,共同完成了首个面向脊柱诊疗领域的大模型研发。

脊柱疾病影响全球6.19亿人,是致残的主要原因之一 。然而,现有AI模型在临床决策中仍存在“认知鸿沟”。缺乏椎体级别level-aware)、多模态融合的指令数据和标准化基准,是制约AI辅助诊断的关键瓶颈。

本文提出了一套统性的解决方案,包括首个大规模、具有可追溯性的脊柱指令数据集SpineMed-450K,以及临床级评测基准SpineBench。基于此训练出的专科大模型SpineGPT,在所有任务上均实现了显著提升,仅仅7B参数量,全面超越了包括GLM-4.5VQwen2.5-VL-72B在内的顶尖开源大模型 。

论文标题:SPINEBENCH: A CLINICALLY SALIENT, LEVEL-AWAREBENCHMARK POWERED BY THE SPINEMED-450K COR-PUS

论文地址:https://arxiv.org/pdf/2510.03160

一、临床痛点:通用LVLM的“认知鸿沟”

脊柱疾病的临床诊疗,需要复杂的推理过程:整合X光、CTMRI等多模态影像的发现,并将病灶精确定位到特定的椎体层面Level-Aware Reasoning),以确定严重程度并规划干预措施 。这种集成推理能力,是现有通用视觉-语言大模型(LVLMs)的系统性弱点 。


SpineBench的评测中,这一弱点暴露无遗 :

  • 性能差距明显:即使是参数量达72BQwen2.5-VL-72B,平均性能也仅为79.88%。领先的开源模型GLM-4.5V (83.26%)与顶尖专有模型Gemini-2.5-Pro (89.23%)之间仍存在近6个百分点的差距。在医疗报告生成任务中,更是差距明显,Qwen2.5VL-72BGemini-2.5-pro30%

  • 跨模态对齐缺陷:几乎所有模型在多模态任务上的性能都有不同程度的下降 。例如,GPT5在纯文本QA (87.41%)与图像QA (79.97%)之间的差距高达7.44个百分点。这反映了现有模型在医学图像理解和视觉-语言对齐上的根本不足,限制了它们在需要综合分析图像和文本的临床场景中的应用。

二、核心成果:构建临床级AI的“基础设施”

为填补现有数据与临床需求之间的认知鸿沟,研究团队与实践中的脊柱外科医生共同设计和构建了SpineMed生态系统

1. SpineMed-450K:椎体级、多模态指令数据集

这是首个明确为椎体级推理而设计的大规模数据集。

  • 规模与来源:包含超过450,000条指令实例。数据来源极其丰富,包括教科书、外科指南、专家共识、开放数据集(如SparkVerSe 20202020),以及约1,000去识别化的多模态医院真实病例。真实病例来源于国内11家知名医院,确保了患者来源的多样性 。

  • 生成管线:数据生成采用了严谨的“临床医生介入”(Clinician-in-the-loop流程。该流程涉及:

    1. 使用PaddleOCR提取图文信息。

    2. 通过新型的图像-上下文匹配算法,将图像与其周围的文本上下文精确绑定,保证可追溯性。

    3. 利用LLM两阶段生成方法(起草和修订)来生成高质量的指令数据,且临床医生参与了提示词策略和修订标准的审查。

  • 任务多样性:涵盖四种类型:多项选择QA249k)、开放式QA197k)、多轮诊疗对话(1.1k)和临床报告生成(821例)。数据覆盖七个骨科亚专科,其中脊柱外科数据占比47%,并细分为14种脊柱亚疾病。

2. SpineBench:首个临床显著性评估基准

SpineBench是一个与临床深度结合的评估框架,旨在评估AI细粒度、以解剖为中心的推理中犯下的、在实践中至关重要的错误类型。

  • 基准构成:最终包含487道高质量多项选择题和87个报告生成提示 。

  • 严谨验证:为确保评估集的完整性,由17骨科外科医生组成的团队,分成三个独立小组进行了严格的验证和校正。

  • 报告评估:针对临床报告生成任务,设计了由专家校准的框架。评估从五大板块、十个维度进行:

    • I.结构化影像报告SIP):评估发现的准确性、临床意义和定量描述 。

    • II.AI辅助诊断AAD):评估主要诊断的正确性、鉴别诊断和临床推理 。

    • III.治疗建议TR):分为患者指导(语言清晰度、共情、安抚)、循证计划(理由、指南一致性)和技术可行性(手术细节、并发症预防)。

    • IV.风险与预后评估RPM):评估围手术期管理、随访安排和潜在问题策略 。

    • V.推理与免责声明RD):评估证据覆盖范围、相关性、细节粒度和逻辑连贯性。

三、实验结果:专科AI模型SpineGPT的突破性表现

SpineGPT基于Qwen2.5-VL-7B-Instruct模型,通过课程学习(Curriculum Learning)框架,分三阶段在SpineMed-450K上进行微调,以逐步增强其在脊柱健康领域的适用性和专业性 。

  1. 超越开源,逼近顶尖专有模型:SpineGPT达到了87.44%的平均分,大幅领先所有开源大模型4.18个百分点以上。在纯文本QA任务上(89.46%),SpineGPT甚至超越了所有参评模型,包括GPT5 (87.41%)

  2. 专科数据的重要性(消融实验):

    • 模型仅在通用医疗数据上训练时,性能显著下降(74.95% vs 65.31%)。

    • 纳入精心策划的非脊柱通用骨科数据后,性能得到大幅提升(82.14% vs 74.95%),验证了领域对齐训练数据的重要性。

    • 最终,纳入脊柱特异性训练数据(包括对话、报告生成和长链推理指令)后,模型性能进一步增强至87.89%

  3. 临床报告能力显著增强:SpineGPT在医疗报告生成任务上的总分为87.24分,而Qwen2.5-VL-72B仅为63.80分,ChatGPT-4o64.04分。

    • 案例对比:在对“青少年特发性脊柱侧凸”病例的分析中,SpineGPT提供了包含72个详细的临床处理流程,涵盖了完整的影像发现、AI诊断、患者和医生导向的治疗建议、风险管理和术后问题管理。相比之下,ChatGPT-4o的报告则更偏向于适合一般医疗文档的基本诊断和治疗建议。

  1. 人类专家高度认可:人类专家对报告评分与LLM自动评分之间的Pearson相关系数达到0.3820.949,大多数维度相关性在0.7以上。这有力地验证了LLM自动评分作为专家判断代理的可靠性。

结论与展望

这项研究证明了:对于脊柱诊断这样需要复杂解剖推理的专业领域,专科指令数据和“临床医生介入”的开发流程是实现临床级AI能力的关键。

SpineMed-450KSpineBench的发布,为未来的AI研究提供了一个高实用性的基线。研究团队计划将拓展数据集、训练大于7B参数的模型,并结合强化学习技术,继续深化与领先专有模型的直接比较,以确立更清晰的性能基准。


Baidu
map