作者: 来源: 阅读量: 发布时间:2025-06-25 10:39:05
近年来,医学视觉-语言模型(Medical VLM)作为多模态人工智能的重要研究方向,正在快速推动医学影像辅助诊断、临床决策支持等场景的发展。
然而,当前医学 VLM 相关的公开数据集分布零散,缺乏统一的结构描述和任务标准,研究者在入门、对比、评估等环节往往面临信息不清、接入门槛高等问题。
因此,来自我院医学工程系路利军教授课题组的学生:叶赞挺,韩绪,牛小龙联合上海交通大学、香港中文大学等多所高校的同学们协同合作启动了该项目,旨在为学术界和产业界提供一个系统化、标准化的医学 VLM 数据资源导航平台,降低研究门槛、促进模型可复现性与跨团队协作。
目前,团队整理了多个具有代表性的医学多模态公开数据集,涵盖:
l 多种常见临床场景下的问题:图文问答、报告生成等,疾病诊断,病灶分割等;
l 多种模态数据类型,涵盖常见的临床数据类型,CT/MR/PET以及病理数据
每个数据集都配有任务类型、模态组成、样本规模、开放许可、评估指标等关键信息,力求提供一站式的信息概览与访问指引。
项目上线后已受到来自国内外百余位医学 AI 研究者、学生的积极关注,包括香港中文大学,香港理工大学,南方医科大学珠江医院,深圳大学等,并收到了若干建议与合作意向。作者团队将继续扩展数据源,规划后续引入模型评测工具链,逐步构建更完整的 benchmark 支持体系。
作者团队希望通过该项目构建一个统一的数据整合框架、任务导航与评估基准工具链,推动医学多模态数据共享、研究协作与技术应用落地,为医学 AI 社区提供高质量、可复用的公共资源。
如果你正在关注医学多模态模型研究,或者希望寻找适合的 benchmark 数据集来支持自己的工作,欢迎访问项目主页,也非常期待你通过以下方式参与我们:给项目点 Star,支持我们的持续更新,提出建议或推荐新数据集(可提交 issue 或 PR)
项目链接: https://github.com/yezanting/Med-VLM-Bench-Summary
图1:项目概述及主要数据集
课题组叶赞挺,牛小龙,韩绪,卢婉彤在国际顶级医学图像计算会议“Conference On Medical Image Computing And Computer Assisted Intervention(MICCAI 2025)”接收了三篇最新科研成果:
(1) MDAA-Diff: CT-Guided Multi-Dose Adaptive Attention Diffusion Model for PET Denoising.
获得高质量的PET图像需要注射高剂量的放射性示踪剂,这增加了辐射暴露的风险。因此,由低剂量PET生成标准剂量PET已成为一种潜在的解决方案。然而,以往的研究主要集中在单个低剂量PET去噪上,忽略了两个关键因素:患者间差异引起的剂量响应差异,以及来自CT图像的互补解剖约束。研究团队提出了一种CT引导的多剂量自适应注意去噪扩散模型(MDAA-Diff),用于多剂量PET联合去噪。该方法利用小波变换提取CT中的高频边缘特征,并通过自适应加权融合机制引入PET图像去噪,同时引入剂量条件增强模块,实现对多剂量输入的动态建模。在18F-FDG和68Ga-FAPI数据集上的实验结果表明,该方法在低剂量条件下显著提升了图像质量,优于现有主流去噪技术。主要贡献者:牛小龙,叶赞挺。
图2 : MDAA-Diff网络框架
图3 : MDAA-Diff在不同剂量水平下与几种最新方法的比较结果
(2) Self is the Best Learner: CT-free Ultra-Low-Dose PET Organ Segmentation via Collaborating Denoising and Segmentation Learning.
在PET图像中进行器官分割对于癌症定量分析至关重要。低剂量PET作为一种辐射更低的成像方式,为患者提供了更安全的选择。然而,由于低剂量图像中噪声大且组织间边界模糊,使得准确的器官分割面临重大挑战。此外,现有的PET器官标签多来自于配准的CT图像,忽视了模态间固有的偏移问题。为此,研究团队提出了一种全新的去CT依赖的PET器官分割框架,将低剂量PET视为天然掩码的全剂量图像,结合共享编码器,实现去噪、分割任务协同,有效提升了解剖结构识别能力。实验证明,LDOS在18F-FDG和68Ga-FAPI数据集上取得了超过73%的Dice系数,显著优于现有方法,展现出在超低剂量PET分割中的应用潜力。主要贡献者:叶赞挺,牛小龙。
图4 : 所提出的网络框架
图5:18F-FDG数据集分割结果的可视化展示
(3) PDF-Net: Prototype-Aware Dynamic Fusion Network for Nasopharyngeal Carcinoma T-staging Classification with Epstein-Barr Virus DNA.
针对鼻咽癌T分期分类中早期样本稀缺与单模态信息不足的问题,研究团队提出了一种融合MRI图像与Epstein-Barr病毒(EBV)DNA表格数据的原型感知动态融合网络(PDF-Net),通过多模态动态对齐和最优原型感知传输机制提升多剂量特征表达与类别区分能力。该方法在真实临床数据上显著优于现有方法,在T1C图像上取得了准确率0.8006和AUC 0.8191,首次验证了EBV DNA作为辅助信息在T分期任务中的有效性,为鼻咽癌精准诊断和个体化治疗提供了新思路。主要贡献者:卢婉彤,韩绪。
图6 : PDF-Net网络框架
近期课题组博士生叶赞挺的工作:FSDA-DG: Improving Cross-Domain Generalizability of Medical Image Segmentation with Few Source Domain Annotations被《Medical Image Analysis》正式录用,
课题组路利军教授与中山大学肿瘤防治中心孙颖教授合作工作:A Serial MRI–based Deep Learning Model to Predict Survival in Patients with Locoregionally Advanced Nasopharyngeal Carcinoma在《Radiology: Artificial Intelligence》正式发表。