南方医院国家级大创项目团队开发生殖医学中文文本分析工具软件并发表SCI论文
近期,第一临床医学院(南方医院)2018级临床医学八年制蔡捷(第一作者)、南方医院生殖医学中心陈士岭教授(通讯作者)等在BMC Medical Informatics and Decision Making(中科院 3区)上发表有关提取电子病历的中文文本分析工具软件的原创性论文,并在2023年8月9日被web of science收录。该项研究对于卵巢衰老的早期识别和决策有重要价值,其资助项目为蔡捷同学主持的2021年国家级大学生创业训练项目 “建立生殖医学临床数据统计分析系统以辅助临床决策及临床研究-面向统计分析临床数据的软件开发”和陈士岭教授负责的多项卵巢储备功能和早发性卵巢功能不全诊治的研究基金。
项目发表的论文
临床电子病历(electronic medical record,EMR)每天都以成千上万甚至更多的数量递增,包含海量重要临床信息,是临床研究不可缺少的资料。生殖医学专业的患者均在门诊就诊,EMRs对于诊疗决策及科研极为重要。然而,以文本形式存储的非结构化数据无法直接服务于后续的二次开发。长期以来为获取和分析有关数据,主要是依靠研究生等人将病历一份份进行人工提取数据、输入SPSS等统计软件中,进行统计处理和分析总结。此种方式效率低下、耗费时间,且仍然有大量的临床数据无法被利用。为攻克这一难题,在南医大南方医院妇产科生殖医学中心陈士岭教授和刘玉东医师指导下,2018级临床医学八年制蔡捷同学作为负责人,与2020级临床医学八年制陈圣林同学、2018级临床医学八年制郭思蕴、王穗东、李琳彤同学组成团队申请获得南方医科大学2021年国家级大学生创业训练项目的资助。大创项目在负责人蔡捷的带领下,学习了解生殖医学专业的有关疾病基础知识及电子病历记录,并充分运用在国防科技大学学习过的理工科知识,团队成员齐心协力攻坚克难砥砺奋进,用一年时间顺利完成项目要求的工作,并撰写并2023-07-18在线发表研究论文。
该项目是第一个应用于生殖医学领域的中文文本分析工具,运用基于正则表达式(regular expression, RE)的自然语言处理技术,已基本实现生殖医学电子病历的批量导入、结构化关键数据的智能提取。与人工提取结果相比,自动提取具备高准确率、召回率与F分数。虽然程序员手动编写REs实现信息提取的效果斐然,但其适用于不同场景的能力有限。对于每个特定的任务,程序员都需要调整REs以适应不同数据,耗时多,成本高。因此,项目成员进一步探究运用机器学习的方法,即用户只需提供有代表性的训练示例集,机器自动生成REs进行提取,是否能够取代程序员的RE构建工作。结果发现手动构建REs和机器自动生成REs的提取效果相当。因此,在自动生成REs的提取效果能满足临床应用需要的情况下,自动RE生成具有更大的临床应用前景,其优势在于不需要编程技能或RE语法的掌握,且具备扩展应用于其他疾病和科室的能力。
为了进一步深化电子病历信息自动提取工具的临床运用,项目成员建立了一个卵巢储备评分和风险分层模型,将EMRs中自动提取的卵巢储备测量值输入该模型,以实现从EMRs自动识别卵巢储备功能减退的高风险人群并诊断相关疾病。该模型在风险筛查和自动诊断特定疾病的效果可观。
项目设计框架图
病历资料富含海量数据,提高关键信息的抽取效率对于临床研究和决策的推进不可或缺。后续该项目的成果可扩展到生殖医学其他疾病,或者其他专业的疾病,成果推广具有重要临床价值。
大创项目成员于指导老师合照