数据科学 x 临床医学

真实世界数据(real world data,RWD)近几年成为了临床医生、生物统计师以及药企日益关注的对象,指来自现实医疗环境的、传统临床试验以外的数据。真实世界数据可以反映实际诊疗中患者的健康状况和医疗服务过程,与传统临床试验收集的数据相比,RWD 样本量通常较大,涵盖了海量临床信息,且更加杂乱无章,存在未标化、异构化等特点。

面对种类繁多、高维复杂的临床数据,为了提升资源利用率、实现分析的便携度,云计算、机器学习等前沿信息技术逐渐与医学研究深度融合。在临床医学中,人工智能已在诊断、筛查/分诊、决策支持、治疗方案推荐、预后,各个阶段被广泛应用,通过对海量医学数据进行数据挖掘和分析,尝试从人类尚没有触及的角度去揭示相关疾病发展、诊疗的机理。

复合型人才缺口

数据科学的融合应用对医学从业人员提出了更高的要求,不仅要熟知编程知识、统计分析方法、机器学习算法等,更要熟悉医学的行业术语和语境表达,甚至伦理相关的问题价值判断。在临床医学中,存在一个很典型的现象,即在数据中发现的问题可能在临床上没有价值,这是因为数据科学与临床医学的关注对象存在一定差异。

然而,国内目前兼具医学背景和工程技术实践能力的高素质复合型人才很少,存在较大人才缺口。由于学科设置的历史原因,医学教育和工科教育处于两条平行的轨道,很难交叉;与此同时,尽管部分临床医学生会在其培养体系中学习一些统计学方面的课程,但更多聚焦于原理层面,与实操还是存在一定区别。

复合型医学人才的培养成为了当前亟待解决的问题,针对这一现象,国内的高校及医学研究机构开始了一些探索。

交大医学院 x ModelWhale

人才培养的两条路径

上海交通大学医学院临床研究中心是在上海交通大学校级层面建立的,在医学院内独立运行的二级研究机构,除了配合附属13家医院各自的临床研究中心开展临床研究项目,并提供技术支持外,也承担着高素质研究型临床医师的培养任务。

要打破目前横亘在医学教育与工程教育之间的藩篱,交大医学院从其实践中总结出了两条路径:或是将本身有数理背景的人往临床医学方向培养;或是降低临床医生方法学使用的门槛,提高其自主分析能力。对于这两个不同方向的教学实践,ModelWhale 为其提供了不同的工具支持。

从数理背景出发

自2002年起,上海交通大学医学院开设“4+4”硕博班,面向有理工科背景的本科毕业生,通过4年的医学教育模式,培养高级复合型医学创新人才。随着信息技术的发展,该项目在近两年的主干课程中,除了基础医学、临床医学外,也包括了大数据分析等交叉课程。对此,ModelWhale 以云端基础设施为底座,以教学模块为连接,以数据挖掘分析工具为核心,支持课程开展并提升教学质量。

云端环境,同步教/学两端

ModelWhale 首先为课程提供了统一的云端教学环境。之前由于学员的分析环境存在差异,对于已开发的研究项目或临床预测模型,老师只能通过演示的形式开展教学,学生很难跟随同步操练。在医学教学过程中,特别会经常涉及对经典论文的复现,教/学两端的时间差十分影响学习体验。

当教学场景迁移至 ModelWhale 后,老师将项目导入至课件或作业,学生即可查看并通过直接运行获得项目所挂载的数据集及使用的镜像环境,开始运行学习。基于此,对于复现论文等教学过程,学生可在统一配置好的生产资料下同步跟随老师一起绘制图表,梳理研究分析思路,达成学练一体。

数据保护,尊重临床隐私

教学开展过程中,老师不可避免需要将某些临床数据分享给学生使用,但医学数据涉及到了患者的隐私保护问题,若被公开传播可能会产生不良影响。当然,在临床医学中,数据的获取本身也是需要深入学习的一课,包括了数据获取是否合规、哪些涉及隐私、哪些可用于分析等等。

ModelWhale 内设有严谨的权限系统,当老师将数据或项目作为课程材料分享给学生时,可同时管理其使用、下载的权限,即当老师关闭了学生的数据下载权限后,学生只能在云端环境调用数据进行分析,无法下载至本地,保证了教学过程中的“数据不落地”。

医学定制,兼备专业高效

R 语言是大多数医学生数据分析、科研写作所使用的的启蒙语言,ModelWhale 延续了这项“医学传统”并提供更多选择。ModelWhale 为医学数据挖掘提供的专用镜像支持多种语言,师生除了可使用习惯性的 R 分析研究外,也可自由切换为 python 进行 Notebook 编程。另外,平台内置的常用代码片段库,以模块化、交互式的编程方式降低了 R 语言的学习门槛,即使是不以 R 为主编程语言的同学也可通过调用代码串联起研究框架。

从临床医学出发

临床医生大多拥有丰富的临床一线经验,但代码工程能力相对薄弱,需要与下游的方法学专家合作实现医学数据的分析需求。从临床研究的人员配比来看,一个方法学专家大概可以同时支持 5-10 个项目,但由于存在人才缺口,实际真的能够配到专业方法学专家的临床研究项目非常之少。对此,交大医学院临床研究中心不定期对其附属医院,如第六人民医院、儿童医学中心等的临床医生开展培训,帮助临床医生提高其自主进行数据挖掘分析的能力,提升临床研究的整体质量及效率。

结合临床医生同时面对繁忙的工作压力和科研压力的情况,ModelWhale 为临床研究中心搭建了一个低代码的科研协同分析平台,将流程和规范嵌入至工具中,实现快速上手、及时反馈。

输入参数,输出成果

临床数据分析存在一些相对固定的流程,可能有近80%都是相对重复性的工作,而对于临床医生来说,每次研究都需要从0到1搭建起框架,不仅耗时耗力,也会因为工程能力有限造成许多不规范。

对此,ModelWhale 提供了 Canvas 低代码拖拽式分析工具,内嵌已封装的医学专用分析 flow ,覆盖了多种医学科研常用分析流程模板,如生成基于 ggplot2 实现的柱状图、生存分析等等,只需输入参数,就可即时产出对应分析成果,保证临床医生在没有方法学专家的支持下,也可零门槛上手自主完成规范性的数据分析工作。另外,将 Canvas flow 转化为 Notebook 文档后可生成交互式报告,临床医生可以将图片成果及代码片段直接应用至论文草稿,从而提高科研效率。

自定义组件,“可视化”思路

除了为编程能力较弱的临床医生提供可直接使用的分析 flow 外,临床医生也可在 Canvas 内通过拖拉拽内置的医学统计分析常用组件搭建起研究思路;有较强编程能力的医生可根据需求自定义创建组件,并将高频使用部分或完整流程按逻辑关系组合成 flow,便于自己复用或共享给他人使用。基于此,临床研究中心也可将已搭建完成的分析流程封装为 flow 或生成模板,直接提供给临床医生,便于其使用。

临床医学数据分析研究的过程可能需要多次修正研究方案、调整数据提取和分析策略,Canvas 可视化的呈现形式更直观地展现出研究思路和数据分析过程,不仅方便后期审核查验,也帮助临床医生在与方法学家合作时能及时发现漏洞并完善流程。

结束语

从我国的国情和临床研究的未来出发,培养专业化的临床研究复合型人才是我国在临床研究领域需要探索的重要课题。ModelWhale 将技术积累与医学教研深度融合、持续赋能。

ModelWhale 以人为径,降低数据科学的应用门槛,协助不同领域、不同角色、不同编程能力的用户建立更加流畅高效的分析建模及项目协作工作流,为每一位从事数据驱动的创新研究开拓者提供支持。目前,国家基因库、国家人口健康科学数据中心、北京协和医学院、上海交通大学医学院、罗氏诊断等多个顶尖医学组织与高校已与 ModelWhale 开展合作。

ModelWhale 同时支持 SaaS 云端使用及本地私有化部署,可满足不同组织需求。

和鲸社区聚集 50万+ 数据从业者与爱好者,具备丰富且实时更新的真实数据、开源代码、项目案例及实训活动资源,覆盖商科经管、地球科学、人文社科、生物医学等广泛的学科领域,您可点此链接免费注册使用

本次活动属于和鲸发起的和鲸社区“101数智领航计划”系列活动,旨在积极贯彻教育部基础学科系列“101计划”工作。2024 年,和鲸社区结合近十年在数据科学人工智能的开源资源积累和专业共建经验积累,将与 20 个头部高校共创共建高质量课程、高质量数据集、高质量实践项目以及学科大模型等,同时开放有限学院名额,助力建立 AI 创新虚拟实验室。

若您对这一计划感兴趣,也欢迎与我们取得联系(添加时请备注“101”)。