Datathon会前培训成功举行,"医-理-工”多学科专家同台探讨数据驱动的临床科研
2019年10月20日,由中国人民解放军总医院联合麻省理工学院、《中国医疗设备》 杂志社、中国医院协会医学工程专业委员会共同举办"2019医疗大数据 Datathon 活动”的会前培训在北京成功举行,培训邀请到了众多业内知名的"医-理-工”多学科专家共同分享,旨在让 Datathon 参赛者预先了解并熟悉本次活动流程,掌握医疗数据领域科研的基本方法和前沿理念,当天共有100多名临床医护人员、医院信息和医学工程人员、高等院校相关专业学者和企业人员参与。
Datathon 是一项医疗与数据领域交叉的融合创新实践活动,其前身是源自于硅谷的 Hackathon,这通常是一种短期、高强度的小组竞赛,旨在汇集知识背景和技术不同但互补的参与者,包括临床专家、数据科学家、统计学家、工程师和计算生物学家等,通过使用来自“真实世界”的医疗数据,基于数据计算的方法,在短期内协作完成临床研究项目,合作解决临床医生面临的众多问题和未满足的医疗需求,该活动最初由 MIT 团队和哈佛医学院团队发起,并由解放军总医院率先将该模式引入国内。
在现场,来自解放军总医院和北京市生理科学会危重症医学专业委员会的医疗专家分别对本次活动主旨和医疗领域数据分析方法进行了详细介绍,并从不同角度阐述跨学科 Datathon 活动如何促进医疗大数据实践落地,以及如何从临床人员的视角出发基于医疗大数据开展临床研究等话题,精彩纷呈。
解放军总医院医学工程保障中心副主任,生物医学工程专业博士张政波在发言时提到:“大数据和人工智能改变人类社会的生态,使各行各业都面临着严峻的挑战,新一代医生、工程人员只有打破学科边界来进行跨界合作,才能获得跨越式成长的机会。”而 Datathon 正是医疗数据跨界合作的最佳契机,Datathon 通过组建跨学科的团队,在短期内以小组竞赛的形式完成临床研究项目,能够基于数据计算的方法,合作解决临床医生面临的众多问题和未满足的医疗需求。北京市生理科学会危重症医学专业委员会主任委员,原北京大学第三医院 ICU 主任王谊冰医师站在临床医生的角度分享了如何看待医疗大数据,阐述了数据科学对医学进步的推动作用,RCT 研究与观察性研究的比较,并分享了如何避免混杂因素这一大数据分析的潜在错误来源。王主任还着重强调了课题选择的重要性,随着数据分析方法日渐强大,医疗大数据科研中最关键的便是提出有价值的、值得去探究的临床问题;不同背景的临床人员与工程人员进行合作、问题筛选和高频率互动都离不开一个可持续的知识平台。
在中场讨论时间,在座人员就哪些临床问题适合使用医疗大数据方法解决、如何提出好的 Datathon 研究课题展开热烈讨论。在讨论过程中,解放军总医院重症医学科副主任,哈佛大学医学院博士后康红军医师强调了 Datathon 之后每个团队的持续合作十分重要,Datathon 作为灵感与现实的碰撞,只是一个开始,大家需要把握比赛中产生的优质方向和课题,从而发表最终成果。
本次培训还有一个重要的部分,也就是医疗数据分析实践操作分享,为了给选手和参与培训的人员提供开箱即用的线上分析环境,本次培训的数据分析演示全部基于和鲸科技的数据科学平台 K-Lab 进行,现场的临床和工程人员可以通过 K-Lab 即时动手参与数据实践,体验医疗数据分析流程。
和鲸科技联合创始人殷自强也在会上做了分享,科研领域的数据探索尤其在医疗大数据研究这个垂直领域,每个数据源的背景、每个数据字段都会对研究产生深入的影响,所以如何站在数据分析师的视角做好数据管理显得尤为重要。K-Lab 提供了贯彻整个分析生命周期的数据管理服务,能够对不同数据源用相同的结构进行展示以及跟数据分析流程进行打通。在分析过程中,K-Lab 充分抓住了数据科学领域文学性编程和交互式计算的发展趋势,提供了一套面向探索的分析流程,提供了一种用数据讲故事的展现形式,提供了一种解决科研数据研究成果可复现性难题的方法。同时,K-Lab 通过提供开箱即用的分析环境、内置丰富的代码片段、打通产品与社区案例,帮助医疗人员大幅降低代码级分析的门槛,把更多精力放在科研创新的探索上。
解放军总医院医学工程保障中心的工程师李沛尧使用 K-Lab 向在场人员做了数据预处理基本方法及实践分享,首先帮助大家理解数据预处理的重要性和现代医疗大数据的信息架构组成,为高质量的数据分析打下基础,第二步再让大家掌握初步的数据预处理的基本步骤及方法,包括数据整合、数据清洗、数据转化和数据简化等内容,第三步介绍了如何使用 Python 对数据进行流程化预处理,以上内容都是基于 K-Lab 可视化界面进行展示的,K-Lab 具备模块化代码运行功能,能够把数据内容、代码、文本报告以及可视化结果全部结合在一起,分析过程和成果展示都十分直观,很大程度降低了参与者们对数据处理和分析培训内容的理解成本。随后,解放军医学院生物医学工程专业硕士研究生徐浩然介绍了 MIMIC 数据库、eICU 数据库,以及如何在 K-Lab 中使用这两个数据库。在传统场景下,用户往往需要通过 SQL query 方式进行数据提取,这样不仅耗时长而且数据安全无法得到保证,而在 K-Lab 中只需要一键挂载相应数据库便可直接操作使用,通过 K-Lab 个人无法远程下载原始数据且不能对数据库进行增、删、改操作,能够有效确保数据安全。
解放军总医院医学工程保障中心工程师范勇在现场对基于 K-Lab 平台的 EHR 数据基本流程及方法进行了详细演示,他从最近发表的一些高引用论文中的图片讲起,向在场人员展示了探索性数据分析(Exploratory Data Analysis :EDA)的重要性,以及如何通过这种方式从数据集中提出假设并寻找答案;范勇还通过 K-Lab 的可视化编程界面,展示了临床常用模型和方法,如逻辑回归模型、多元线性回归、cox 比例风险模型等,给临床科研工作者上了有价值的一课。
接下来,来自 IBM 中国研究院的数据科学家张渊在工程人员视角分析了如何做好医疗大数据研究项目,向大家展示了医疗领域中的经典案例分析,强调了医疗数据分析中的常见问题,并介绍了 K-Lab 等工具在解决在 EHR 数据处理和建模问题中的作用。
最后,培训在自由交流讨论中圆满结束,此次培训活动对大数据和人工智能的应用和推广具有很大意义:首先,这是一种跨学科的交流,各个领域之间的壁垒被打破,来自临床医疗、数据科学、统计学、信息学等领域的专业人才齐聚一堂,共同挖掘 MIMIC Ⅲ 重症医疗数据库的宝藏,合作解决临床医生面临的众多问题和未满足的医疗需求;同时,这种实践性的培训,倡导了大数据的理念,将这一理念真正落地,让临床医务工作者看到了不一样的临床科研思路。
医疗数据是大数据时代医学创新发展的基石,数据结合的跨学科科研合作也是未来精准医疗、智慧医疗发展的必然趋势。Datathon 这种由多学科人才跨专业组成的团队合作开展数据分析实践活动是为医院快速培养医疗大数据人才的一种行之有效的全新模式。