可复现、开放科研、跨学科合作:数据驱动下的科研趋势及应用方案

信息技术的快速发展,催化了数据科学场景下科研组织提高科学研究的可复现性、实现开放科研、开展跨学科领域的交叉研究等协同诉求。本文剖析了此三类诉求的实现难点,并提供了系统化的解决方案。

数据驱动下的科研诉求

现如今,越来越多的研究者用量化的方法解决科研问题,不仅会对广泛的数据作实时、动态地监测与分析,更把数据作为新的对象和基础来思考、设计和开展科学研究。这给科学界带来了更严谨、更有创造力的科研成果,极大地提升了科研效率,但同时也对数据驱动的研究范式与工具提出了更多的要求和挑战,我们将其归结于科研团队的三方面诉求。

1. 科学研究的可复现性

可复现性指的是在相似条件下,在重复测量、实验、计算等研究过程中可以得到相对稳定的数据结果。“可复现”通常被视为一项有意义的科研成果的重要标准。

相较于基于文本的传统学术信息交流,数据驱动研究中的文献与数据紧密相连,为此学界需要一个二者可以交互的环境,提高传递和获取学术信息的效率,帮助研究者在查看文献的同时可以获取研究数据进行复现,保证科学研究过程更加高效,结果更加可靠。

2. 开放科研的学术理念

以“自由、开放、合作、共享”为特征,通过科学资源的开放共享与开放获取,可以提高科学研究的透明度与传播力,实现更多科研合作、促进更多科学发现。

数据驱动的研究不仅需要更完善的学术交流体系,对于共享数据的需求也会更加强烈。数据的聚合应用需要研究者将从不同地方获取到的数据黏合在一起,形成新的数据集,为了避免重复劳动并实现研究项目结束后数据价值的最大程度挖掘,更加广泛的数据资源开放是未来发展的必然趋势。

3. 跨学科领域的交叉研究

信息技术的发展推动传统学科交叉融合,各个学科领域的研究者开展多主体、多视角的学术合作已经成为了当代科学探索的一种新范式。

在数据驱动的研究中,一方面,数据作为学科间同质化的基础和媒介将弱化学科边界;另一方面,随着科研方法从传统的假说驱动型向探索型转变,开展跨学科领域的交叉研究将有利于对获得的海量数据进行更全面的关联性分析,形成学科间优势互补,解决更多复杂的科研问题。

云计算时代的数据科学协同工具

然而,当前科研团队在上诉诉求的实现过程中仍面临着各种各样的困难,例如:生产要素的复杂性将导致复现流程繁琐、数据对外公开易产生安全隐患、学科认知差异致使研究思路难以传递等……某种程度上,我们可以认为部分科研团队缺乏了高效流畅的对内对外协同机制

为此,下文将结合真实科研案例及数据科学协同平台 ModelWhale 的解决方案作具体解析。

科学研究的可复现性

数据科学场景下的可复现

在过去 10 年中,“可复现性危机(Reproducibility Crisis)”经常被研究人员、管理人员以及社会公众所提及。2016 年,《自然》(Nature)期刊对 1576 名来自不同领域的科研人员开展了调查,超过 70% 的受访者表示曾遇到过无法复现他人实验的情况,一半以上甚至表示无法复现自己的实验结果。显然,若科学研究的结果难以或无法复制,这种失败将破坏建立其之上的理论的可信度,使公众对科学知识的可信性产生质疑。对此,越来越多的研究者开始重视并努力提高其研究领域及研究成果的可复现性来应对此“危机"。

关于“可复现性危机”的调查 (图源 Nature 官网)

相比于传统研究,数据驱动研究的特殊性在于它的生产要素相对复杂——要完成复现,科研人员至少需要同时获得以下信息:

1. 研究所使用的数据

数据是最关键的生产要素,随着可复现性危机的产生,越来越多的期刊、出版社都会要求作者提供原始数据文件。在数据层面当前主要存在着两个问题:

其一是数据管理问题。科研数据的规模大、类目多,本身就不易保存,而在研究的过程中科研人员又可能经常需要补充新的数据或者使用新的特征,则还需要妥善管理好所有数据处理记录和各个数据版本。若中途发生了硬件故障导致数据丢失,或者备份、记录不清导致版本混乱,都可能造成后期无法提供研究所使用的原数据。

其二是数据的安全和权限问题。某些科研人员在发表论文时可能会因数据集的安全或权限问题而对公开传播产生顾虑,比如一些私下合作的数据,就有可能涉及到隐私或版权问题。这种情况本身不可避免,但若是研究者无法提供数据集,他人也自然无法完成复现的工作。

2. 研究过程中的代码文件

在论文投稿发布时,很多作者会在原文中附带上开源代码的获取方式,如告知读者可以进入对应的 github 代码仓库下载,从而便于其他研究者对项目复现。某些研究的源代码可能存在一定的代码规范、代码抽象或代码解释问题,即便他人获取了源代码,也很难理解每串代码的具体功能和作用,无法对研究思路的理解提供帮助。

3. 研究所使用的分析环境

找到源代码后,在运行代码前,科研人员还要先根据源码的需求调试分析环境。环境的切换也比较麻烦,需要下载安装各种依赖包,并要注意版本问题。此外,安装的过程中即使是按照步骤一点一点配置,还是可能会产生各种各样的报错。这种高重复、低价值的科研活动往往会在复现的过程中带来无谓的时间损耗。此外,计算性能的瓶颈也一样会为复现带来阻碍,往往需要研究人员付出额外的调试成本。

4. 匹配整个研究的各要素的对应版本

这一点主要针对于研究团队内部的“复现”需求。随着科学研究的主体呈现出从小团队科研到大团队科研的明显趋势,合作发文的背后则是科研人员间愈发频繁的协同工作。当团队成员针对研究的各个阶段开展分工合作时,需要实现生产要素在研究团队内部的流转与共享,这是因为下一阶段的工作很有可能以上个阶段为基础,而上个阶段的生产资料又有很大概率来源于团队内的其他人。若是在获取他人的数据或代码时出现版本错误等情况,不仅复现失败,也会对后续研究的开展造成影响。

我们可以看到,在数据驱动的研究中,复现与协作过程中的一些阻碍将影响到科研人员的研究效率,需要有特定的技术和工具支持。

解决方案

基于 ModelWhale ,研究者可以相对比较轻松地完成科研成果的复现及生产资料的共享。

首先,ModelWhale 作为开箱即用的数据分析挖掘平台,同时具备了强大的协作及管理功能,科研人员可以以项目为单位实现数据、环境及代码等生产要素的一体化整合配置管理

  • 当研究者为研究新建一个项目时,可以选定项目所使用的分析环境,除了使用平台预置的环境外,也可以构建自定义分析环境。ModelWhale 会自动记录每一次代码运行时的镜像环境,以便于运行和复现时自动匹配。同样地,ModelWhale 也会记录代码运行时所选用的数据并在后续自动匹配。
  • 完成阶段性的研究后,研究者可以将项目一键共享给团队成员。出于对科研资料安全的考虑,数据、分析环境和项目的使用权限可以单独设置。例如,研究者禁用数据下载权限,仅允许他人在线查看代码和使用数据完成复现,而无法将数据下载至本地。ModelWhale 也提供了申请-审核功能,协作者可以在拷贝项目时,主动申请获得项目相关的数据源及镜像环境的使用权限。

在 ModelWhale 的既往客户中,北京协和医学院就采用此种方法开展教研活动。当老师在辅导学生学习医学数据挖掘的方法时,会对国内外经典临床研究论文进行复现,将数据的提取、探索、统计分析全流程的代码,以及过程的思路制作为一个在线 Jupyter Notebook ,并且关联好论文的数据以及包含了该研究所需的包依赖的环境镜像,则学生可以一键运行复现整个研究的代码,免去从头搭建环境的困扰,快速理解论文作者的研究思路,甚至可以快速调整数据、方法与参数,即时获得运行结果,开展更多探索性研究。

另外,这一复现工具也可以帮助研究者使论文发布前的同行评议过程更为高效。在投稿时附带上项目的查看链接将提高投稿完备度,并在无形中提升了论文的可信性。审稿人除了能快速查看数据分析的完整流程外,也可以就项目 Notebook 中具体的 Cell 进行提问和评论。对于研究的模型成果,科研人员可一键完成自动化部署并发布为网页应用,则审稿人就能在网页端直接上传数据,实时看到模型的调用结果,对论文产出有更直观的认识和更准确的评价。

ModelWhale 还为内部的所有生产资料都提供了版本管理功能

  • 代码:对于阶段性的研究成果,科研人员可以生成一个项目版本,则其他人可以通过项目版本同步进度和完成协作,在该版本之上进行后续的研究工作。
  • 数据:在研究过程中,对数据进行修改后,科研人员可以即时生成新的数据版本。通过组织内共享,团队其他成员也可以同步使用新版本的生产资料进行分析研究。另外,只需切换数据至特定的版本,研究者就可以随时复现之前的研究成果。
  • 分析环境:在研究过程中不断引入的新的量化方法可能会调整分析环境中的工具包和框架,研究人员也可以生成版本以确保使用此前分析环境的历史项目依然可以运行。
  • 模型服务:训练得到的模型进行迭代升级后,ModelWhale 支持更新部署的模型服务版本供调用、验证并获得反馈。同样地,模型服务也可以随时切换回历史版本。

最后,课题研究完成后,科研人员可以选定运行时的分析环境、挂载的数据集、最后的代码版本,将生产要素全部整合在一起,并补充一定的文字说明,沉淀至组织的课题成果库中。一方面,团队内的其他成员可随时查看成果库进行复现;另一方面,这也同时解决了科研人员随着时间推移由于分析环境改变或文件丢失而无法复现自己既往成果的问题。

ModelWhale 项目成果管理界面

科学的发展既要踩着前人的肩膀,又要走前人没有走过的路。无论是将原始数据、分析方法分享给他人以降低其复现结果的难度,还是在团队内部共享交流,科学进步的成功总是取决于“复制+创新”产生的共同效应。ModelWhale 通过生产要素的一体化管理及零门槛易上手的获得与复现流程为数据驱动的研究提供了更有效率的协同平台。

开放科研的学术理念

数据科学场景下的开放科研

近年来,开放科研的学术理念逐渐受到了国内外研究者的欢迎和推崇,2017 年就有一群学者在《自然》杂志上发表了倡导开放科学的“宣言”。开放科研通常包括了开放获取(Open Access, OA)、开放数据(Open Data, OD)、开源运动(Open Source Movement, OSM)等方面。随着信息技术的发展,开放科研更是受到了前所未有的重视,这主要源于数据科学场景下研究的数据驱动的特性。

一方面,开放科研的发展促进了科研成果的共享,尤其是开放数据,有利于发挥科学数据的最大价值。单个的科研项目终会在一个时间点结束,而项目结束后这些数据的去向是研究者一直关注的问题,科研数据包括的信息类和数据项丰富,贯穿于科研的整个周期,通过数据共享基础设施开放和传播将解决当前科研数据的剩余价值流失问题。

另一方面,开放科研可以让更多的人共同参与科学研究工作,为数据驱动的研究提供社会效益的支持。针对类似于大流行病这类相对复杂的问题,开放的科研网络可以为研究提供大规模更结构化的开放数据,减少数据重复生产的同时支持研究高效推进;另外,将模型公开给更多的人使用并收集相关评述,相当于是在完成大规模的“同行评议”,有利于模型成果持续优化,提高研究者的科研产出质量。

然而目前仍存在着许多壁垒阻碍了开放科研的实现。

就数据来说,首先,科研数据的数据源载体多、存储形式多样、数据类型广泛,给科研人员的数据分析、共享及管理过程造成了比较大的麻烦。在数据驱动的研究背景下,海量数据通过多种途径和方式获取,并存储在硬盘、数据库或其他存储介质中,则研究者每次进行数据分析时都要采用不同的方式调取数据分别管理。与此同时,数据共享的方式也比较局限,若是使用网盘共享,数据上传、下载耗时耗力;移动硬盘共享倘若后续发生数据修改也很难再同步给相关共享人;云计算虽然可以调用公开数据,但有些无法提供本地上传数据集的接口,也并不方便。

其次,传统的有限防护机制不一定能保障数据权益和数据安全,数据共享者将面临风险责任与权利受益的矛盾。一方面,科学数据本身具有可复制性,在共享中易被窃取,造成数据贡献者自身产权受到侵犯;另一方面,数据的集中化共享很有可能导致数据使用边界模糊,增加了数据误用、数据滥用等多重风险。现有大部分共享平台可追溯性差,即使数据泄露,参与用户也很难追究。

以上这些问题使得对于那些有数据资源的科研机构来说,即使想要将数据公开给非内部人员使用,所能实现的方法也非常局限——要么只能允许内部熟识且有一定信誉度的科研人员拷贝数据,要么就是外部科研人员自行撰写繁复的申请报告,再实地去到机构的机房中完成数据分析。因此,如何在开放的同时管控公众对生产资料获取、使用和保存的权利,可能是科研人员面临的一大难点。

解决方案

ModelWhale 为科学研究生产资料及多形态科研成果提供了安全、完善的共享交互和公开机制。

当科研机构基于云端环境搭建起科研数据沙箱后,即可实现数据云端安全公开和调用管理。机构的数据管理员可以通过平台多种方式接入存放在本地、数据库、对象存储以及 NAS 空间的各类数据并进行统一管理,添加数据描述和标签,通过权限系统控制其公开的范围。

管理者可有选择性地将可开放的数据公开至机构的门户页,实现更大范围的数据共享和传播;尚不合适公开的也可以只给到内部的研究人员,支持其在线分析。另外,管理者可以将各个成员的数据需求与其所参与的研究课题、研究进度相结合,进行数据定向分发,保证数据使用权限在机构内部也能保持个体独立。

数据管理员还可以自定义每个数据集访问用户的查看、使用或下载权限,实现数据公开且不落地,并通过平台自动生成“数据账本”,查看数据实时、完整的使用记录, 从多个环节有效避免了数据的安全隐患。

另外,ModelWhale 支持为每份数据生成一套 DOI 标识,在认证数据权益的同时,他人也可以通过 DOI 号快速分享或查找到相关数据集,更进一步提升了数据价值利用的科学性和可持续性。

华东师范大学就曾采用这项机制来建设他们的研究数据中台,打造了一个集数据沙箱、数据出版和数据公有链于一体的数据闭环系统。数据沙箱实现的是数据隔离和数据不落地分析,保护数据隐私和数据版权的同时,让研究者可以线上分析数据,最大化地提升了数据的利用率;数据出版实现的是为数据集和数据富媒体绑定 DOI 链接,可以快速跳转并精确定位到相关数据集,在完成数字对象标识的同时可以对数据定位、引证、溯源、故障追踪,以及数据互操作等诸多功能;数据公有链实现的是以区块链的形式记录数据集的使用记录,通过去中心化提升数据集历史使用记录的信用度,研究数据中台还会将日志记录通过区块链算法的加密,然后广播到区块链每一个服务节点。

华东师范大学门户页展示

除了数据之外,ModelWhale 还支持更多类型的成果开放发布,比如研究项目、模型成果等。

科研人员可将优质的数据集和已完成的研究项目一同公开分享或沉淀至机构的门户页,便于他人复现,实现更大范围的共享传播。既能吸引更多研究者在平台上进行相关课题的协同探索,也能在公开的过程中收集公众的反馈,对数据和项目进行检验和完善,形成更多高价值科研成果。

算法模型作为数据驱动的研究中较为独特的要素,ModelWhale 为模型开放也提供了专门设计。对于训练完成的模型,科研人员可以方便地自行完成自动化部署并公开发布,他人则可以通过公开的外部链接直接应用模型,一方面提升了模型的实用性,另一方面,社会面的大规模应用也是检验模型的实际效能的一个过程。研究者可以根据平台记录下的模型被调用的次数、历史、及使用过程等信息,来制定下一步研究计划和优化方向。

开放科研使研究的形态从独立走向聚合,让每一位科研人员既是生产者又是使用者,既是开拓者又是受益者。ModelWhale 持续关注各个科研主体在公开共享过程中的顾虑和诉求,打破基础设施的壁垒,充分释放数据驱动的研究价值。

跨学科领域的交叉研究

数据驱动的催化作用

“跨学科”一词最早出现在 20 世纪 20 年代,指超越单一学科边界进行的涉及两个以上学科的知识创造和传播活动。自这一概念被提出后,科学家们发现跨学科的研究成果普遍存在着多样性,能够解决更多科学研究的复杂问题,甚至几乎可以说,现实中的一切重大课题,如寻找传染病的病源、人类基因组测序、航天探索、灾难救治研究等,都是需要通过跨学科合作的形式才能完成的。

随着过去十年数据的持续爆炸,数据驱动的研究方法更是成为了推动科研人员跨学科交叉研究的催化剂。数据本身具有“非学科性”的特点,可使各领域的界限变得模糊,让不同学科之间的研究对象有了同质性的基础,打破了过往学科差异下“各自为政”的状态。社会科学界的研究者可以联手数据科学界的专家,甚至自然科学界的学者,共同采用量化分析的方法开启规模更大、参与更广的合作研究。当多领域的科研人员聚集在一起,采用共同的框架和新的科学语言时,既能加速科学创新,也能赋予研究者更多发展空间。然而,研究方法与合作模式的改变还是会给科研人员在研究过程中造成一定障碍。

其一是学科专业知识与数据分析能力存在协作隔阂。

当开展基于多学科数据驱动的交叉融合研究时,数据分析手段应当与学科的实际问题紧密相连,二者形成双向驱动。一方面,学科知识可以指导数据工作,给数据分析提供更多理论支持;另一方面,数据不仅可以用来检验理论,也可以为理论建构提供新的启发,拓展理论建构的新方向。

然而,部分领域的科研人员本身数据分析能力较弱,在实际合作开展研究时难以参与至数据阶段的工作,常用的分析工具上手门槛又较高,需要耗费很多时间精力再学习;相对的,数据研究者虽然分析能力强,却又不一定了解各个学科的研究范式和专业,研究思路在传递的过程中很容易产生信息流失或理解偏差,对数据分析建模的准确性造成影响。

其二是客观因素导致的研究团队项目管理与资源同步效率低。

由于开展跨学科研究的科研团队成员通常各居于不同的地方,若缺乏频繁的信息同步,则成员彼此间很有可能对他人的任务情况和研究进度不了解,这将导致一些重复工作或者某些任务无人认领的情况;另外,文献材料、数据、代码等生产要素和分析结果只能通过通讯软件采用文件传输的形式共享,一旦任何成员进行了修改,则需要再次同步,这将在不同设备中形成多个文件版本,难以管理。

数据科学场景下,如何充分释放各领域研究者的优势和特长,实现理论与技术的相互渗透与融合,是保证跨学科领域的交叉研究顺利推进亟待解决的问题。

解决方案

ModelWhale 以丰富的基础设施建设使科研人员在研究中的参与及合作形式更加多样化。

平台为用户打通了底层架构,零基础的科研人员无需任何软件安装及环境部署,随时随地登录账号即可开始科研分析。针对“学科 x 计算机”或数据驱动的“学科 x 学科”的融合研究,ModelWhale 同时提供 了 Notebook 交互式编程、 Canvas 拖拽式编程和 CloudIDE 三种开发模式,契合不同工程能力研究者的分析工作需求

  • 首先,各学科领域的科研人员在即开即用的云端环境下可快速参与至数据工作中,Canvas 画布式的界面采用低代码的编程方式,研究者只需通过简单的图形连接并设置好参数,即可搭建起最底层的科研思路,相较于传统口述式的信息传达,更为直观高效。
  • 分析流程搭建完成后,数据工作者即可将 Canvas 的模型组件无缝转化为 Notebook 代码,开展后续的精细化分析建模工作。对于比较标准化的数据分析流程,数据人员也可将常用的代码制作成代码片段并分享给团队内部其他成员,方便快速调用。
  • 此外,基于 Canvas 与 Notebook 间互补转换的敏捷开发模式,兼备数据能力和领域知识的高级工程人员可以先用 Notebook 构建一些细分方向的标准化研究流程,而后将其封装为 Canvas Flow 研究模板,则此模板既包含了研究方法本身的传递,也可以直接给到其他研究者进行使用。

上海交通大学临床研究中心在与某些顶尖的三甲医院,如上海第六人民医院、上海儿童医学中心的医生开展临床研究合作时,研究中心的生物统计师即会搭建多个可复用的低代码临床研究分析模板,给到医院不同科室的相关医生使用,方便其直接通过分析模板快速开展课题研究。在此过程中,双方也可以直接在平台上针对研究过程中的重点难点问题进行讨论与协作。

ModelWhale 三种开发模式界面展示

另外,跨学科研究的数据量一般比较大,模型相对复杂,当计算资源或工具跟不上的时候,研究者很难自行管理偏工程的基础设施。以遥感中心为例,机构有着非常丰富的遥感数据,除了提供给内部的研究人员做数据探索分析外,也同时与十余家企事业单位在相关领域开展了遥感数据应用的研究工作。然而,遥感数据分析需要使用大量算力,但由于硬件资源有限,机构需要特地设置专人来负责机器的运维和算力的管理协调工作。

ModelWhale 除了提供从数据到代码版本管理的协作机制外,同时解决了机构与众多合作者开展研究时的算力调度问题。管理者可为组织轻松接入各类算力,并根据需求将算力拆分或组合,进行更为精细化的分发、调配和管理,保证科研人员可根据计算需要弹性调用各类 CPU/GPU 云资源、进行离线运行,从容应对不同复杂度算力需求。

最后,针对研究过程中团队内部的项目管理与资源同步问题,ModelWhale 支持团队将研究课题拆解成多个阶段任务进行宏观管控。研究者可以在各个细分任务中实时查看进展情况,并明确每个人的职责分工。任务完成后,任务结果可以以项目、数据集、文件等多种形式提交,则其他成员即可在线查看或 Fork 项目,并就结果发表意见或进行讨论,不受时间和地域的限制。这有利于科研团队把控整体研究节奏,完善信息同步流,提高研究课题交付的效率。

随着新一轮科技革命和产业变革加速演进,新的学科分支和新增长点不断涌现,学科深度交叉融合势不可挡。除了对科研过程的支持外,ModelWhale 还提供了教学评一体的课程模块,可以帮助高校和科研机构培养更多高层次的创新型、复合型人才,为跨学科领域的交叉研究注入新鲜的源动力。

结束语

无论是守护科学研究的权威性,还是以开放共享缔结科学共同体,又或是助推学科融合、探索更复杂的科研系统,随着大规模科学数据的增长,数据驱动的科研协作将成为未来科学发展的必要条件。数字化给每个行业都带来了很大的变化,但科学领域是一定存在其独特性的,在面向未来的科研精神和科研意义之下,数字技术应当为科研工作者的探索持续赋能。

作为数据科学协同平台,ModelWhale 希望能给每一位从事数据驱动的创新研究的开拓者提供支持。ModelWhale 提供了即开即用的云端分析环境,将科研数据管理、建模分析、模型服务、任务及权限管理等功能深度整合,可以使数据驱动的研究更加便捷高效。

过去5年来,清华大学、南开大学、华东师范大学等高等学府,国家气象信息中心、国家人口健康科学数据中心、紫金山实验室等先进科研组织都与 ModelWhale 进行深入合作。未来,ModelWhale 希望与更多高校和机构联手,活用双方所积累的海量数据资源,一同开拓新的研究与应用。ModelWhale 将持续升级产品功能,完善全方位服务体系,欢迎更多组织共同交流沟通。