实录速递 | 和鲸ModelWhale助力医学Datathon跨学科协同，共筑数据科学与临床研究标准化新路径

导读

2024 年 11 月 14 日至 17 日，第五届医疗大数据及 Datathon 活动在京圆满召开。本届 Datathon 共集结了 23 队、236 名医学及数据科学领域精英同场交流竞技，促进“理-工-医-信”四大学科的深度融合。和鲸凭借其自研的 ModelWhale 数据科学协同平台，再次为该届 Datathon 竞赛从会前培训到正式比赛提供强力支持。为更好帮助参赛选手提升参赛体验，更好地进行医疗数据分析实操，和鲸科技客户成功副总监郑凯少向参赛选手简要介绍了本次 Datathon 比赛云平台 ModelWhale 使用指南。

分享嘉宾郑凯少

郑凯少，上海和今信息科技有限公司客户成功副总监。硕士毕业于北京大学软件与微电子学院，从业后专职服务医疗领域与相关产业，拥有丰富的数据挖掘、大数据与 Al 相关服务经验。

01 Datathon 报名与组队

各位参赛选手登录 ModelWhale 后，进入“比赛专区”，并在相应赛道中完成在线报名。本次 Datathon 活动设置两大赛道，赛道一主题为临床洞察挑战，赛道二主题为多模态融合创新。完成报名后，选手可在平台上进行组队。组队功能对于团队协作至关重要，选手可以通过平台的组队功能找到志同道合的队友，共同为比赛努力。组队完成后，选手可在平台上看到其他队伍的信息，以及自己的队伍状态。

02 数据提供与接入

ModelWhale 以便捷的数据接入流程为支撑，确保每位选手都能顺利获取并处理比赛所需的数据。本次比赛的数据提供方式分为两种：结构化数据与非结构化数据。结构化数据以数据库的形式呈现，涵盖了 MIMIC-IV、MIMIC-III、inspire 等丰富的数据源。选手们只需点击相应数据，即可进入预览表界面，全面了解数据表、数据字段、数据字典等基本信息，为数据分析打下坚实基础。非结构化数据，如多模态数据，则通过 ModelWhale 的文件存储管理系统进行提供。选手们只需进入 NAS 空间（即界面上的“NAS root”），即可浏览并获取 VitalDB 数据库等项目的相关数据，以文件形式进行使用。

考虑到本次比赛的大数据特性，和鲸特别为参赛团队提供了在线的分析环境和工作环境。赛道一提供 32C64G 的 CPU 计算资源，赛道二则提供 16C32G 配置 V100*2 的 GPU 资源，以支持多模态数据的处理和分析。和鲸还为选手们提供了多样化的镜像环境选择。无论是使用 Python、Java 还是 R 语言的团队都可在“镜像环境”中找到适合自己的语言及计算资源环境类型。只需点击添加按钮，即可轻松配置你的数据分析环境。

03 项目配置与运行

在完成计算环境和资源的配置后，选手在进入新建项目时可选择两种编辑器进行配置。一种是 notebook 交互式建模工具，另一种是 IDE 工具。对于使用 Java 或 C++ 语言的选手，可以直接选择 IDE 工具；而对于使用其他语言的选手，则可以选择notebook交互式建模工具。

以 notebook 编程工具为例，在选择完编程工具后，选手们可添加本次比赛所需要的数据集。在“他人共享”中，选手们可以找到数据库连接，无论是结构化数据还是多模态数据，都可以快速添加关联。然后，点击下方“创建”按钮，即可创建一个基础的在线编程模板。以 16C32G V100*2 配置资源环境为例，在创建好项目后，选手们可以在左侧确认数据是否关联成功，选手们可以直接右键复制数据路径放入编辑器中，进行代码运行操作。同时，在界面右侧点击右上角的“运行设置”按钮，可以进行进一步的配置。考虑到比赛提供了大量的数据和计算资源空间，平台为每个选手提供了 20G 的个人存储空间。如果存储空间不足，选手们还可以点击“申请扩容”按钮进行扩容。

编辑器中也支持通过 pip install 的方式安装包运行。安装完之后，可以将环境保存，避免下次启动时反复安装。此外，除了结构化的表数据外，ModelWhale 还提供非结构化数据的分析支持。选手们可以找到图像数据后，以代码的方式复制到编辑器中进行处理。对于数据库中的数据，选手们可以直接挂载例如 MIMIC-IV 数据集，并一键复制使用数据库示例代码。将这些代码添加到在线环境后，点击运行即可执行查询等操作。通过这样的流程，选手们可以快速接入主办方提供的数据，并开始项目构建。

04 多角色协同工作

ModelWhale 不仅提供了丰富的算力资源支持，同时也支持多角色协同。数据分析师或数据工程师可以微调数据，建模工程师则可以进行深度学习框架的训练。通过这样的方式，团队成员可以获取不同任务的工作成果。团队在面临一项需分步骤完成的工作、且需由不同角色的人员参与时，ModelWhale 支持先对项目进行保存，并随后将其分享至团队内部，团队成员在接收到项目后，可根据实际需求为其配置相应的权限，包括但不限于查看、fork 及 merge 等。

如果选手是团队协作者，可以在项目的“他人共享”模块中查看到由他人共享并可供其协作的项目。在获取项目后，通过点击 fork，选手能够获取项目的完整代码，并选择 notebook 运行环境进行直接运行。以数据工程师为例，在完成数据抽取后，ModelWhale 会妥善保存工作成果。若团队某成员已通过代码完成了数据处理，并按照后续工程师的要求进行了数据的归档与整理，那么就可以将项目保存，并通过合并的方式提交至其他成员中。如果选手是原始项目的创建者，则可以接收到团队提交的代码，并进行合并操作。最终，所有的项目代码都会整合至最初创建的项目中。

此外，IDE 建模工具的操作流程与上述步骤基本保持一致。以 Java 语言为例，选手同样能够挂载结构化和非结构化的数据集。进入运行界面后，选手需先点击运行右侧的挂载按钮以获取计算资源，并选择可使用的镜像。运行界面与工程师角色在本地使用的 VScode 界面高度一致，选手可使用 VScode 的快捷键及操作方式。打开界面后，选手将看到一个纯工程代码的操作界面。在左侧可以点击上传文件按钮，将本地的工程文件等导入平台，并利用平台进行数据抽取等操作。

05 助力临床研究可重现性

和鲸深知在临床研究中，研究的可重现性至关重要。与其他领域相比，临床研究对可重现性的要求更为严格。然而，在实际操作中，当前许多研究人员使用的编程语言（如 R 语言）存在环境不一致的问题，多角色协同上面存在非常大的障碍和阻碍。为了解决这个问题，ModelWhale 应运而生，旨在提供一个统一、高效、可重现的研究环境。

和鲸倡导遵循 FAIR 原则，采用容器化等技术手段确保代码环境的一致性，保证数据和环境的可复现性。ModelWhale 实现了数据的统一接入和管理，通过对象存储、数据库接入系统以及接口等形式，将不同结构、不同格式、不同形式的数据统一接入到研究数据集中。同时，ModelWhale 还提供了在线分析和运行环境，以及多角色协同工作的功能，以支持研究的可重现性。

以 TCGA 肿瘤基因组数据库研究环境准备复现为例，这一项目覆盖了 33 种癌症类型，涉及超过 11,000 名患者，数据量高达 2.5PB。这些数据不仅涵盖了各种组学数据，还包括了患者的基本信息、治疗过程、临床分期和生存状况等关键临床数据。鉴于研究数据与模型的复杂性，个人 PC 难以承载如此庞大的计算任务。同时，项目涉及跨地区的研究合作者，因此，利用云计算环境进行研究的复现与深化成为必然选择。为此，ModelWhale 提供了即开即用的分析环境，通过容器镜像封装了临床研究复现所需的所有环境信息，包括 R 语言版本、Python 版本、使用的工具包、操作系统以及系统依赖等。

对于特定的临床研究，甚至研究中使用的具体版本，和鲸都能准确跟踪并记录其使用的环境信息。这使得合作者只需将代码文件链接发送给对方，对方即可轻松启动对应代码文件的环境，极大地提高了合作效率与研究的便捷性。

您可点击这里，探索和鲸 ModelWhale 更多功能~

本文内容已做精简，如需获取专家完整版视频实录及课件，请扫码领取。

导读

分享嘉宾 郑凯少

分享嘉宾郑凯少