和鲸科技参与第17届中国R会议,分享有组织科研的模型生命周期管理

7月20日,第 17 届中国 R 会议 & 2024 X 智能大会 & 2024 数据科学国际论坛联合会议在中国人民大学逸夫会堂拉开帷幕,本次会议由中国人民大学应用统计科学研究中心、中国人民大学统计学院、统计之都和中国商业统计学会人工智能分会主办,由 Journal of Data Science 编辑部和中国人民大学数据科学与大数据统计系承办。和鲸科技作为国内领先的数据智能科技企业兼大会赞助方,出席本次大会。

本次大会致力于探讨数据科学在各学科、各行业的探索和实践。为更好地介绍和推广先进生产力,和鲸科技产品专家许以言以《有组织科研的模型生命周期管理》为题,在 20 日下午的数据科学实践专场发表主题报告,从平台和服务的视角回答了“领域专家是如何创造最佳实践的?”这样一个科研过程中易被忽视但具有学术和商业价值的问题。

最佳实践从何而来?

近两年,AI4Science 的创新实践呈现出百花齐放的态势。许以言表示,很多客户在和鲸平台上取得了“学科+AI”的创新成果,和鲸观察到他们在解决复杂问题时普遍存在以下两个显著特点。

一、“AI 专家-学科专家”跨角色协同科研

当解决单个课题中的某个明确问题时,通常几个伙伴一起,利用一些数据、几台 PC 或租用云服务,在经过多轮实验后便能获得“不算离谱”的结果;

但当需要解决一系列问题时,例如研究机构期望对某项技术进行攻坚克难,或高校开展学科与 AI 的融合建设,这种情况下往往需要组建起中等规模的团队。在跨学科人才相对匮乏的现状下,团队通常需要同时涵盖 AI 专家和学科专家,并制定好中长期的工作计划,在持续进行数据生产与收集、假设验证、数据与成果共享、投产实践,并依据新产生的数据进行迭代优化后,才能取得较为可观的结果。

“AI 专家 - 学科专家”跨角色协同科研流程

二、产学研一体化

但在上述解决复杂问题的团队协作方式下,仍存在部分问题并非是由个别单位能够独自解决的。

由于大量的科研问题和数据都源自产业端,而问题的解决需要先经过科研再由一线人员付诸实践,这就需要结合长期的人才培养与产业合作。许以言以和鲸与人大、浙大的合作为例进行了说明,这些头部院校除了专注于科研本身之外,还同时关注数据、模型成果开放平台的建设——一方面将这些资源投入到教学实训中,另一方面通过扩大影响力来撬动更多的资源。

长期的人才培养与产业合作

有组织的 AI4Science 创新

事实上,教育部曾提出的“有组织科研”便已经很好地概括了这种实践模式。

许以言以 AI 医疗影像为例,演示了科研场景下两类专家的协作过程:在算法开发阶段,需要医学专家输出专业知识来标注数据、特征选择,AI 专家训练模型;在算法应用阶段,AI 专家需要把模型部署为科研工具,医学专家用工具快速提取影像中的信息,二次分析输出报告/论文;两种专家不断交换数据、模型、观点。

她表示,和鲸可以提供包含平台和服务的完整解决方案,支撑各个学科+AI的融合实践

“科研平台应当像城市为居民提供基础设施那样,解决好数据流转、算力调度、计算环境的容器化复用,以及模型成果应用和知识成果共享等问题。”

学科专家所面对的是不确定性创新的过程,在假设验证中不断逼近科学原理。此过程将很注重可复现性,这关系着研究是否可靠,以及他人能否基于这份研究继续拓展。因此,和鲸平台将整个数据分析的过程纳入“项目”这一平台实体之中,涵盖了研究所使用的数据、代码记录、依赖环境,并且严格记录版本,整个研究过程的复现便变得轻松便捷。

可复现的探索研究过程

AI 专家的工作方式则更趋近于 MLOps 流程——以模型为中心,进行处理数据、模型训练、评估、部署监控,以及获取新数据并迭代。鉴于此,和鲸在平台中也兼容了这一流程,保证每一种实体皆可一键链接至下一环节,反之亦可追溯至上一环节。

敏捷地在业务中落地 AI 应用

和鲸 · 101 数智领航计划

仅靠基础平台还尚不足以支撑高校或者研究单位构建“学科+AI”的格局,产学研一体化的形成更需要软实力的建设。因此,和鲸还倡导高校在院级或系级设立 AI 虚拟实验室,并在校内成体系地建设“学科+AI 课程”,为科研的可持续发展培养未来人才。虚拟实验室将与和鲸社区相衔接,不仅能同时成为第一课堂、第二课堂以及老师线上教研室的载体,也能帮助高校连接行业资源、对接行业应用。

就第一课堂而言,虚拟实验室的作用在于使跨专业的 AI 开课更为简便。许以言展示了由南京大学所提出的“1+X+Y 人工智能通识核心课程体系”——即 1 门必修的人工智能通识核心课、X 门人工智能素养课、Y 门各学科与人工智能深度融合的前沿拓展课。针对各类不同的“学科+AI”课程,和鲸社区内丰富的实战案例能够使课程更具问题驱动和案例驱动的特质,进而培养学生运用人工智能技术解决专业问题的创新能力。在建设进程中,AI 教研组也能够在平台上远程开展课程讨论、工作布置、进度查看、成果上传以及组织管理。

方便AI教研组远程开展课程讨论、工作布置、进度查看、成果上传、和组织管理

针对第二课堂,虚拟实验室将提供缤纷多彩的 X+AI 活动、数科竞赛以丰富学生的实践经历。它还能够充当为一种新形态的实习平台——企业于平台上发布实习任务、分发数据集,以此确保数据安全不外流;学生在平台上承接任务,提前接触真实的业务场景,相关分析成果也可在平台上评估并长期留存。

此外,许以言表示和鲸已与智谱 AI 达成战略合作,双方将结合智谱 AI 基座大模型的技术优势以及和鲸 AI 基础设施的平台能力与产业生态,共同探索基于虚拟实验室,让 AI 本身也成为教、学、研的强劲助力,包括但不限于使学生能够自主尝试与大语言模型互动、微调,搭建学科智能体,让老师能够运用 agent 辅助教案设计等。

串联数据模型与领域知识的 LLM 智能体

去年,和鲸也参加了中国 R 会议,当时分享的主题是“ModelOps 在数据科学平台中的实践与应用”。那时,我们关注科研要素的管理,也重视科学研究的可复现性,还在思考如何为开放科研提供更可靠、更可控的分发渠道。

一年之后,和鲸找到了上述问题的答案,甚至是更多问题的答案。但这个答案不是和鲸单独找到的,而是在与许多高校、研究单位、机构合作后共同得出的。我们希望能向更多单位推广它,期待有更多单位实践它,然后我们一起不断地完善它。所以,在 2024 年,和鲸发起了“101 数智领航计划”,邀请高校和科研机构参与方法论的实践和讨论。

和鲸“101 数智领航计划”将开放限量名额,赋能学院建设 AI 创新虚拟实验室,助力院校有组织地开展人工智能融合教学,现已有近百所高校加入。

获取分享PPT、 101 计划相关材料、AI 创新虚拟实验室建设指南等,都欢迎您联系我们。也欢迎您费注册使用和鲸 ModelWhale 平台,体验使用云端环境高效开课。