北大3人队夺冠全记录,默克主办的逆合成反应预测大赛尘埃落定

4月19日。

上海浦东,博雅酒店。

一场激烈厮杀落下最终句点。

历时 89 天,371 位选手,735 种结果,来自北京大学和望石智慧科技的 MDL 团队冲破重围,一举夺魁,“默克”逆合成反应预测大赛落下帷幕。

“默克”逆合成反应预测大赛合照

作为国内鲜有的生命科学与人工智能的跨领域大赛,“默克”逆合成反应预测大赛吸引了各大高校企业的精尖人才,为这两个领域之间的结合打开了一扇窗。

经过层层角逐,最终 6 支团队晋级决赛,路演当天更是热闹非常,大赛邀请了 5 位重量级评委、数十名大众评委和多位媒体老师们亲临现场,见证冠亚季军的诞生。

大赛排名由 5 位重量级评审根据现场路演展示共同商议得出,他们用专业的目光给出了最佳答案。

评审团队

直击盛典现场

首先,大赛由默克生命科学中国区董事总经理、科研解决方案中国区副总裁 Steve Vermant先生进行开场致词。

Mr. Steve Vermant 正在为决赛路演致词

6 组团队分别就各自的作品进行展示。

选手正在展示团队作品

新华社、中新社、上海热线、网易、China Daily、好奇心日报、生物谷、数据商业家等媒体老师们也来到现场,聚焦这场智慧与思维的比拼。

媒体老师们正在现场聆听决赛路演

默克生命科学数据科学家邹传新(Robin Zou)正在点评

默克生命科学数据科学家邹传新(Robin Zou)表示:

本次大赛是 Merck 结合自身业务,以开放的姿态与国内顶尖高校、企业的人才共同探索 AI 在化学领域的应用。

大赛涌现了很多优秀作品,我们共同见证了 AI 前沿技术在化学合成分析上展现出的巨大潜力,也更加期待 AI + Chemistry 技术能在未来更好地融合。

默克生命科学科研解决方案市场部产品经理杨微娜(Weina Yang)表示:

默克生命科学的 Synthia 可以被认为是在模仿人类化学家的思维模式工作,而且这个化学家的脑容量非常大,但目前尚不具备自我学习能力,无法发现新的有机反应。如果可以结合Al的深度自我学习能力,相信未来可以为更多目标分子提供更多的创新型策略。

聚焦决战之师

· 一等奖 ·

MDL 团队

一等奖由来自北京大学“分子设计实验室”和北京望石智慧科技有限公司的 MDL 团队摘得,成员的背景涵盖化学、化学信息学、药物信息学与计算机。

他们的作品基于深度学习模型 DeepRetroReact,直接来预测反应物,并基于反应规则来预测可能的候选反应物,再对生成的反应物进行打分,设计策略选取最佳的反应物组合。团队采用机器翻译的 Transformer 模型作为核心架构,根据 product 和 reagent 为每个反应加上反应类型标签,并加入了 atom 的信息,确保得到的结果在化学形式上更加合理。

MDL 团队表示:

首先要感谢队友进行的模型构建和协作,也非常感谢这次比赛,大赛竞争动力很足,大家也一直在靠团队的力量解决问题,最后还要感谢老师的支持。

用计算去理解生物和化学的世界,会大幅提升研究效率,如今技术的提升更是让我们能够认识化学世界,并对真实行业发展有所改变,也希望有更多和默克一样有实力和社会责任感的公司开展结合学术和工业生产的探索。

· 二等奖 ·

DDDC 团队

二等奖由来自中国科学院上海药物研究所药物发现与设计中心的 DDDC 团队摘得。团队成员长期致力于探索机器学习与人工智能前沿技术在药物设计方法学及计算机辅助药物设计中的应用。

DDDC 团队使用了图卷积神经网络,将反应条件作为信息引入模型指导逆合成预测,使每个原子的特征编码存有周围环境的信息,之后对每一种反应试剂组合进行了可训练的特征编码,再将原子对中两个原子的特征及反应试剂特征整合在一起,对每一种可能的原子对变化的概率进行预测,进而预测出反应物。

· 三等奖 ·

杨lab的六学小分队

Fudan-Panacea

三等奖杨lab的六学小分队团队Fudan-Panacea 团队共同摘得。

杨lab的六学小分队成员来自中山大学,具备信息技术与科学和生物统计背景;Fudan-Panacea 团队成员来自复旦大学,具备计算机科学与技术和药物化学背景。

杨lab的六学小分队的方案首先对数据进行了标准化,转化成 SMILES 格式,再构建字典,得到分子向量;在算法模型方面,他们选择了基于 Attention 的 Encoder - Decoder 模型,增加了 Attention 机制,以期在预测过程中更好地注意到化合物分隔符“."的存在,得到更多的正确的化合物个数。

Fudan-Panacea 团队设计了基于 Seq2Seq 模型的逆合成反应预测算法,它以 Seq2Seq 模型为基础,结合了数据处理、数据编码以及结果改善等方面的功能创新。该团队也使用了 Attention 机制,增强模型的精度;同时采用原子编码的方式,提高训练速度,并使用 teacher forcing 技术对模型进行训练,有效加速了 Seq2Seq 模型的收敛速度。


回溯远古时代,人类便已经开始摸索生命、探索自我。

干细胞治疗、基因组疗法、精准医疗等近年来兴起的新技术,让人类对生命科学的发展有了新的认识,但它与人工智能的结合依然路漫漫。换个角度来说,这也是孕育新机会的沃土。

历时近三个月的比赛结束了,大赛组委会选择这一个难度高且冷门的主题时,从未预料到大家的似火热情,而选手们也交出了这份令人惊喜的答卷,我们有理由相信,人工智能与生命科学的未来将会在你们手中熠熠生辉。