稀疏实验数据辅助的蛋白复合物结构预测和蛋白序列结构预训练模型

报告简介:

基于力场的分子模拟在化学、材料和生命体系中有着越来越广泛的应用,通过分子模拟解析生物大分子结构和动力学性质对生物过程和生物医药的研究等具有较为重要的价值。而深度学习模型和算法的快速进步为提高分子模拟的计算能力提供了新的契机甚至范式。以AF2和AF3为代表的深度学习方法帮助实现了蛋白结构的快速准确预测。在深度学习框架下实现分子计算具有很好的应用前景和价值。在本报告中,我们将着重介绍分子模拟和深度学习模型应用于生物分子体系研究的计算方法和软件平台发展;特别是将结构预测、分子生成和动力学计算等集中在统一的深度学习框架下,建立原生于人工智能的多模态和跨尺度的分子模拟工具的尝试。

蛋白结构对于理解其构效关系和药物设计等下游应用有重要意义,通过在国产软硬件上从头实现AF2和AF-multimer模型的训练和调优,同时开发ColabDOCK ,RASP和GRASP等模型、应用现有AI工具,并在模型中整合利用稀疏实验信息来提高蛋白单体与复合物结构预测精度。应用AI模型帮助加速实验解析,实现实验、计算与AI的共生,希望促进多领域协同演化。这是一种通用框架,能够将深度学习结构预测模型与不同形式和来源的实验约束相结合,而无需进行大规模的再训练或精细调优。通过生成-预测架构和训练有素的排序模型,在使用AlphaFold2作为结构预测模型时,这些工具不仅在具有模拟残基和表面约束的复杂结构预测中优于HADDOCK和Cl-usPro ,甚至A- F3,而且在能同时整合核磁共振化学位移扰动、共价标记、电镜、和深度突变扫描等多种形式实验数据。

在报告中我们还将介绍基于生成式自监督学习自动提取蛋白质结构的合理离散表示,用来描述蛋白质稳态构象的分布。该预训练模型涵盖蛋白质逆折叠模型加上蛋白质结构预测模型,通过表示学习从不可优化的氨基酸换成了可以优化的蛋白结构压缩表示词表,ProToken。通过基于信息学理论的约束和正则化,ProToken Distiller “蒸馏”出的 ProToken 扩充了氨基酸词表,构成了对具有亚稳定性的蛋白质全原子结构的紧凑且信息丰富的离散表示。在学习到蛋白质的序列和结构的统一表示后,通过扩散模型中的前向概率流ODE (probability flow ODE) 将蛋白的全原子结构转化成一个高斯分布的向量,微扰后再通过反向概率流ODE可解码成另一个相关的蛋白全原子结构。利用这种范式,该模型可用于蛋白的可控进化(controlled evolution)。 例如,使用基于扩散模型的 zero-shot inpainting,可以实现在不进行任何微调的前提下,具备 inverse folding 的能力。同时在不进行任何微调的前提下,也可以实现对蛋白质结构进行基于上下文(contextual)的全原子设计。例如,指定蛋白-小分子结合口袋的结构(包含关键的 binding pocket 侧链信息)作为context,PT-DiT 可以设计出适应口袋的支撑域。

报告人简介:

高毅勤
1972年出生,1993年本科毕业于四川大学化学系,1996年在中国科学院化学所获得硕士学位,2001年获得加州理工学院博士学位。2001年-2004年在加州理工学院和哈佛大学做博士后研究。2004年-2010年在美国德克萨斯农工大学(Texas A&M University)化学系任助理教授;2010年起任北京大学化学与分子工程学院教授,2013年起同时担任北京大学生物医学前沿创新中心研究员。主要从事生物物理化学/理论化学方面的基础研究。获得过Clauser Prize, Searle Scholar, Pople Medal, 2018年中国十大科技进展、北京市先进科学工作者等奖励。现任北京大学理学部副主任,JCTC杂志副主编 ,新基石研究员。