第180次:AI药物研发

论坛执行主席
  • 蒋华良院士 蒋华良院士
  • 陈凯先院士 陈凯先院士
  • 饶子和院士 饶子和院士

论坛日期:2024年10月31日-11月02日

论坛地点:上海科技大学会议中心多功能厅

承办单位:中国科学院学术与出版工作委员会、中国科学院生命科学和医学学部、中国科学院化学部

主题报告
  • AI赋能的中药大数据分析与创新药物发现

    陈士林 中国工程院院士 成都中医药大学

    团队利用AI结合多组学创新技术实现了千金藤素、青蒿素等多种功效成分生源途径关键步骤的解析,在此基础上,整合多源数据开发了药用植物多组学数据库、多肽数据库、化合物数据库。基于过表达、PRESTO-Tango和CRISPRa/i技术构建了全基因组泛GPCR细胞株资源库,建立了基于GPCR细胞稳转株库和细胞膜色谱技术药物高通量筛选平台,开发了融合基因组、转录组、代谢组等数据的GPCR多组学数据库,基于AI技术研发了GPCR配体自动化筛选平台和药物发现平台。通过融合千种本草基因组数据库等具有独立知识产权的数据,建立了含2000余万个实体和超20亿个关系对的知识图谱,采用混合专家系统 (MoE) 技术实现了中药产业链关键环节多源多模态信息的智能融合、分析、推理,开发了全球首个中药全产业链大模型—本草智库,从中医药高质量数据集构建、多领域专家系统融合、信息提取、训练与调优等方面出发,提出了中医药大模型的构建策略,为中医药领域大模型的构建提供了参考。
  • AI驱动的中药复方研究新范式http://videozh.cas.cn/masvod/public/2025/09/05/20250905_19918a71758_r36_1200k.mp4

    张卫东 教授 海军军医大学

    随着中医药信息数据的不断完备,由AI驱动的中药复方研究可以通过结合人工智能技术与中医药理论,探索出中药复方研究的新路径。传统中药复方以整体观念为核心,通过多种药物的协同作用达到治疗效果,但其复杂性也带来了解析和优化的难题。此外,中医药知识以散落在文献、典籍中的形式存在,缺乏系统化和结构化的整合,影响了其在现代教育、科研和临床中的广泛应用。借助AI,特别是机器学习及深度学习等技术,开发多模态数据整合体系,推动生命多组学数据的联合建模,实现从海量数据中提取潜在的作用机制。利用自然语言处理和知识图谱技术,有望实现中医药知识的系统化、结构化,为教育和研究提供智能化支持。同时,AI不仅能够识别复杂的药物-靶点关系,还能通过模拟实验和大数据分析加速中药复方的设计和验证。针对中药复方多成分、多靶点的动态协同作用的特点,采用深度学习开展多重异构网络学习表征,构建多层次的生物分子网络AI模型,识别并整合基因突变、转录表达、代谢物水平、蛋白质及其修饰等多维分子特征,全面揭示中药多成分在不同靶点间的动态协同作用。AI驱动的中药复方研究新范式有望提高中药复方的科学性和精准性,推动中医药现代化进程。同时,AI驱动的复方研究将帮助揭示复方的分子机制、提高临床疗效预测准确性,并为个体化治疗提供新的解决方案。这一范式既保留了中医药的传统智慧,又借助现代技术,为中药复方研究开辟了新的可能性。
  • AI助力新药发现

    李洪林 教授 华东师范大学

    AI已经介入到药物研发领域的各个环节之中,包括靶标发现、虚拟筛选、分子生成及优化等,极大地提升了药物发现的效率和成功率。AI药物设计新方法开发及相应软件平台的建设,对于突破创新药物研发关键技术瓶颈,实现我国药物设计技术的跨越式发展具有重要意义。本团队已发展和布局多项AI药物设计方法,包括专利/文献解析系统、疾病-靶标-药物知识图谱、分子切割、大环药物设计及肿瘤新抗原识别等技术,助力创新靶标和药物研发。
  • 大模型技术在药物设计中的应用

    郑明月 研究员 中国科学院上海药物研究所

    大模型技术在新药研发领域展现出了广阔的应用前景,有望显著加速药物研发进程并降低成本。本报告介绍了我们在AI药物分子设计方面的一系列创新尝试,主要围绕新药研发链条中的几个关键环节探讨大模型相关技术应用的可行性,包括:新靶标活性化合物筛选、先导化合物优化、化学合成规划和文献数据提取。在新靶标活性化合物筛选方面,我们提出了“从序列到药物”(sequence-to-drug)的端到端可微学习方法。这种方法直接从蛋白质序列出发进行药物设计,避免了传统方法中多个中间步骤的复杂流程。我们开发的TransformerCPI2.0模型在蛋白质和化学多样性空间中展示出了良好的泛化能力,为新靶标活性化合物的快速发现提供了新思路。针对先导化合物优化,我们提出了PBCNet(pairwise binding comparison network)方法。该方法采用孪生图卷积神经网络架构,通过比较相似配体的结合模式差异来预测相对结合亲和力,实现了计算速度和精度的平衡。我们还开发了图形界面网络计算服务,为实验研究提供了便捷的设计工具,有助于加速先导化合物的活性优化过程。在化学合成规划方面,我们提出了ESMILES反应描述语言,定义了化学转化的分子编辑操作语法。基于ESMILES的语言模型在逆合成预测任务中表现出色,并在人机交互和可解释人工智能方面展现出一定潜力。ReactSeq不仅提高了反应预测的准确性,还为反应空间导航、实验条件推荐和反应产率预测提供了新的可能性。在文献数据提取方面,我们开发了αExtractor系统,用于自动提取文献中的化学结构信息。该系统结合了基于图像注释的分子翻译模型和目标检测模型,能够有效识别和转译各种风格和带噪声的分子图像。αExtractor在多个数据集上的表现显著优于现有最先进的方法。此外,我们利用大语言模型的文本理解和处理能力,成功地从复杂的化学文本中准确提取信息。我们在五项化学文本挖掘任务上对多个大语言模型进行了全面评估,结果表明,微调后的大模型在化学知识信息提取任务上表现出了优异的通用性和准确性。总之,本报告中的研究工作涵盖了新药研发链条中的多个关键环节,展示了大模型技术在药物研发领域的潜力。这些创新方法和工具有望提高新药研发的效率和成功率,为解决复杂疾病和满足未满足的医疗需求提供新的可能。未来,我们将继续深化和拓展这些研究,推动AI驱动的药物研发范式的革新。
  • 稀疏实验数据辅助的蛋白复合物结构预测和蛋白序列结构预训练模型

    高毅勤 研究员 北京大学

    基于力场的分子模拟在化学、材料和生命体系中有着越来越广泛的应用,通过分子模拟解析生物大分子结构和动力学性质对生物过程和生物医药的研究等具有较为重要的价值。而深度学习模型和算法的快速进步为提高分子模拟的计算能力提供了新的契机甚至范式。以AF2和AF3为代表的深度学习方法帮助实现了蛋白结构的快速准确预测。在深度学习框架下实现分子计算具有很好的应用前景和价值。在本报告中,我们将着重介绍分子模拟和深度学习模型应用于生物分子体系研究的计算方法和软件平台发展;特别是将结构预测、分子生成和动力学计算等集中在统一的深度学习框架下,建立原生于人工智能的多模态和跨尺度的分子模拟工具的尝试。蛋白结构对于理解其构效关系和药物设计等下游应用有重要意义,通过在国产软硬件上从头实现AF2和AF-multimer模型的训练和调优,同时开发ColabDOCK ,RASP和GRASP等模型、应用现有AI工具,并在模型中整合利用稀疏实验信息来提高蛋白单体与复合物结构预测精度。应用AI模型帮助加速实验解析,实现实验、计算与AI的共生,希望促进多领域协同演化。这是一种通用框架,能够将深度学习结构预测模型与不同形式和来源的实验约束相结合,而无需进行大规模的再训练或精细调优。通过生成-预测架构和训练有素的排序模型,在使用AlphaFold2作为结构预测模型时,这些工具不仅在具有模拟残基和表面约束的复杂结构预测中优于HADDOCK和Cl-usPro ,甚至A- F3,而且在能同时整合核磁共振化学位移扰动、共价标记、电镜、和深度突变扫描等多种形式实验数据。在报告中我们还将介绍基于生成式自监督学习自动提取蛋白质结构的合理离散表示,用来描述蛋白质稳态构象的分布。该预训练模型涵盖蛋白质逆折叠模型加上蛋白质结构预测模型,通过表示学习从不可优化的氨基酸换成了可以优化的蛋白结构压缩表示词表,ProToken。通过基于信息学理论的约束和正则化,ProToken Distiller “蒸馏”出的 ProToken 扩充了氨基酸词表,构成了对具有亚稳定性的蛋白质全原子结构的紧凑且信息丰富的离散表示。在学习到蛋白质的序列和结构的统一表示后,通过扩散模型中的前向概率流ODE (probability flow ODE) 将蛋白的全原子结构转化成一个高斯分布的向量,微扰后再通过反向概率流ODE可解码成另一个相关的蛋白全原子结构。利用这种范式,该模型可用于蛋白的可控进化(controlled evolution)。 例如,使用基于扩散模型的 zero-shot inpainting,可以实现在不进行任何微调的前提下,具备 inverse folding 的能力。同时在不进行任何微调的前提下,也可以实现对蛋白质结构进行基于上下文(contextual)的全原子设计。例如,指定蛋白-小分子结合口袋的结构(包含关键的 binding pocket 侧链信息)作为context,PT-DiT 可以设计出适应口袋的支撑域。