大模型技术在药物设计中的应用

报告简介:

大模型技术在新药研发领域展现出了广阔的应用前景,有望显著加速药物研发进程并降低成本。本报告介绍了我们在AI药物分子设计方面的一系列创新尝试,主要围绕新药研发链条中的几个关键环节探讨大模型相关技术应用的可行性,包括:新靶标活性化合物筛选、先导化合物优化、化学合成规划和文献数据提取。

在新靶标活性化合物筛选方面,我们提出了“从序列到药物”(sequence-to-drug)的端到端可微学习方法。这种方法直接从蛋白质序列出发进行药物设计,避免了传统方法中多个中间步骤的复杂流程。我们开发的TransformerCPI2.0模型在蛋白质和化学多样性空间中展示出了良好的泛化能力,为新靶标活性化合物的快速发现提供了新思路。

针对先导化合物优化,我们提出了PBCNet(pairwise binding comparison network)方法。该方法采用孪生图卷积神经网络架构,通过比较相似配体的结合模式差异来预测相对结合亲和力,实现了计算速度和精度的平衡。我们还开发了图形界面网络计算服务,为实验研究提供了便捷的设计工具,有助于加速先导化合物的活性优化过程。

在化学合成规划方面,我们提出了ESMILES反应描述语言,定义了化学转化的分子编辑操作语法。基于ESMILES的语言模型在逆合成预测任务中表现出色,并在人机交互和可解释人工智能方面展现出一定潜力。ReactSeq不仅提高了反应预测的准确性,还为反应空间导航、实验条件推荐和反应产率预测提供了新的可能性。

在文献数据提取方面,我们开发了αExtractor系统,用于自动提取文献中的化学结构信息。该系统结合了基于图像注释的分子翻译模型和目标检测模型,能够有效识别和转译各种风格和带噪声的分子图像。αExtractor在多个数据集上的表现显著优于现有最先进的方法。此外,我们利用大语言模型的文本理解和处理能力,成功地从复杂的化学文本中准确提取信息。我们在五项化学文本挖掘任务上对多个大语言模型进行了全面评估,结果表明,微调后的大模型在化学知识信息提取任务上表现出了优异的通用性和准确性。

总之,本报告中的研究工作涵盖了新药研发链条中的多个关键环节,展示了大模型技术在药物研发领域的潜力。这些创新方法和工具有望提高新药研发的效率和成功率,为解决复杂疾病和满足未满足的医疗需求提供新的可能。未来,我们将继续深化和拓展这些研究,推动AI驱动的药物研发范式的革新。


报告人简介:

郑明月
中国科学院上海药物研究所研究员,担任中国化学会、中国计算机学会等分会的专委会委员。研究方向是基于人工智能和大数据的药物设计技术开发。获得国家杰出青年基金,目前作为项目和课题负责人承担国家自然科学基金和国家重点研发计划等项目共7项,获得药明康德生命化学研究奖等荣誉。