使用数据驱动的连续表征分子进行自动化学设计
引言
药物和材料设计的目标是发现具有理想特性的新分子,寻找具有理想特性的新分子是药物设计与材料设计十分关注的问题,然而优化分子空间包含着巨大的挑战,搜寻空间是巨大的,离散的,无结构的。因为潜在候选分子过于庞大,合成和测试分子是一项十分耗时废力的工程。如今大约含有10^8次方化合物被合成,但大约10^23到10^60次方潜在成药分子需要验证。
成果简介
哈佛大学化学与化学生物系(现为多伦多大学化学系与计算科学系)Alán Aspuru-Guzik教授团队在ACS Cent. Sci.上发表了题为**Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules
**的研究论文,作者报道了一种方法能够将离散分子转换为多维连续表征的模型。模型允许我们通过化学化合物开放的空间高效探索和优化生成新的分子。深度神经网络通过训练已存在的成百上千的已知化学结构来构成三个耦合的函数(编码器,解码器,预测器)。编码器将离散表示的分子转化为具有真实值的连续张量(vector)。解码器转换连续的张量回离散的分子。通过简单的操作潜在空间能够使我们自动生成新的分子,例如解码随机张量,扰乱已知分子或对分子之间插值。通过连续表示同样允许我们使用梯度优化(gradient-based optimization)作为指导来搜寻优化功能化复合物。作者阐述了其方法在类药分子和一组低于9个重原子分子领域中的应用。
图1:a).从自动编码到自动解码的分子设计流程图,包括预测性能模型。起始用离散的分子表示方法,例如SMILES字符串,编码网络转换每个分子为潜在空间(latent space)的张量。同时也可以从潜在空间解码为离散的分子(SMILES字符串)。多层感知神经网络验证每个分子的目的参数。b).在连续的潜在空间进行梯度优化。基于其潜在表征来训练一个代理(surrogate)模型f(z)来预测分子参数,我们可以优化f(z)来寻找具有更高特征值的分子。新的潜在表征参数可以解码为SMILES,并用经验来表征新的参数。
图2.作何对108000个QM9数据集分子以及250000个ZINC数据集分子进行编码,潜在空间的维度分别为156与196维。自动编码器的采样结果如图a).每个维度自编码核密度(Kernel Density Estimation,KDE),可以发现平均值与标准偏差不同,但是均为正态分布。b).潜在空间的单点采样图,分子间的距离如右侧坐标轴。因为动态自编码是双概率事件,其编码后的解码不是决定性的结果,图b)为FDA批准药物的单点解码分子与其对应的发生事件概率,可以发现大概率会回到原来的SMILES值,但是也有小概率为其他值,提示潜在空间能够捕获相关功能的其他分子 c)布洛芬(ibuprofen )的临近位置采样。底部数值对应潜在空间的距离。可以发现随着潜在空间距离的增加,与原始分子之间变得越来越不相似,当超过平均距离后类似于在数据库中随机挑选分子。 d)在两个分子之间的潜在空间中使用六步等距离插值进行预测(球面插值)。
图3.发现新分子和化学物质的关注点通常与最大化某些理想性质相关,因为这个原因,作者将存粹的设计模型扩展到具有预测功能的模型中,作者训练了一种联合多层感知机能够从每个潜在表示分子来编码预测参数。分子的潜在空间是由参数值来组织形成的。图3展示的为属性值到潜在空间之间的映射关系,使用PCA将其压缩为二维。从图中可以看出在没有参数预测的情况下,自编码并无潜在的与属性值之间相关性存在。
图4.为了验证通过参数优化分子的可实施性,作者使用高斯动态模型(Gaussian process model ,GP model)的方法进行预测,辅以随机高斯搜寻(random Gaussian search)和遗传算法(genetic algorithm)作为比较,选择ZINC数据库得分最低的10%作为起始数据。a)可以发现GP模型相比较其他两种模型具有高百分比得分. b)展示为从起始到最终优化模型之间的二维PCA展示,可以发现最终优化分子具有更佳的性质。c)展示了优化路径的高斯插值。作者额外提到了进行1000个分子的训练有较大的动态范围,其认为对于局部优化具有更好的多态性。
展望
作者认为其方法有如下几个优势:第一,无需手动突变,通过调整张量阈值可以自动生成新的化合物。第二,如果发展了可微分的模型,那可以使用梯度优化在化学空间上进行更大的跳跃。第三,可以通过未标记的大型化合物库构建更大的化合物库,然后使用带标签的小库构建回归模型来选择期望的参数。同时作者还提到了可以改进的一些地方,比如使用ECFP等分子指纹的方法来代替SMILES,使用短长记忆(Long Short-Term Memory,LSTM)网络或者循环网络(recurrent networks)来进行预测训练等等。使用改方法优化分子参数影响且继续影响着分子设计的发展。
文章链接
https://pubs.acs.org.ccindex.cn/doi/full/10.1021/acscentsci.7b00572
作者介绍
Alán Aspuru-Guzik
本科毕业于墨西哥州立大学,博士毕业于加州伯克利分校,2013-2018年任哈佛大学教授,2018年至今任多伦多大学教授,加拿大理论化学研究带头人,Zapata Computing首席科学家,Kebotix首席视觉官,Kyulux科学顾问。CIFAR生物太阳能高级研究员,人工智能张量研究所员工。研究方向主要在量子化学,材料科学,自驱动化学实验室,机器学习等等。