AI for Science：人工智能改变化学领域，机器学习范式加速化学物质发现

本文介绍了人工智能在化学领域的发展。

随着人工智能技术兴起，在化学领域，传统的基于实验和物理模型的方式逐渐与基于数据的机器学习范式融合。越来越多的用于计算机处理数据表示被开发出来，并不断适应着以生成式为主的统计模型。

虽然工程、金融和商业从新算法中获益匪浅，但获益不仅仅来自算法。几十年来，大规模计算一直是物理科学工具包中不可或缺的一部分 —— 人工智能的一些最新进展已经开始改变科学发现的产生方式。

物理科学领域的杰出成就令人兴奋不已，例如使用机器学习渲染黑洞图像或 AlphaFold 对蛋白质折叠的贡献。本文将介绍人工智能在化学领域的一些更突出的用途，而化学是上述蛋白质折叠问题的母学科。

化学的主要目标之一是了解物质、它的性质以及它可以经历的变化。比如，当我们在寻找新的超导体、疫苗或任何其他具有我们想要特性的材料时，我们会求助于化学这一学科。

传统上，我们认为化学是在配有试管、烧瓶和燃气燃烧器的实验室中完成。但它也受益于计算和量子力学的发展，这两者都在 20 世纪中叶开始崭露头角。早期的应用包括使用计算机来帮助解决基于物理的公式计算；或者是通过将理论化学与计算机编程相结合，我们能够模拟（尽管远非完美）化学系统。最终，这项工作发展成为现在称为计算化学（computational chemistry）的子领域。该子领域在 1970 年代开始兴起发展，并在 1998 年和 2013 年有人凭借该领域获得诺贝尔奖。

即便如此，尽管计算化学在过去几十年中获得了越来越多的认可，但其重要性远没有在实验室所做的实验重要，而实验才是化学发现的基石。

然而，随着当前人工智能、以数据为中心的技术和不断增长的数据量的进步，我们可能正在目睹一种变化，计算方法不仅用于协助实验室实验，还用于指导实验。

化学物质发现过程

那么人工智能是如何实现这种转变的呢？一个特别的发展是将机器学习应用于材料发现和分子设计，这是化学中的两个核心问题。

在传统方法中，分子的设计大致分为四个阶段，如下图所示。需要注意的是，每个阶段都可能需要数年时间和许多资源，并且不能保证成功。

化学物质发现阶段：发现（discovery）、合成、分离与测试（synthesis, isolation and testing）、验证（validation）以及批准与市场营销（approval and marketing）。

发现阶段依赖于几个世纪以来发展起来的用来指导分子设计的理论框架。然而，在寻找「有用」的材料（例如凡士林、铁氟龙、青霉素）时，我们必须记住，其中许多来自自然界中常见的化合物。此外，这些化合物的效用往往是事后才发现的。与此相反，有针对性的搜索是一项需要更多时间和资源的工作（即使那样，人们也可能不得不使用已知的「有用」化合物作为起点）。为了给读者一些概念，据估计，药理活性化学空间（即分子的数量）为 1060！即使在测试和扩展阶段之前，在这样的空间中手动搜索也会花费大量时间和资源。

那么人工智能是如何进入这一切并加速化学（物质）发现的呢？

首先，机器学习改进了现有的模拟化学环境的方法。我们已经提到计算化学允许我们部分绕过实验室实验。然而，模拟量子力学过程的计算化学的计算在计算成本和化学模拟的准确性方面都很差。计算化学的核心问题是求解复杂分子的电子薛定谔方程 —— 也就是说，给定原子核集合的位置和电子总数，计算感兴趣的性质。只有单电子系统才有可能得到精确的解决方案，而对于其他系统，我们必须依赖「足够好」的近似值。此外，许多用于近似薛定谔方程的流行方法以指数方式扩展，使得蛮力解决方案难以解决。在上个世纪，人们开发了许多方法来加速计算而不牺牲太多的准确性。然而，即使是一些「更便宜」的方法也可能导致计算瓶颈。

人工智能加速这些计算的一种方法是将它们与机器学习相结合。另一种方法通过直接将分子表证映射到所需属性来完全绕过物理过程的建模。这两种方法都允许化学家更有效地检查化学数据库的各种属性，例如原子电荷、电离能等。

生成式化学的兴起

虽然更快的计算是一种改进，但它并没有解决我们仍然局限于已知化合物的事实 —— 这只是活性化学空间的一小部分。我们仍然必须手动指定想要分析的分子。我们如何扭转这种范式并设计一种算法来搜索化学空间并为我们找到合适的候选物质呢？答案可能在于将生成模型应用于分子发现问题。

但在我们开始之前，有必要谈谈如何以数字方式表示化学结构（以及哪些可以用于生成式建模）。在过去的几十年中已经开发了许多种表示，其中大部分属于以下四个类别之一，分别是字符串（string）、文本文件（text ）、阵列（array）和图（graph）。

异戊烷的表示

当然，化学结构可以表示为阵列。最初，分子的阵列表示用于辅助化学数据库的搜索；然而 2000 年代初期引入了一种称为扩展连接指纹 (Extended connectivity fingerprint, ECFP) 的新型阵列表示。ECFP 被专门设计用于捕获与分子活动相关的特征，它通常被认为在尝试预测分子特性方面的第一批表征之一。

化学结构信息也可以转储到文本文件中 —— 这是量子化学计算的常见输出。这些文本文件可以包含非常丰富的信息，但是，它们作为机器学习模型的输入通常不是很有用。另一方面，字符串表示在其语法中编码了很多信息。这使得它们特别适合生成建模，很像文本生成。

最后，基于图的表示更加自然，它不仅允许我们在节点嵌入中编码特定于原子的属性，而且还可以捕获边缘嵌入中的化学键。此外，当与消息传递相结合时，图表征允许我们解释（和配置）来自其邻居的节点对节点的影响，这反映了化学结构中原子如何相互影响。这些属性使基于图的表示成为深度学习模型的首选输入表示类型。

上面的表示类型可以有自己的子类型；遗憾的是，对于任何特定问题，哪种表示最有效也没有定论。例如，数组表示通常是属性预测的首选，但图表示在过去几年中也成为了强有力的竞争者。同样需要注意的是，我们可以根据问题将多种类型的表示结合使用。

那么如何（以及哪些）表示可以用于探索化学空间？我们已经提到字符串表示适用于生成建模。图表示起初不太容易使用生成模型建模，但最近由于和变分自动编码器 (VAE) 的结合使它而成为强有力的竞争者；VAE 已被证明特别有用，因为它使我们能够拥有连续的、机器可读性更高的表示。一项研究使用 VAE 表明字符串和图表示都可以编码和解码到隐空间中，在该空间中，分子不再是离散的，而是可以解码回离散分子表示的实值连续向量（该向量可能有效也可能无效）; 不同向量之间的欧几里得距离将对应于化学相似性。在编码器和解码器之间添加了另一个模型，去预测隐空间中任何点的目标属性。

连续隐空间中基于梯度的优化。训练后的模型 f (z) 相对于隐变量 z 进行了优化，从而可以找到一个新的 z，使新的隐向量表示具有更高的属性分数

但是，虽然生成分子本身是一项简单的任务 —— 人们可以采用任何生成模型并将其应用于他们想要的表示 —— 生成化学上有效并表现出我们想要的特性的结构是一个更具挑战性的问题。

实现这一目标的最初方法涉及在现有数据集上预训练模型，然后将其用于迁移学习。通过校准数据集对模型进行调整以允许生成偏向特定属性的结构，之后可以使用不同的算法（例如强化学习）进一步校准。这方面的几个例子涉及使用字符串或图表示；然而在化学有效性方面遇到了困难，或者不能成功获得想要的属性。此外，依赖预训练数据集会限制搜索空间并引入可能不需要的偏差。

摆脱预训练的一种尝试是使用马尔可夫决策过程 (MDP) 来确保化学结构的有效性，并通过深度 Q 学习（Q-learning）来优化 MDP 以获得所需的属性。该模型的一个特别优点是它允许用户可视化不同行为的好感度。下图显示了这个想法在实践中是如何实现的；模型认为有利的增量步骤是从起始结构开始的，以最大化特定属性。

(a) 可视化某些行为的偏爱程度（1 是最偏爱，0 是最不偏爱），虚线表示去除键，实线表示第一步中键的添加。(b) 为使起始分子的药物相似性定量估计 (QED) 最大化而采取的步骤，其步骤以黄色显示

尽管还处于起步阶段，但使用人工智能探索化学空间已经显示出巨大的前景。它为我们提供了探索化学空间的新范式，以及一种新的检验理论和假设的方法。虽然经验主义不像实验研究那样准确，但使在可预见的未来，基于计算的方法仍将是一个活跃的研究领域，并且已经成为任何研究团队的一部分。

其它使用案例以及面临的挑战

到目前为止，我们已经讨论了 AI 如何通过利用生成算法来搜索化学空间，从而帮助更快地发现新化学物质。虽然这是最值得注意的用例之一，但并不仅限于此。人工智能正被应用于化学中的许多其他问题，其中包括：

实验室中的自动化工作。我们可以使用机器学习技术来加速合成工作流程。一种方法使用 “自动驾驶实验室” 来自动化日常任务、优化资源支出并节省时间。一个相对较新的，但值得注意的案例是使用机器人平台 Ada 来自动化薄膜材料的合成、处理和特征化（请参阅此处的平台）。另一项研究展示了使用移动机器人化学家能够操作仪器，并在八天内对 688 次实验进行测量；

化学反应预测。我们可以使用分类模型来预测将发生的反应类型，或者简化问题并预测某个化学反应是否会发生。这个问题有很多不同的建模方法；

化学数据挖掘。像许多其他学科一样，化学有大量可用于研究趋势和相关性的科学文献。一个值得注意的例子是对人类基因组计划提供的大量信息进行数据挖掘，以识别基因组数据的趋势。

最后，虽然新的基于数据驱动的趋势正在迅速发展并已经产生很大的影响，但它也给我们带来了许多新挑战，包括：

计算和实验之间的差距。虽然计算方法的目标是帮助实现实验的目标，但前者的结果并不总是可以迁移到后者。例如，在使用机器学习寻找候选分子时，我们必须牢记分子在其合成途径中很少是独一无二的，而且通常很难知道未经探索的化学反应是否会在实践中起作用。即便可以起作用，目标化合物的收率、纯度和分离也存在问题。计算工作和实验工作之间的差距甚至会变得更大，因为计算方法所采用的指标并不总是可以转移到后者（上面提到的 QED 只是众多例子中的一个）上，而且实验验证可能不可行；

需要更好的数据库和缺乏基准。由于整个化学空间是无限的，所以我们最希望有足够大的样本量来帮助我们进行之后的泛化。然而，目前大多数数据库都是为不同目的而设计的，它们通常使用不同的文件格式；其中一些缺乏提交的验证程序，或者它们在设计时没有考虑到人工智能的任务。此外，我们拥有的大多数数据库的化学数据范围有限 —— 它们只包含某些类型的分子。最后，大多数涉及使用人工智能进行化学预测的任务都缺乏一个基准平台，这使得许多不同研究的比较变得不可行。AlphaFold 成功的主要原因之一是它提供了上述所有内容作为蛋白质结构预测 (CASP) 竞赛的关键评估的一部分，这表明需要有组织的努力来简化和改进涉及化学预测的其他任务。

总结

随着我们继续进入数字时代，新算法和更强大的硬件将继续揭开以前难以解决的问题背后的面纱。人工智能与化学发现的整合仍处于起步阶段 —— 但听到 “数据驱动的发现” 这个词已经很平常了。许多公司 —— 无论是制药巨头还是年轻的初创公司 —— 已经采用了上述许多技术，并为化学带来了更高的自动化、效率和可重复性。人工智能使我们能够以前所未有的规模开展科学，在过去几年中，这产生了许多举措并吸引了资金，这些资金将继续引领我们进一步进入自主科学发现的时代。

推荐内容

AI for Science：人工智能改变化学领域，机器学习范式加速化学物质发现

基于手机号码的防疫行程卡真的准确吗？

5G消息让微信变“危”信？还是先活下去再说吧！

钉钉走向商业化是国内移动数字化平台软件市场良性发展的信号？

算法的“有毒泡泡”，当真可以戒掉吗？

没想到！最新收入报告出炉：月可支配收入超1万可超99%的人

微信App可以换图标了，可爱炫酷唯美任你挑

重庆高新技术企业认定关于开展2022年第一批高新技术企业认定申报工作的通知

以数尚实，上实发展牵手永洪科技

数字文化布局显成效，浙文互联元宇宙蓄势而发

阿里巴巴成立鱿物文化传播有限公司，经营范围含进出口代理

百度因擅自转播春晚被央视起诉，判赔超50万

康巴汉子巡礼与猛男传说之谜

从“工具出海”到“全球化SaaS”(下)|出海同学会51期干货

省通信管理局：推进700M 5G基站和IMS网间关口局建设

RX6800XT、308010G性能对比：1年半首发

LG宣布关闭智能手机业务，曾与苹果、三星并驾齐驱

全场回放——产业家与虚拟园区专号线上共创会成功举办|《产业新生态》第三期

全球5G发展洞察2022（中）

杀猪盘新套路？陌陌、探探们“风控养蛊”制造“骗王之王”

iOS 16要来了！苹果WWDC22大会确认：还有多款新品

大规模协作的元宇宙（二）

ArcaneResearch挪威比特币挖矿行业现状争议与增长

共启未来，未来一手第六届使命愿景价值观共创大会圆满落幕

福布斯：2022年计算机视觉领域五大发展趋势

周杰伦藏品被盗，NFT满地伤

VanEck 研究：比特币成为储备资产后的想象力

走近量子模拟

产业互联网要提升国际竞争力

元宇宙与Web 3.0，这两个最火的概念之间是什么关系？

你所在的城市还有公用电话亭吗？北京街头将赋予它新使命

知乎的商业化迷途

近两年来大家都觉得要火，却还没火起来的潜力赛道

1740万人同时观看，谁“复活”了这场21年前的演唱会？

腾讯、阿里迎来大裁员，互联网黄金时代落下帷幕？

马斯克突然抢购7千多万股推特，狂撒30亿一夜成最大股东，今日发推“大笑”

打破「反向传播」垄断，「正向自动微分」也能计算神经网络梯度！

曾陪伴我们无数时光的“论坛”，只有挂牌出售这一条路？

通告 | 指掌易MBS产品不受Spring框架远程命令执行漏洞影响

投石科技户外led裸眼3D公益广告:大白们辛苦了

百度输入法AI 赋能大华会议平板，带你体验会议大屏的手写自由

知乎的商业化迷途

印度华星一次性通过审厂认证月产能可达1.2M

从财报看京东方发展 巨头为何如此“稳”？

欧盟反垄断监管机构盯上了微软云业务 展开新一轮审查

BBS论坛西祠胡同1元大甩卖

趣链区块链产业园主体大楼封顶大吉

美女直播吸金80亿后，陌陌增长还能靠什么？

豆瓣与“沸点”的距离

郭明錤：苹果2023年将推出屏下指纹识别的iPhone

中保研汽车技术研究试验中心发布7款车型测评结果

机器人时代，座舱的人机交互将走向何方？

AI for Science：人工智能改变化学领域，机器学习范式加速化学物质发现

5G消息让微信变“危”信？还是先活下去再说吧！

钉钉走向商业化是国内移动数字化平台软件市场良性发展的信号？

融资丨「济美动力」完成近千万天使轮融资，险峰长青独家投资

融资丨「磐汩新材料」完成千万级A轮融资，尺寸资本独家投资

算法的“有毒泡泡”，当真可以戒掉吗？

融资丨「华美兴泰」完成B轮融资，前海母基金、卓源资本领投

基于手机号码的防疫行程卡真的准确吗？

数字文化布局显成效，浙文互联元宇宙蓄势而发

微信App可以换图标了，可爱炫酷唯美任你挑

没想到！最新收入报告出炉：月可支配收入超1万可超99%的人

苹果的节奏晚了些？iOS16系统测试机出现活跃迹象

融资丨「泽安生物」完成1700万美元Pre-A轮融资，险峰旗云领投

研究公司：2021年全球电信市场资本支出同比增长9%

苹果正在测试新功能，订阅价格将自动取消？

以数尚实，上实发展牵手永洪科技

2021年显卡市场出货规模超500亿美元同比增加29.5%

重庆高新技术企业认定关于开展2022年第一批高新技术企业认定申报工作的通知

融资丨「奥昇医疗」完成数千万元A轮融资，旸昀资本、涌铧投资联合领投

阿里巴巴成立鱿物文化传播有限公司，经营范围含进出口代理

省通信管理局：推进700M 5G基站和IMS网间关口局建设

百度因擅自转播春晚被央视起诉，判赔超50万

深市两板合并一周年：孕育37家千亿市值个股

前两个月我国服务贸易逆差收窄近60%

康巴汉子巡礼与猛男传说之谜

从“工具出海”到“全球化SaaS”(下)|出海同学会51期干货

小菲电子推出双USB-C快充充电器

从财报看京东方发展巨头为何如此“稳”？

欧盟反垄断监管机构盯上了微软云业务展开新一轮审查