本文来自X-MOLNews

副标题:生物碱全合成中的计算机辅助关键步骤生成

随着能模拟真人聊天、甚至能帮着做作业的人工智能(AI)程序ChatGPT的大红大紫,朋友圈里时不时都能看见有人晒与ChatGPT的聊天记录。不知读者朋友有没有试过让ChatGPT帮着回答一些专业点的化学问题,看看这个AI程序能强到什么程度。

谈到这个,是因为计算机领域的发展也在推动着甚至改变着化学领域的发展。此前,我们已经报道过不少计算机程序或者AI在化学研究中的应用,比如预测晶体制备策略(Nature, 2016, 533, 73, 点击阅读详细),根据分子结构预测气味(Science, 2017, 355, 820, 点击阅读详细),反应条件优化(Nature, 2021, 590, 89, 点击阅读详细),独立自主地探索化学新反应和新分子(Nature, 2018, 559, 377, 点击阅读详细),以及设计复杂天然产物的全合成路线(Nature, 2020, 588, 83, 点击阅读详细)。近日,美国密西根大学Tim Cernak教授课题组又在这一领域取得了突破,他们在Science 杂志上报道了一种新的计算策略,结合计算机辅助合成规划(computer-aided synthesis planning,CASP)与分子图编辑(molecular graph editing)以最大限度地缩减生物碱合成的所需步骤。作为例证,通过利用高影响关键步骤他们成功地将(–)-stemoamide(1)的对映选择性全合成缩短为仅仅三步。其中关键之处在于计算机算法建议的Mannich反应,有意思的是,在此前报道过的30多种(–)-stemoamide全合成路线中从未涉及到该反应。

生物碱的特性与记忆法(问电脑这个生物碱怎么全合成)(1)

图1. 关于1的两个逆合成规划。图片来源:Science

复杂天然产物全合成,尤其是生物碱全合成,被看作是科学与艺术的结合,直到今天也是化学领域的研究热点。除了攻克一个又一个的复杂结构,化学家们还在追求让全合成更高效——路线尽量短、收率尽量高、条件尽量温和。通常情况下,高效的全合成一般通过优化关键步骤(如:环加成、串联或多组分偶联反应)来同时形成许多必要的目标键,以便快速实现所需的结构复杂度。尽管关键步骤的概念为化学家所熟知,但其尚未应用于CASP中。事实上,现代CASP策略旨在最大限度地减少保护基操作并最大限度地提高收敛性,但自动化逆合成的重点则是放在编码反应规则上以在预测路线的实验中实现最大的可靠性。同时,最先进的人工合成策略通过采用创新但风险性较高的关键步骤并最大限度地减少低影响步骤(如:保护基操作、不必要的氧化还原操作和官能团的相互转换)来最大限度地提高步骤经济性和原子经济性。

尽管现代CASP设计的路线已在药物合成中有所应用,但却很少用于生物碱的全合成中。为此,作者选择从百部科植物中分离出来的生物碱stemoamide(1)为目标分子,它的四个手性中心和稠合环结构将带来足够的挑战,而且它32条已被报道的合成路线也视为有效的比较基准。如图1所示,Route 1计划去除α-甲基并切断氮杂环的C-N键得到烯烃2,而2是由CASP推荐的关键步骤——有机催化的Mannich烯丙基化-内酯化序列产生的,进一步简化为起始原料3、4和两当量的醛5;而Route 2则源于CASP和图编辑策略的推演,其中CASP推荐的Schmidt-Aubé重排是一个关键的简化元素。环丁酮中间体6利用关键的Michael加成和烷基化可进一步分解为原料7、8、910

生物碱的特性与记忆法(问电脑这个生物碱怎么全合成)(2)

图2. 通过图编辑分析识别关键步骤。图片来源:Science

作为从CASP生成路线中最大限度缩减步数的第一次尝试,(–)-1在软件SYNTHIA 中进行了自动逆合成,其中有机催化的Mannich反应出现在了每条预测路线中(图2A),这让作者感到很意外,因为先前的32种合成路线中从未涉及到该反应。然而,即使最短的计算路线也需要7步,因此作者引入分子图编辑以通过最大化高影响转化和最小化低影响转化来编辑计算路线。如图2B所示,作者将每个中间体(包括起始原料和最终目标)的分子图编码为单独的邻接矩阵,其中行数和列数等于整个合成路线重原子和基团的总数。通过这种方式,最终目标的所有键、从起始原料出发的反应路径以及合成中使用的任何让步基团都被准确地映射到每个单独的矩阵中,并与最终目标的矩阵相关(图2C)。对1的矩阵(图2B,右)进行简单比较后,作者发现其与计算的倒数第二个中间体14(图2B,中)共享更多条目(99%),并且比与起始原料3、11、12、8和HBr的矩阵多(图2B,左)(93%)。因此,关键步骤最大限度地减少了从给定中间体到目标的图编辑距离(graph edit distance),这相当于最大限度地形成目标键,同时最大限度地减少反应操作。另外,通过图编辑距离对已发表的全合成进行的研究表明,不同的关键步骤很容易可视化。值得一提的是,1的最短计算路径的完整图分析揭示了Mannich偶联的影响(图2D),即图编辑距离图中最陡峭的下坡步骤(黄色)。

生物碱的特性与记忆法(问电脑这个生物碱怎么全合成)(3)

图3. 基于不对称有机催化Mannich反应的1的全合成。图片来源:Science

尽管计算显示Mannich反应为关键步骤,但仍有待改善的地方,例如:C2和C11在1中都处于羧基氧化态,因此考虑到氧化还原经济性,可以协调1112的氧化态以减少两个步骤,即两当量的市售醛5在self-Mannich反应中结合(图3A),接着在反应后期安装手性α-甲基,而先前的报道已证实非对映选择性甲基化在 1的几种合成中作为最后一步是可行的。具体合成路线如下:将3与四倍过量的醛5和20 mol% L-脯氨酸溶于DMF中并在-15 °C进行搅拌,然后向其中加入烯丙基溴化物4、锌、氯化铋并升温至室温就可通过中间体Mannich加合物15得到主要产物——内酯16。随后,通过过滤从反应混合物中除去过量的锌和不溶性物质,并将粗滤液用三氟乙酸进行处理、经柱色谱纯化以33%的总收率、38:1 dr值、99% ee值得到内酰胺17,这意味着通过两步序列就能以高选择性快速构建五个键、两个环和三个立体中心,并且只需一次柱色谱纯化。接下来,要进行17的氢溴化,但在实验过程中CASP建议的策略(使用氢溴酸)得到了难以处理的混合物。为此,作者将烯烃17转化为伯醇18,然后进行溴化和原位脱除对甲氧基苯基得到19,最后经环化和非对映选择性烯醇烷基化安装C10甲基便可合成( )-1,总共6步并且仅需四次柱色谱纯化。此外,作者还对通过计算路线的修改而产生的实验路线进行了图编辑分析(图3B),其中Mannich烯丙基化关键步骤的高影响显而易见,而且随后完成合成所需的官能团相互转化的影响也很低。为了获得步骤更少的合成路线,作者生成了数百条额外的计算路线以得到1及其相关的后期中间体(如20)。有趣的是,其中一种计算策略涉及到一种特殊的环丁酮中间体(6的类似物,图4A),后续可通过Schmidt-Aubé重排合成1。具体而言:从市售原料7出发,经Brown烯丙基化获得中间体21(产率:58%,ee值:89%)。接着,用正丁基锂使22去质子化,并将21添加到阴离子的冷溶液中,然后用碘甲烷捕获中间体烯醇化物并用盐酸水溶液淬灭反应混合物,便可以88%的产率和4:1 dr值得到酮 6,再与叠氮基三甲基硅烷经2-亚碘酰基苯甲酸(IBA)催化的反马氏加氢叠氮化反应得到中间体23,最后经Lewis酸诱导的假定中间体 24 的分子内Schmidt-Aubé重排便可实现(–)-1的全合成,整个过程的最长线性步骤(LLS)为3步,总产率为22%,比上图中的合成步数减少一半。

生物碱的特性与记忆法(问电脑这个生物碱怎么全合成)(4)

图4. 基于Schmidt-Aubé重排的1的全合成。图片来源:Science

1的六步合成中可以很容易地观察到步骤影响,其中第一个有机催化的Mannich烯丙基化步骤显著增加了3541的图相似性,安装了产生1所需的 45% 的化学键(图3B)。这个高影响步骤之后是一系列低影响步骤(如:保护基操作和官能团相互转换),可很容易通过图3B中的浅斜率识别。相比之下,3步合成路线效率更高,分别为中间体到1的图相似性贡献了17%、55%和28%(图4B),并且关键步骤是从一千多个计算的逆合成路线的分析中选出的。此外,图编辑距离技术还可用于突出显示路线中的捷径,即通过将图编辑图中具有适度斜率的相邻转换组合为一个快捷步骤来实现。例如,Mannich路线中的第3、4和5步原则上可以组合为整体的反马式加氢酰胺化,因此可以用硝酸铈铵(CAN)淬灭TFA促进的内酰胺化(step 2)以产生17的类似物,其中PMP基团从3中去除,总收率为33%,然后该类似物可以一步法转化为中间体20,最终以四步实现1的全合成。

总结

Tim Cernak教授课题组通过(–)-stemoamide的对映选择性三步全合成,突显了现代 CASP为中等复杂目标分子规划可行合成路线的能力。本文的方法表明,可以将来自不同 CASP 路线建议的多个高影响步骤结合起来以得出更简洁的合成路线。在当前的研究中,作者将步数作为唯一的优化指标,但未来重要的现实指标(如试剂成本、砌块可用性、预测产率)可以很容易地作为加权距离指标纳入。随着自动话逆合成的进一步发展,复杂的分子包括药物分子将会更容易获得。

Computer-aided key step generation in alkaloid total synthesis

Yingfu Lin, Rui Zhang, Di Wang, Tim Cernak

Science, 2023, 379, 453-457, DOI: 10.1126/science.ade8459

,