利用机器学习对有机反应机理进行分类

爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

利用机器学习对有机反应机理进行分类

　　利用机器学习对有机反应机理进行分类
　　文章出处：JordiBurs，IgorLarrosa。Organicreactionmechanismclassificationusingmachinelearning。Nature2023，613，689695。
　　摘要：对催化有机反应机理的理解对于设计新的催化剂、反应模式和发展更绿色、更可持续的化学过程至关重要。动力学分析是力学阐发的核心，它有助于从实验数据直接检验力学假设。传统上，动力学分析依赖于使用初始速率和对数图，最近依赖于视觉动力学方法结合数学速率定律推导。然而，速率定律的推导及其解释需要大量的数学近似，因此，它们容易出现人为错误，并且仅限于在稳态下只有几个步骤的反应网络。在这里，作者展示了一个深度神经网络模型可以被训练来分析普通的动力学数据，并自动阐明相应的机理分类，而不需要任何额外的用户输入。该模型以出色的精度识别了各种各样的机理类别，包括脱离稳态的机理，例如那些涉及催化剂活化和失活步骤的机理，并且即使在动力学数据包含大量误差或只有几个时间点时也能出色地执行。作者的研究结果表明，人工智能引导的机理分类是一个强大的新工具，可以简化和自动化的机理说明。作者正在将这个模型免费提供给相关群体，作者预计这项工作将导致全自动有机反应发现和开发的进一步发展。
　　确定将底物转化为产物所涉及的基本步骤的确切顺序对于合理改进合成方法、设计新催化剂和安全扩大工业工艺至关重要（图1a1d）。为了阐明反应的机理，收集了几个动力学剖面，人类专家必须对数据进行动力学分析。尽管反应监测技术在过去的几十年里已经有了显著的改进，动力学数据收集可以完全自动化，但机理阐明的基本理论框架并没有以同样的速度进步。目前的动力学分析流程包括三个主要步骤（图1e）：从实验数据中提取动力学特性，预测所有合理机理的动力学特性，并将实验提取的特性与预测的进行比较。尽管存在许多缺陷，提取动力学固有性最常用的方法是一个多世纪前发展起来的初始速率对数对数图。现代动力学分析，如反应过程动力学分析和多样化时间归一化分析，利用整个动力学剖面提取更丰富的动力学信息，而不仅仅是其中的小部分。然而，它们忽略了隐含在动力学剖面中的动力学信息，因为它们关注的是特定的反应性质，主要是反应的顺序。动力学性质的预测还要求化学家完全掌握稳态速率定律的复杂推导和解释。虽然稳态方程很好地近似了许多机理的动力学行为，但它们不能预测远离稳态的常见系统，例如催化剂缓慢活化或催化剂不可逆失活的反应。此外，即使是中等复杂的反应网络也可能导致难以解释的难以管理的速率定律方程。另外，动力学建模已被用于拟合动力学数据，尽管它是化学过程参数化的强大工程工具，但由于难以区分具有相似拟合优度的模型，其对机理阐明的适用性受到限制。
　　受到最近人工智能（AI）应用于长期科学挑战的巨大进展的启发，作者设想人工智能可以改变动力学分析领域。在此，作者证明了在模拟动力学数据上训练的深度学习模型能够从时间浓度分布中正确地阐明各种类型的机理（图1e）。机器学习模型消除了速率定律推导和动力学性质提取和预测的需要，从而简化了动力学分析，极大地促进了所有合成实验室对反应机理的阐明。由于对所有可用的动力学数据进行了整体分析，该方法增加了询问反应概况的能力，从动力学分析过程中消除了潜在的人为错误，并扩大了可以分析的动力学范围，包括非稳态（包括活化和失活过程）和可逆反应。作者设想这种方法将是现有动力学分析方法的补充，在最具挑战性的情况下尤其有用。
　　图1
　　作者考虑了20种常见的由催化剂（cat）介导的将底物（S）转化为产物（P）的反应机理（图2a）。这些机理属于四个不同的类别（图2a）：（1）核心机理（M1），这是最简单的MichaelisMenten型机理；（2）具有双催化步骤（M2M5）的机理，涉及催化剂二聚体（M2和M3）或两种不同催化物种（M4和M5）之间的反应；（3）基于核心机理的催化剂活化步骤机理，其中预催化剂需要通过底物配位（M7）或配体解离（M8）单分子（M6）活化；（4）从核心机理（M9M20）的任何一个催化中间体中具有各种催化剂失活步骤的机理，这些通常极具挑战性，但在绝大多数催化过程中都会遇到。
　　每种机理在数学上都是由一组常微分方程（ODEs）描述的动力学常数（k1，kn）和化学物质浓度的函数。这些方程允许产生无限数量的底物和产物的时间浓度分布，定义一个动力学空间。虽然动力学空间是每个机理的特征，但它们可以部分重叠。例如，如果M2的一组特定的动力学常数没有导致脱环二聚体cat2的实质性形成，所得到的动力学轮廓与核心机理M1的动力学轮廓难以区分（图2b）。类之间的重叠（在作者的例子中是机理）众所周知会对学习算法的性能产生不利影响。为了尽量减少这些重叠，作者使用化学标准来定义每个机理的动力学空间，优先考虑最简单的机理，从而避免将动力学浓度分布分类给动力学证据不足的过于复杂的机理。
　　深度学习模型的训练通常需要大量的数据，当这些数据必须通过实验收集时，这可能会带来相当大的挑战。然而，在作者的案例中，作者能够通过数值求解ODEs集生成500万个动力学样本，用于模型的训练和验证，而不必使用稳态近似。每个动力学样本作为深度神经网络的输入，包含来自特定机理的四个时间浓度分布，具有固定的动力学常值集；其中三个剖面具有相同的底物初始浓度（〔S〕0），但在110mol。范围内〔cat〕0不同，第四种是相同过量实验，还原〔S〕0（图2c）和添加产物（〔P〕0）。作者选择了这种实验组合，因为它包含了必要的信息来区分所考虑的潜在机理（图2a）。具体来说，使用不同浓度的催化剂的实验有助于评估涉及多个催化物种的机理步骤的存在，同样过量的实验提供了关于产物抑制和催化剂的活化和失活过程的信息。这些配置文件包括20个随机选择时间的底物和产物浓度，这确保了配置文件的广度，数据随时间异构分布，涵盖不同的转换范围。
　　作者的模型包含576000个可训练参数，并使用两种类型的神经网络的组合：（1）长短期记忆神经网络，一种用于处理时序数据的循环神经网络（即时间浓度数据）和（2）全连接神经网络，用于处理非时序数据（即每次动能运行中催化剂的初始浓度和长短期记忆提取的特征）。该模型输出每种机理的概率，概率的总和等于1。在训练过程中进行了数据增强，包括（1）将样本中的浓度时间点数量从20个减少到203范围内的任意值，（2）在S和P的样本浓度值上引入高斯误差，s。d。可达2。在训练过程中，使用验证集对模型进行评估，结果显示几乎没有过拟合，这可以归因于多样化和大的训练集。
　　图2
　　用100000个动力学样本（每个机理5000个）的测试集评估训练的模型，每个剖面包含6个浓度时间点，在采样反应时收集的典型数据点数量。重要的是，测试集中的所有动力学样本都属于独特的动力学剖面，不同于训练集中使用的动力学剖面。该模型的分类准确率为92。6，混淆熵为0。053，前三名的准确率为100。其它机器学习方法，如相似搜索、支持向量机和随机森林，提供的结果要差得多。有趣的是，对绘制实际机理与预测机理（图3a）的混淆矩阵的分析表明，大多数机理都被正确预测，且召回率非常高，大多数错误集在两种活化机理（M6和M8）和三种失活机理（M11、M12和M14）之间。分析每种机理样本的预测概率曲线（图3b）表明，在大多数测试样本中，模型不仅预测了正确的机理，而且具有非常高的置信度（超过99）。测试样本置信度较低主要是由于动力学空间的重叠。例如，M11和M14的大部分样品池的置信度约为50，因为这两种机理都可能具有催化剂失活完全取决于底物浓度的动力学剖面，因此，它们的一些剖面是不可区分的。因为作者认为这两种机理具有相似的复杂性，作者决定不把公共的动力学空间专门分配给其中一个，这将导致它们之间的人为层次。相反，作者对这些机理预测之间的交叉表示欢迎，因为它们表明，该模型不仅能够对大多数机理进行正确分类，而且能够识别与不止一种机理一致的数据集，并赋予它们一个实质性的概率。利用模型的这一特性，作者决定通过对顶级预测进行分组，直到达到高于99的累积置信阈值，从而生成更灵活和更有价值的结果。通过允许对预测机理进行分组（图3c），模型分类准确率提高到99。96（在10万个样本测试集中总共只有38个错误），测试集中有69740个样本被预测为唯一机理，23767个样本被预测为两种机理，6067个样本被预测为三种机理，剩余0。43的样本被预测为三种以上机理。值得注意的是，该模型倾向于将机理分组在同一类别中，类别之间很少交叉（图3d）。这一结果表明，最初通过单一机理分类获得的7。4的不准确性大部分是由于应该一起提出的机理之间的重叠。
　　图3
　　为了充分探索作者的机器学习模型的潜力，作者调查了在数据中引入错误和改变提供的数据点数量的影响。在实验中，通常可以发现在浓度上高斯标准差高达2（95置信区间的产率4）的时间浓度分布（图4a）。从误差如此之大的剖面中提取信息是动力学分析中最大的挑战之一，因此是对作者模型的一个极好的测试。作者在原始测试集的浓度变量上引入了不同程度的高斯误差（高达5s。d）。值得注意的是，当对结果测试集进行评估时，即使在数据中存在显著的标准误差（即高达2），模型也能够保持非常高的分类精度（超过99。6）（图4b）。即使对于质量较差的数据（即s。e。5或95置信区间内产量正负10的误差），分类准确度也达到了83。该模型通过增加其预测中分组的机理数量来处理数据中误差带来的固有不确定性（图4b）。s。d。为1和5的测试样本数据分组的机理的Circos图显示，对于s。e。1的数据集，分组保持在同一机理类别内，而s。e。5的机理类别之间出现交叉。后者并不意外，因为动力学剖面的畸变非常大，因此得到的样本数据可能真正属于不同类别的机理。该模型对异常值的存在做出类似的反应，但这些结果不太相关，因为在实验中，人们通常会从使用任何动力学分析技术的分析中排除明显的异常值。
　　用于减轻数据中错误所导致的不准确性的常用策略是增加数据量。作者探索了改变提供给模型的浓度时间点的数量对其预测的影响，使用的数据集为1。（图4b）。对于包含2到20个浓度时间点的测试集，获得了全面的高分类精度。该模型能够使用额外的时间点信息来增加正确提出单一机理的预测比例（图4b）。相反，当浓度时间点减少到6以下时，分组机理的数量增加。尽管该模型从未使用包含少于三个浓度时间点的样本进行训练，但在每个动力学剖面只包含两个数据点的测试集上，它仍然表现得非常好。
　　图4
　　为了证明人工智能模型在分析实验动力学数据方面的潜力，作者将其应用于各种催化反应，包括闭环烯烃复分解、环加成、烯烃异构化、CH氨基化、光催化氢氧基化和羰基烯烃复分解（图5）。这些案例研究包括的例子中，动力学数据在不同催化剂浓度下只包含三个反应曲线（即没有相同的过量实验）。以及仅监测底物或产物的示例。在所有情况下，机器学习模型都能够识别每个系统的重要特征机理特征，与作者通过动力学和附加机理实验提出的特征相匹配。更值得注意的是，这些模型还提出了传统动力学分析无法证明的机理，例如特定的催化剂失活途径。在Thiel课题组报道的闭环烯烃复分解的情况下（图5a），机器学习模型不仅能够识别作者提出的催化剂失活，而且还能将产物与失活途径联系起来。该模型的预测结果与前人在Ru配合物化学测量和密度泛函理论计算方面的工作相一致，确实显示了乙烯产物诱导催化剂分解的可能性。类似地，在Joannou课题组报道的〔22〕环加成反应中（图5b），机器学习模型识别了催化剂失活与反应底物的参与。虽然经典的动力学分析由于其对动力学数据的微妙影响而不允许识别这一机理特征，但作者在有机金属化学计量学研究中观测到底物介导的催化剂脱氢失活。在Knapp课题组报道的烯烃异构化过程中，机器学习模型显示了另一个不立即明显的失活过程（图5c）。AI模型还可以识别高度特异性的催化剂活化过程，如Stroek课题组报道的CH胺化（图5d）和Lehnherr课题组报道的氢氧基化（图5e）。在Ludwig课题组和Albright课题组报道的羰基烯烃复分解的情况下，该模型在七个案例研究中提出了最多的机理可能性，这表明在这种情况下需要额外的实验来提高准确性。这个特别具有挑战性的案例显示了人工智能指导设计新的动力学实验和改进机理建议的潜力。
　　图5
　　总之，作者已经证明，深度学习可以杠杆化，为从动力学数据中阐明机理提供一个极其强大的工具。新模型将以前冗长的速率定律推导和动力学分析过程简化为仅需要几毫秒的完整和更准确的过程。训练后的模型能够解决以前分析非常具有挑战性的复杂问题，例如有误差的动力学数据，甚至是非稳态的系统。作者还展示了这些AI模型如何很容易地应用于从各种催化反应中提取实验动力学数据的机理见解。作者设想机器学习将成为一个强大的工具，增强合成化学家处理机理研究的能力。

央视春晚压台节目难忘今宵还必要保留么？传承经典还是创新？难忘今宵是每年春晚的压台大戏，歌声悠扬动听，是经典之作，应予传承保留，继续传唱下去。应该保留，但演唱人员可以调整了。谢邀传承经典一一难忘今宵难忘今宵堪称经典，词曲绝佳，至今在万千歌国足失败谁负责？中国男子足球队，有辱国足称号。哪些连越南男足都赢不了的男足们，还有脸称自己是国足队员吗？这场和越南足球的比赛，真认中国男足丢尽了泱泱大国脸。但谁也不用负责，直接解散算了。谁都不用负为什么女足踢赢日本队我们就莫名格外的高兴呢？欣赏女足的拼搏精神女足赢了日本队之后，很多大老爷们都激动得哭了。这是一种复杂的情感，而且压抑了很久。在这之前，男足输给了小组垫底的越南队，无缘世界杯。为了观看女足对战日本的这场赛事千城胜景内蒙古清水河浑河春光好候鸟入画来视频加载中近日，内蒙古清水河县境内的浑河国家湿地公园迎来了首批候鸟。数千只大雁天鹅野鸭飞越千山万水，又回到了美丽的浑河河畔。它们时而在天空盘旋飞舞，时而在积雪融化后的湿地觅食。浑河劳荣枝案最新进展，证据材料能当免死金牌劳荣枝案的免死金牌就是证据，你可以理解为谁拥有证据就拥有了免死金牌，证据这个词本来从古至今就是一个褒贬不一的词儿，就算你把它理解成一个免死金牌也不为过，谁拥有证据就拥有免死金牌，以交广夜听能说服一个人的，从来不是道理，而是南墙听夜晚的声音不经一事，不长一智。来源洞见作者安娜贝苏主播珈宁点击下方音频收听更多精彩内容和细节能点醒一个人的，从来不是说教，而是经历。能说服一个人的，从来不是道理，而是南墙。生一场微信视频号去年直播带货GMV增长800帮助创作者增收成重要方向本报记者李静北京报道3月28日，2023微信公开课PRO微信之约在广州正式开讲，视频号微信支付小程序搜一搜企业微信等重要应用组件的负责人悉数亮相，现场发布了各个板块未来一系列新计划胃胀气吃什么中成药好？胃胀气是因为胃气的和降功能失常，气机停滞于胃脘造成的。要了解胃胀气吃什么中成药好，首先要分析胃胀气的具体原因，根据病因有针对性地用药。胃胀气有虚实之分，下面分别说一下一虚证脾气虚脾大连的房子能降吗？现在适合买吗？现在肯定是降了，如果你是刚需或者改善，可以现在多看看，觉得到了自己的心理价位，就可以出手，谁也不能保证能买到最低价。如果是投资的话，我不建议你现在投资房产，国家意志很坚决，房住不炒很多人30岁了，仍一事无成，靠微薄工资养活自己和家人。怎么看？我90的，今年32岁，上月刚发工资，5200多块，收到工资到账短信，别提有多兴奋，因为我已经有两年多的时间，没正式上过班，全因我丈母娘。2013年，我大专毕业，毕业后找了一份销售工硬耳模一般多久需要更换？3个月内的小儿应每个月换一次39个月，应两个月更换一次918个月，应3个月更换一次1836个月，应6个月换一次36岁，应每9个月或一年换一次。硬耳模本身还是比较耐用的，成人更换是在

<<<<<<－>>>>>>

还买千元机？有请中端机四卷王拼价格拼性能爱拼才会赢手机中国导购如果你现在想要换手机，我们劝你，千元机是一个很好的选择，但在预算充足的情况下，建议还是考虑现在市面上几款表现比较好的中端机。因为现在的中端机市场实在是有点卷，对于消费者2000元以内，5款12256GB大内存手机，性能强价格香，再用3年如果您喜欢，可以点击上面的关注二字。后续会为您提供更多有价值的内容。今天分享，2000元以内，5款12256GB大内存手机，性能强价格香，能再用3年。第一款oppok10参考价格13月换新机，这四款12512G手机，性能强劲，长久流畅不卡顿如果您喜欢，可以点击上面的关注二字。后续会为您提供更多有价值的内容。今天分享3月换新机，这四款12512G手机，性能强劲，长久流畅不卡顿第一款iQOONeo6SE参考价格2489元中国摩托车队征战达喀尔历史（一）凯越完赛群情起一切起源自南方2023年的达喀尔拉力赛对于中国拉力爱好者来说显然具备特殊意义，1月15日这天，我国参加达喀尔的车手全部顺利通过第十四赛段。至此，四辆汽车六辆摩托车均已完成这场对机械与肉体的双重考邵阳经开区召开2023年度安委会和消安委第一次全体会议红网时刻新闻3月9日讯（通讯员肖薇）3月8日，邵阳经开区召开2023年度安委会和消安委第一次全体会议，贯彻落实近期全国全省全市安全生产工作会议精神，分析当前形势，安排部署近期安全生林则徐与左宗棠的忘年之交，即使只有一面之缘林则徐生于1785年（清乾隆五十年），比左宗棠长27岁，但二人之间颇有缘分，有着共同的追求和相同的理念。二人是近代中国历史上地主阶级抵抗派改革派的典型代表，在国防和发展方面志趣相投支持广西打造国际新能源汽车产业高地本报记者李银雁以柳州为支撑，东盟为突破口，支持广西打造国际新能源汽车产业高地。全国人大代表，上汽通用五菱汽车股份有限公司党委书记副总经理姚佐平在接受中国经济时报记者采访时表示。姚佐国际劳动妇女节特别策划闫卓冬残奥会冠军的慈母柔情与巾帼力量中国轮椅冰壶队的闫卓，是从北京市大兴区榆垡镇闫家场村走出的冬残奥会冠军。一年前，她和队友们通力协作，夺得了北京冬残奥会轮椅冰壶项目的金牌。走下领奖台，闫卓在过去的一年里成为了妻子母湖南外国语职业学院与日本淑德大学交流合作国际化办学迎来新机遇红网时刻新闻记者潘锦通讯员杨爽长沙报道从湖南长沙，到非洲安哥拉的罗安达，再到日本的千叶县，湖南外国语职业学院国际交流与合作步履不停，为湘企出海湘品出境写下生动注脚。春风拂面，草长莺姚明被查结果揭晓，中国女篮获奖！辽篮双子星发烧，马布里或离任头条创作挑战赛中国篮协在2023年三八妇女节这天，向获得全国三八红旗手集体荣誉称号的中国女篮送上祝福，并勉励姑娘们继续努力，2024年巴黎奥运会再创辉煌。眼下大部分队员都在征战WC大平原（三百一十一）野望（组诗）野望（组诗）文张恒春野叙事群星落在湖面上，激起波澜不觉又陷入时间的坍塌暮色已近，水鸟隐于岸边初见的黛色一行行树回归视野对岸是晚钓的人，正加紧收起鱼竿春野的沟壑里，芦苇修正姿态像牧羊

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网