密歇根大学团队跑完50688个反应,建成C-N偶联最大开放数据集助力AI寻找廉价催化剂
B910化工消息:6月18日消息,美国密歇根大学药物化学家Tim Cernak团队(第一作者为Jayabrata Das)在《美国化学会志》(J. Am. Chem. Soc. 2026,DOI: 10.1021/jacs.6c05959)发表论文,借助超高通量自动化平台,系统性地跑完了50688个碳-氮(C-N)偶联反应条件,构建并向社区开放了迄今规模最大、可直接横向对比钯、镍、铜三种金属催化体系的C-N偶联数据集。该数据集已上传至开放反应数据库(Open Reaction Database),规模约为次大同类数据集的近5倍。
C-N偶联是药物合成中最常用的金属催化反应之一。Cernak团队的核心策略是窄而深:不同于文献中常见的多种底物、一套最优条件,他们对仅两对起始原料系统性采样海量反应条件——仅其中一对就跑了33792个变体。研究历时约一年,筛选了33种金属催化剂、166种配体、17种碱、4种溶剂和3个反应温度的组合,并用超高效液相色谱-质谱(UPLC-MS)逐一分析产物与收率。为支撑如此高通量,团队开发了多项工程创新:用1536孔板复制后分别打印钯、铜、镍催化剂;将碱以水溶液配送再真空除水以解决固体分配难题;并借用PCR热循环仪加热反应。
数据揭示了多项有价值的发现。团队识别出能在多种金属上通用表现的膦配体和N-杂环卡宾(NHC)配体;还发现当碱足够强时,即便没有金属存在也能发生C-N偶联,暗示存在碱催化机制。瑞士洛桑联邦理工学院(EPFL)机器学习化学研究者Philippe Schwaller评价,典型反应数据集宽而浅,而这一数据集窄而深,对反应预测与优化是独特而宝贵的资源。
该工作有明确的产业与供应链意义。由于全球钯供应在很大程度上受俄罗斯控制,能否在贸易中断时快速切换至更廉价易得的第一过渡系金属(镍、铜)催化体系,对制药合成供应链至关重要。不过Cernak也坦言,5万个反应仍远远不够预测任何新反应——AlphaFold的成功建立在整个蛋白质社区数十年标准化数据与基准测试之上,催化预测模型的成熟同样需要社区合力。团队已计划围绕其他常用催化反应继续释放更多数据。 (来源:Chemical & Engineering News)
C-N偶联是药物合成中最常用的金属催化反应之一。Cernak团队的核心策略是窄而深:不同于文献中常见的多种底物、一套最优条件,他们对仅两对起始原料系统性采样海量反应条件——仅其中一对就跑了33792个变体。研究历时约一年,筛选了33种金属催化剂、166种配体、17种碱、4种溶剂和3个反应温度的组合,并用超高效液相色谱-质谱(UPLC-MS)逐一分析产物与收率。为支撑如此高通量,团队开发了多项工程创新:用1536孔板复制后分别打印钯、铜、镍催化剂;将碱以水溶液配送再真空除水以解决固体分配难题;并借用PCR热循环仪加热反应。
数据揭示了多项有价值的发现。团队识别出能在多种金属上通用表现的膦配体和N-杂环卡宾(NHC)配体;还发现当碱足够强时,即便没有金属存在也能发生C-N偶联,暗示存在碱催化机制。瑞士洛桑联邦理工学院(EPFL)机器学习化学研究者Philippe Schwaller评价,典型反应数据集宽而浅,而这一数据集窄而深,对反应预测与优化是独特而宝贵的资源。
该工作有明确的产业与供应链意义。由于全球钯供应在很大程度上受俄罗斯控制,能否在贸易中断时快速切换至更廉价易得的第一过渡系金属(镍、铜)催化体系,对制药合成供应链至关重要。不过Cernak也坦言,5万个反应仍远远不够预测任何新反应——AlphaFold的成功建立在整个蛋白质社区数十年标准化数据与基准测试之上,催化预测模型的成熟同样需要社区合力。团队已计划围绕其他常用催化反应继续释放更多数据。 (来源:Chemical & Engineering News)




