CompleteRXN 构建化学反应数据库补全基准,约束解码模型在极端分布外测试达91%准确率
B910化工消息:4月30日,arXiv发表研究引入了CompleteRXN,一个大规模监督基准,用于在真实缺失数据条件下完成化学反应方程式。
化学反应数据库如USPTO存在严重的不完整性,经常缺少副产物、共反应物和化学计量系数。这限制了它们在下游应用中的适用性和可靠性。研究通过将USPTO记录映射到整理过的机理反应,构建了对齐的不完整反应和原子平衡反应数据集。
研究评估了多种基线方法,包括带约束解码的编码器-解码器反应补全模型CRB和算法方法SynRBL。在CompleteRXN基准上,CRB在随机分割上达到99.20%等价准确率,在极端分布外分割上达91.12%。SynRBL产生了许多平衡且化学上合理的补全结果,但在基准测试分割上准确率较低。
所有方法在缺失程度增加时性能退化。在基准外的完整未整理USPTO上评估时,性能出现显著下降,凸显了基准性能与实用鲁棒性之间的差距,为未来工作提供了动力。 (来源:arXiv)
化学反应数据库如USPTO存在严重的不完整性,经常缺少副产物、共反应物和化学计量系数。这限制了它们在下游应用中的适用性和可靠性。研究通过将USPTO记录映射到整理过的机理反应,构建了对齐的不完整反应和原子平衡反应数据集。
研究评估了多种基线方法,包括带约束解码的编码器-解码器反应补全模型CRB和算法方法SynRBL。在CompleteRXN基准上,CRB在随机分割上达到99.20%等价准确率,在极端分布外分割上达91.12%。SynRBL产生了许多平衡且化学上合理的补全结果,但在基准测试分割上准确率较低。
所有方法在缺失程度增加时性能退化。在基准外的完整未整理USPTO上评估时,性能出现显著下降,凸显了基准性能与实用鲁棒性之间的差距,为未来工作提供了动力。 (来源:arXiv)


