煤基液体混合物如煤焦油、煤直接液化油的分子结构描述和性质预测是开发煤基液体产品高值化工艺和技术的重要基础。由于煤基液体主要由C、H、O、N、S元素构成数量庞杂、芳环结构各异的混合物,因此,本研究使用Python中的RDKit工具包,利用简化分子线性输入规范(SMILES,Simplified Molecular Input Line Entry System)语言构建煤基液体中物质分子描述符,描述符包含样品元素信息、环数与环结构信息、原子数及分子量信息等共计115个分子描述符。对比人工信息提取方法,将所构建的分子描述符能够体现煤基液体分子结构碎片、分子量及原子个数信息等作为机器学习的特征输入变量,用于建立预测煤基液体的燃料性能的分子机器学习-定量结构性质关系方法(ML-QSPR),实现对燃料低位热值(LHV)、液体密度(ρ)、闪点(FP)、十六烷值(CN)四个关键燃料性能参数的快速预测。模型验证分析表明LHV、ρ、FP模型的R2分别为0.996、0.988、0.987;CN预测中加入混合物数据进行预测,R2=0.959。与已公开报道的预测LHV、ρ、FP、CN性质方法对比,本文提出ML-QSPR方法在预测4个关键燃料性能参数准确度方面有提升、在获取结果速度方面有显著优势。利用ML-QSPR模型预测得到的煤基液体制特种燃料性能参数数据库中的信息,分析增加不同族组分物质的碳原子数量时这4个燃料性能参数的演变趋势,发现LHV、ρ、FP、CN四个燃料性能参数均受碳数(n)影响显著。由于LHV主要由n决定,不同族组分物质的LHV差距小;而不同族组分物质的ρ、FP和CN性质差距明显。此外,本研究训练好的模型可用于预测新的分子,为新型燃料设计提供参考;ML-QSPR方法作为迁移学习模型可在今后用于煤基液体其他场景相关理化性质的分析。
1 建模方法
1.1 数据库
1.2 构建分子描述符
1.2.1 结构分子描述符
1.2.2 添加计算分子量、不同原子个数计数
1.3 执行方式
1.4 ML-QSPR模型开发
2 结果与讨论
2.1分子描述符
2.2 ML-QSPR 模型网络最优结构
2.3 ML-QSPR模型性能
2.4 数据量对性质模型的影响
2.5 混合物性质预测
2.6 ML-QSPR方法与实验方法对比
2.7 预测结果分析4个燃料性能参数
3 结 论
主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会