材料科学与工程学院莫凡洋课题组开展AI for Science交叉研究取得进展

薄层色谱(TLC)广泛用于合成化学实验室,是一种最常用的分析方法,可用于有机反应的监测以及柱色谱分离过程中确定目标化合物的位置。这项技术简单易用,成本低廉,却十分强大,能给出非常丰富的信息,在有机合成实验室中具有不可替代的地位。然而由于影响因素很多,化合物的Rf值在未规范实验条件下的数值往往重现性较低;此外色谱条件的确定也需要很多经验,往往要进行多次尝试才能获得一个较理想的分离效果。

材料科学与工程学院莫凡洋课题组搭建机器人平台,开发了TLC分析的自动化技术,获得了海量标准化的TLC数据,进而应用机器学习对数据进行回归分析,得到一个能够进行精准预测的模型。在实际应用中,模型能够在秒级时间内预测化合物在任意指定溶剂组合条件下的Rf值,从而避免大量试错,提高实验室工作效率。

自动化与机器学习结合建立TLC预测模型

研究者利用MACCSKey分子指纹和物理化学描述符,如分子量(MW)、拓扑极性表面积(TPSA)、氢键给体数量(HBD)等,将分子转化为计算机可以处理的数值结构;采用加权向量化编码技术表示流动相信息。进行特征工程之后,研究者通过一系列常见的机器学习算法学习特征与Rf值之间的关系,取得了较好的预测精度。

特征工程与模型预测精度

研究者通过预测模型的平均绝对误差(MAE)的百分比增加来评估所使用的分子描述符的相对重要性。研究发现TPSA重要性最高,TPSA、HBD与Rf值之间存在明显的负相关关系,这些都非常符合化学家的直觉和知识。然而Rf值和描述符之间的关系以前是模糊的,在这项工作中首次以统计的方式揭示了它们之间的关系。通过该机器学习模型,可预测任意流动相体系、任意溶剂比例下的化合物Rf值,并且对于不同的化合物体系,模型可以给出适当的溶剂系统,以促进色谱分离。

相关研究成果发表于Chem(Doi:10.1016/j.chempr.2022.08.008),莫凡洋副教授和南方科技大学张东晓教授为本论文的共同通讯作者,北京大学材料科学与工程学院为第一通讯单位。北京大学博士生徐浩和林京龙是本论文的共同第一作者。该项研究工作得到了国家自然科学基金的资助。

相关视频链接:

https://www.bilibili.com/video/BV17R4y1j7jz

https://www.bilibili.com/video/BV1C44y1p7mR

论文链接:

https://doi.org/10.1016/j.chempr.2022.08.008

转载本网文章请注明出处