建设网站专栏,制作html网页相册代码,河南建设厅证件查询平台,上海哪里有网站建设文章信息
作者#xff1a;Ting Han1, Jie Li1, Liping Liu2, Fengyu Li1, * and Lin-Wang Wang2, *
通信单位#xff1a;内蒙古大学物理科学与技术学院、中国科学院半导体研究所
DOI#xff1a;10.1088/1367-2630/acf2bb 研究背景
近年来#xff0c;基于DFT数据的机器学…文章信息
作者Ting Han1, Jie Li1, Liping Liu2, Fengyu Li1, * and Lin-Wang Wang2, *
通信单位内蒙古大学物理科学与技术学院、中国科学院半导体研究所
DOI10.1088/1367-2630/acf2bb 研究背景
近年来基于DFT数据的机器学习力场machine learning force field, MLFF发展迅速。而MLFF预测能量和力的准确性依赖于对化学环境的准确描述特征。目前已经提出了诸多特征方法但是对于给定的物理问题如何选择合适的特征方法仍然是个难题。汪林望教授课题组和内蒙古大学李锋钰老师课题组使用相同的系统、相同的数据集、相同的数量特征系统地比较了9种不同特征方法的准确性为如何选择特征方法提供了宝贵思路。
文章简介
本文基于S、C体系测试了9种特征类型包括余弦特征2-body3-body、高斯特征2-body3-body、Moment Tensor PotentialMTP特征、spectral neighbor analysis potentialSNAP特征、Chebyshev多项式DP-Chebyshev特征和高斯多项式DP-Gaussian特征和原子簇展开Atomic Cluster ExpansionACE特征。通过比较各特征类型对系统总能、群能、力的均方误差RMSE和损失函数误差筛选出误差最小的最优特征方法为MTP并在S、C和Cu系统中测试验证了MTP模拟的精度。
此外考虑到余弦2-body3-body特征和高斯2-body3-body特征对群能、总能和力模拟的较小误差本文提出对于一个给定的系统可以先用线性模型对不同的特征进行测试然后将该特征集用于神经网络模型的训练。为了扩展数据集进行训练我们采用了能量分解方法将DFT总能分解到单个原子或者多个原子上。
01
单原子能量Ei将DFT总能量划分为原子能量每个原子的能量之和等于系统的总能量 由于Ei只依赖于原子i附近的原子构型这种局部特性为MLFF模型提供了比作为总能量导数的力更加有效的数据。
02
组群多原子能量Egroup为了减少局部能量密度分配给附近原子时的非唯一性本文定义了一个群能group 为DFT计算出的围绕中心原子i的原子能量的加权平均。
主要内容
01
使用DFT进行AIMD计算产生数据集
具体步骤如表1所示。计算得到3个S训练数据集S-300 K分子动力学轨迹S-1500 K分子动力学轨迹S-300 K和S-1500 K轨迹组合以及4个不同构型的C在 300-3500K的训练数据集。相应温度下的S和C结构分别如图2和3所示。 表1 S和C体系及其AIMD步骤 图2 S的结构: (a)初始s8环结构; (b) 300k下2 ps模拟后的结构; (c) 在1500 K下模拟2 ps后的结构 图3 (a)金刚石、(b)石墨烯、(c)类石墨烯 (d) m -碳结构在0 K和300-3500K下的俯视图和侧视图
02
通过拟合总能、群能、力和损失函数的误差比较不同特征方法的准确性
S-300 K和S-1500 K数据集包含256000个原子能量和768000个原子力S-300K和S-1500 K组合数据集包含12000个原子能量和1536000个原子力以及4种不同结构C-300-3500K数据集的总能、群能、力和损失函数的均方根误差分别如图4、5、6所示。
对于S-300 K体系图4实线MTP特征对总能的拟合效果最好RMSE~0.060 eV;余弦2-body3-body特征对群能拟合效果最好RMSE~0.004 eV; 高斯特征2-body3-body拟合力效果最好RMSE~0.09 eV/Å。总体而言MTP特征为最佳线性模型损失函数误差为0.002。
对于S-1500 K系统图4虚线各RMSE均大于S-300 K系统群能、总能和力的均方根误差最小值分别在0.017 eV、0.263 eV和0.419 eV/Å左右损失函数的拟合误差为0.036。除了力的最小误差由ACE特征得到群能、总能和损失函数的最小误差均由MTP特征得到。
S-300 K和S-1500 K组合数据集与S-1500K数据集有类似的结果MTP线性模型对总能量RMSE~0.269 eV、群能RMSE~0.013 eV和损失函数RMSE~0.027的误差最小ACE特征是力精度的最佳特征类型RMSE ~0.270 eV/Å。但是由图5可知组合数据集的各项误差均大于S-300 K的拟合结果说明复杂的模拟系统对力场的拟合来说具有更高的挑战性。 图4 在S-300 K数据集实线和S-1500 K数据集虚线中不同特征类型对于(a)总能、(b)群能、(c)力、(d)损失函数的训练误差。在python-ace包中使用了一个不同的无群能量损耗函数故ACE结果仅在总能和力的图中显示 图5 在S-300 K和S-1500 K组合数据集中不同特征类型对于 (a)总能、(b)群能、(c)力、(d)损失函数的训练误差。在python-ace包中使用了不同的无群能量损失函数故ACE结果仅在总能量和力的图中显示
对于C系统ACE模拟存在很大的错误故只讨论其他6种特征方法的结果。如图6所示MTP线性模型在拟合群能RMSE~0.101 eV、总能RMSE~0.012 eV方面表现出优势; 高斯2-body特征和余弦3-body特征在拟合力RMSE~0.110 eV/Å方面具有优势; MTP特征在损失函数上误差接近RMSE~0.016。 图6 在C系统的组合数据集中不同特征类型对于 (a)总能(b)群能(c)力和(d)损失函数的训练误差
03
选择最优特征方法MTP对测试集进行训练
对于S系统使用不在训练集内的S结构利用DFT分别在300K和1500K下进行6ps 的AIMD计算并以最后1ps为测试集。用S-300K、S-1500K和S-300-1500K模型对两个测试集进行模拟。其与DFT计算相比训练模型和测试集在同一温度下时总能和力都有很好的匹配性如图7和8所示。此外当训练模型和测试集不在同一温度范围模拟的误差非常大这是由于不同温度下训练模型与测试集中的结构信息不同。 图7 基于相同轨迹的MLFF模型和DFT计算能量的比较基于S-300K模型(a, b)、S-1500K模型(c, d)和组合模型(e, f)对S-300K-new集(a, c, e)和S-1500K-new集(b, d, f) 图8 基于相同轨迹的MLFF模型和DFT计算受力的比较: S-300K模型(a, b)、S-1500K模型(c, d)和组合模型(e, f)对S-300K-new (a, c, e)和S-1500K-new (b, d, f)的影响
对于C系统选择训练集之外的C结构进行了300K 6ps的NVT AIMD模拟以最后1ps轨迹作为测试集。如图9 (a) 和 (b) 所示MTP-LR模型在AIMD轨迹上的总能量和力也与DFT吻合良好。C体系的总能和力的误差分别为0.22eV和0.09 eV/Å。
对除C和S以外的Cu系统以Cu-300-1000 K的NVT 2 ps AIMD模拟作为训练集在1000 K时对训练集之外的Cu结构进行了1 ps的NVT AIMD仿真作为测试集。如图9 (c)和 (d) 所示可见Cu系统的MLFF模型沿着AIMD轨迹的总能和力都与DFT结果吻合较好。其中Cu体系的总能和力的误差分别为0.12 eV和0.05 eV/Å。 图9 在C (a, b)和Cu (c, d)两种模型中DFT和MTP线性模型沿分子动力学轨迹的总能和力的比较