分子动力学模拟结果分析
在做完分子动力学模拟后,会得到轨迹文件,该文件中记载了每个模拟时刻的分子构象,我们需要从不同角度对模拟过程进行分析。
本文将详细介绍常见的动力学模拟结果参数、其背后的计算公式、参数反映的物理化学意义,借此更深入地了解动力学模拟到底“在算什么”。
结构对齐
为什么要对齐结构?
在结果分析中我们只关注体系自身构象的变化,但整个模拟中分子可能出现位移或旋转,如果不采取措施消除位移旋转直接计算的话,会造成结果严重失真,因此需要借助算法将各时刻构象归位到一个统一的点,尽可能消除体系外部变化带来的影响。
例如左图,假设模拟中有一个三原子分子构象并没有发生大的改变,但是在某时刻产生了空间上的位移,这时如果不做对齐矫正,继续用两个时刻的原子坐标计算构象变化,很明显会使数值异常偏大。因为该变化并不是分子构象带来的,而且分子整体发生了位移。
经结构拟合对齐后得到的右图坐标,才能更精确的反应分子结构自身发生了哪些改变,此时使用坐标计算就有了实际意义。
如何对齐?
通常是选择模拟中最稳定的构象做参考构象,使用最小二乘法等不同算法调整其他的每个构象的旋转位移属性,使目标构象与参考构象的原子位置重叠度最高。
RMSD
均方根偏差(RMSD,单位:nm 或 Å)反映了两个构象之间的偏离程度,在动力学分析中可以选择某一构象作为参考(通常是初始构象),用其他各时刻的构象与其计算RMSD,得到RMSD随时间变化的曲线,RMSD值越小表示结构越相似,也就是构象偏离程度越小,可以用于判断体系是否稳定。
式子中:
平方和的平方根:将偏差归一化到与坐标同量级
RMSF
均方根波动(RMSF,单位:nm 或 Å)关注某个原子或某个残基在一段时间内的平均波动程度,RMSF值越大表示该原子的运动越剧烈(柔性越高)。
在选定要计算RMSF的部分后(通常是蛋白质骨架),将会依次计算每个残基在整个模拟时间内的平均波动值,随后按原子数对RMSF作图,可观察整个蛋白质链的柔性/活性区。
式子中:
Rg
回旋半径(Rg,单位:nm 或 Å),反映了分子在空间中的伸展程度,对动力学模拟的每个时间步的构象分别计算Rg,即可得到时间对Rg曲线,可分析整个过程中结合构象的伸展变化。
Rg越小的分子构象越紧凑,如折叠的蛋白质;而Rg越大反映分子构象开始伸展,如去折叠的蛋白质、活性口袋打开等。
Rg的计算是原子质量加权的平均距离,需要用体系每个原子的位置和质心位置求距离,再对每个原子对应距离加该原子质量的权重,公式如下:
该公式也可以理解为将体系的原点移动到质心位置,式中:
若采用最简化模型,假设所有原子质量相等,则公式将化简为:
B-factor
温度因子(B-factor,单位:nm 或 Å)衡量原子在平衡位置附近的波动程度,温度因子和RMSF本质上描述的是同一个物理现象,即原子在平衡位置附近的振动幅度,二者可以通过以下公式换算:
B-factor 是 RMSF 平方的约 25 倍,二者均反映原子的振动幅度和柔性,B-factor 更贴合实验传统(平方单位)。
在实际研究中,常通过比较模拟计算的 B-factor 与实验值,验证模拟结果的可靠性。同时可以将温度因子的数值映射到蛋白构象颜色中,可视化得到蛋白质的柔性区和刚性区。
SASA
溶剂可及表面积(SASA,单位:
SASA的计算可以通过“滚球算法”完成,该算法将分子中的每个原子视为球体,那么整个分子体系将被视为多个范德华半径球体拼合而成,形成范德华表面。同时溶剂分子也被视为球体,球体半径可以由算法设定,在计算过程中假设溶剂球在分子表面滚动,球体中心得到的表面就是溶剂可及表面,计算它的表面积即为SASA。下图是SASA计算的示意图:
基于这种假设模型,在实际应用中开发了各种采样计算方法,主要有Shrake & Rupley (点计数法) 和 Lee & Richards (切片法),不同算法对精度和计算效率有不同取舍,在此不做深入教学,可参考本站其他文章。
氢键
任何氢键都由 3 个原子组成,组成氢键的核心原子分别是:
供体氢(H):与电负性原子共价结合的氢原子(如 O-H、N-H 中的 H);
供体原子(D):与 H 共价结合的电负性原子(通常是 O、N、F,需满足 “D-H 键极性强,H 带部分正电”);
受体原子(A):能接受 H 的电负性原子(同样是 O、N、F,需带部分负电,且有孤对电子)。
氢键的表示形式为:D-H…A(“-” 是共价键,“…” 是氢键),比如水分子间的氢键:O-H…O
在计算氢键时会采用距离+角度两个判据,算法会以次遍历供体组和受体组的原子坐标,每一对组合将计算它们的距离和角度,一旦符合设定值将被视为氢键,最终得到各模拟时间构象的氢键数量图:
距离判据:受体与氢的距离(H…A)
即 H 原子与受体原子 A 的距离 ≤ 3.5 Å,超过 3.5 Å 后,认为 D-H 的正电与 A 的负电之间的静电作用会弱到可忽略,无法形成稳定氢键;
角度判据:供体 - 氢 - 受体的夹角(∠D-H-A)
即∠D-H-A ≥ 120°,因为氢键具有方向性,H 的正电荷区域集中在 D-H 键的延长线上,A 的孤对电子沿这个方向与 H 作用时,静电作用最强,夹角越接近 180°,氢键越稳定;若夹角过小(如 < 90°),D-H 的电子云会与 A 的电子云排斥,无法形成氢键。
FEL
FEL(自由能形貌图)是用一张图来描述大分子各种构象自由能的大小,这里的自由能是用玻尔兹曼分布函数计算的各构象的“概率密度”,计算的公式如下:
式子中常数项
RMSD-Rg
通常在计算自由能形貌图时会选择RMSD、Rg两项做横纵坐标,图中每个点的自由能是通过统计符合该点给定RMSD和Rg的构象数
在工程计算中,会把RMSD和Rg两个尺度划分成多个网格,每个网格代表RMSD和Rg的范围,统计落在每个网格中的构象数即可计算该网格的概率密度,由此绘制自由能形貌图。
如下图所示,统计到的落在每个网格范围内的构象数将被映射成颜色值,颜色越深表示该范围的构象越多,概率密度越大。
PCA
文献中另一个常用的方法是计算PCA投影。
对于有N个原子的体系,在模拟结束后会得到T步构象,每个构象将包含N个原子坐标,而每个坐标需要
构建轨迹矩阵
首先,每个时间步的构象将按原子顺序被展开成一个维度为
所有时间步的构象将组成形状为
轨迹中心化
要消除体系整体平移/旋转的干扰,对轨迹矩阵的每一行计算其在所有时间步的平均值:
用每行的原始值减去平均值的中心化矩阵:
计算协方差矩阵
构建
特征值分解
计算特征值分解就是求解特征方程
这个方程有非零解
求解线性方程组将得到
主成分投影
将特征值
得到
通常会选择前两个
自由能
自由能通常用来衡量体系在特定条件下对外做功的能力,体系自由能的变化可以反映该过程的自发性。只有
在生物体系中,结合自由能的大小直接对应分子功能的有效性,结合自由能的负值越大,说明配体结合力越强,形成的复合物结构越稳定。
同时,结合自由能可以拆分为分子力学能(范德华能 + 静电能)和溶剂化能(极性 + 非极性),通过分析各部分对自由能的贡献可以哪些分子间相互作用主导了结合,从而理解结合机制。
通过氨基酸残基分解,也能精准量化每个氨基酸残基对配体结合的能量贡献,从而直接判断哪个残基在结合中起了关键作用,若某个氨基酸残基对配体的 “能量贡献越负”,通常意味着这个残基与配体的相互作用越强、结合越牢固。
如何计算?
结合自由能
| 方法 | 特点 |
|---|---|
| MMPBSA | 基于平衡轨迹的能量分解法,效率高,精度中等,适合大规模分子筛选 |
| FEP | 基于非平衡转化的微扰法,精度极高,成本也高,适合少量分子的精准亲和力预测 |
| TI(热力学积分) | 与FEP同属“炼金术模拟”,精度与FEP相当,计算成本略低 |
| 伞形采样 | 针对明确反应坐标(如结合距离)的自由能曲线计算,适合解析结合路径的能垒 |