助力发现药物靶点,华科大开发深度迁移学习方法,预测跨膜蛋白

AI人工智能1年前 (2023)发布 ash
374 0

助力发现药物靶点,华科大开发深度迁移学习方法,预测跨膜蛋白

编辑 | 萝卜皮

膜蛋白由大约四分之一的人类基因编码。链间残基-残基接触信息对于膜蛋白复合物的结构预测很重要,对于理解其分子机制很有价值。尽管已经提出了许多深度学习方法来预测膜蛋白中的蛋白内接触或螺旋-螺旋相互作用,但由于跨膜蛋白数量有限,准确预测其链间接触仍然具有挑战性。

为了应对这一挑战,华中科技大学的研究人员利用从非跨膜蛋白大数据集中预先训练的知识,开发了一种深度迁移学习方法,用于预测跨膜蛋白复合物的链间接触,称为 DeepTMP。DeepTMP 利用几何三角形感知模块从蛋白质语言模型生成的共同进化信息中捕获正确的链间相互作用。



DeepTMP 在 52 个自相关跨膜蛋白复合物的测试集上进行了广泛评估,并与包括 DeepHomo2.0、CDPred、GLINTER、DeepHomo 和 DNCON2_Inter 在内的最先进方法进行了比较。结果表明,DeepTMP 显著提高了链间接触预测的精度,并且在准确性和稳健性方面优于现有方法。

该研究以「Deep transfer learning for inter-chain contact predictions of transmembrane protein complexes」为题,于 2023 年 8 月 15 日发布在《Nature Communications》。

助力发现药物靶点,华科大开发深度迁移学习方法,预测跨膜蛋白

膜蛋白(MP)在活细胞中发挥着多种作用和重要功能,包括分子转运蛋白、离子通道、信号受体、免疫反应和酶。据估计,多达约四分之一的人类基因组编码膜蛋白,其构成了当前药物靶点的约一半。

通常,跨膜蛋白(TMP)组装形成对称同源寡聚物,在疏水相互作用和氢键网络的驱动下,通过自身相互作用来发挥其特定的生物学功能。然而,跨膜蛋白复合物结构的实验测定具有挑战性,这主要是由于复杂的膜环境和这些蛋白的大尺寸的影响。因此,非常需要开发计算方法来预测 TMP 的同源寡聚结构并提供分子相互作用的见解。

受单体结构预测中蛋白质内接触预测成功的推动,已经开发了各种先进的深度学习方法来预测蛋白质复合物的链间接触。

华科大团队之前的工作 DeepHomo 利用序列和结构特征来预测与 ResNet2 架构的链间接触。随着蛋白质语言模型的进步,DeepHomo2.0、GLINTER 和 CDPred 应用 ESM-MSA-1b 模型中的嵌入向量和多头注意力特征来捕获界面相互作用。

然而,这些基于深度学习的方法仅在主要可溶性蛋白质的数据集上进行训练,这与 TMP 不同。因此,迫切需要专门开发一种深度学习模型来预测 TMP 同源低聚物的链间接触。

但是,与数千个可溶性蛋白复合物相比,跨膜蛋白复合物的数量相当有限。例如,PDBTM 数据库中只有 <350 个非冗余同源寡聚跨膜蛋白复合物,这对跨膜蛋白的直接训练构成了主要障碍。

为了应对这一挑战,该团队开发了一种深度迁移学习方法来预测跨膜蛋白的链间接触,名为 DeepTMP,首先在大量可溶性蛋白质上训练初始模型,然后利用蛋白质语言模型和几何三角形感知模块的特征将其转移到跨膜蛋白质。

助力发现药物靶点,华科大开发深度迁移学习方法,预测跨膜蛋白

图示:DeepTMP的框架。(来源:论文)

与常见的 ResNet 和注意力机制相比,几何三角形模块可以有效考虑多体效应并减少几何不一致,这有助于预训练模型更有效地从 ESM-MSA-1b 模型生成的演化信息中捕获界面相互作用,并更好地预测TMP的链间接触。

研究人员对 DeepTMP 在 52 个跨膜蛋白复合物的 TMP 测试集上进行了广泛的评估,并与 DeepHomo2.0、CDPred、GLINTER、DeepHomo 和 DNCON2_Inter 等其他五种方法进行了比较。

结果表明,DeepTMP 在比较方法中取得了最佳性能,对前 10 个和 L 个预测接触的链间接触预测精度分别为 82.2% 和 68.4%,而 DeepHomo2 的精度分别为 48.7% 和 31.8%。

在测试集上,CDPred 为 0、CDPred 为 48.5% 和 33.8%,GLINTER 为 38.0% 和 27.7%,DeepHomo 为 27.7% 和 15.7%,DNCON2_Inter 为 13.3% 和 7.9%。

助力发现药物靶点,华科大开发深度迁移学习方法,预测跨膜蛋白

图示:DeepTMP与其他方法的比较。(来源:论文)

这些结果证明了 DeepTMP 的准确性和稳健性。DeepTMP 比其他方法更好的性能不仅归因于在网络架构中使用 Resnet-Inception 和几何三角形感知模块,还归因于训练集中包含跨膜蛋白复合物。

此外,研究人员还将 DeepTMP 与初始训练模型(IT_Model)进行了比较,证明了迁移学习的重要性。通过跨膜区域比例和对称顺序等不同影响因素的比较,发现 DeepTMP 可以保留从预训练模型中学到的类似物理相互作用,例如界面疏水相互作用,并捕获跨膜蛋白复合物的特征。

该团队在 TMP 训练集上直接训练基于深度学习的模型,而不进行迁移学习,并将其与 DeepTMP 进行比较,从而说明预训练模型的重要性。该团队还研究了不同特征的影响,从而验证 DeepTMP 的稳健性。

此外,与其他方法相比,该团队研究了 DeepTMP 在具有不同相互作用机制和结构特征的不同拓扑上的性能。结果表明,无论拓扑如何,DeepTMP 都可以有效地预测正确的链间接触。

最后表明,DeepTMP 在一定程度上能够根据最大预测接触概率区分单体和低聚物以及二聚体和高阶复合物。预计 DeepTMP 将成为同源寡聚跨膜蛋白链间接触预测不可或缺的工具。

论文链接:https://www.nature.com/articles/s41467-023-40426-3

© 版权声明

相关文章

暂无评论

暂无评论...