编辑 | 绿萝
单细胞多组学 (scMulti-omics) 技术允许同时量化多种模态,以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地推断出不同细胞类型中 active 生物网络以及这些网络对外部刺激的反应。
在此,来自山东大学参与的多机构研究团队,开发了基于深度学习的单细胞数据多组学分析平台:DeepMAPS,用于从 scMulti-omics 进行生物网络推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模,并使用多头图(multi-head graph)Transformer 以稳健的方式学习局部和全局上下文中的细胞和基因之间的关系。
通过构建包含细胞和基因的异构图,DeepMAPS 可以同时识别它们的联合嵌入,并能够在完整框架中推断特定于细胞类型的生物网络以及细胞类型。此外,异构图 Transformer 的应用以可解释的统一多关系对细胞-基因关系进行建模。通过这种方式,可以大大缩短图中的训练和学习过程,以考虑更远距离的细胞影响。
该研究以「Single-cell biological network inference using a heterogeneous graph transformer」为题,于 2023 年 2 月 21 日发布在《Nature Communications》 上。
论文链接:https://www.nature.com/articles/s41467-023-36559-0#Sec9
单细胞多组学技术
单细胞测序,例如单细胞 RNA 测序 (scRNA-seq) 和单细胞 ATAC 测序 (scATAC-seq),重塑了细胞异质性的研究。然而,单个单细胞模态仅反映了遗传特征的快照并部分描述了细胞的特性,导致复杂生物系统中的表征偏差。
单细胞多组学 (scMulti-omics) 允许同时量化多种模态,以充分捕捉复杂分子机制和细胞异质性的复杂性。当与稳健的计算分析方法结合使用时,可以推进各种生物学研究。
用于 scMulti-omics 数据综合分析的现有工具,可以可靠地预测细胞类型和状态,消除批次效应,并揭示多种模态之间的关系或对齐。然而,大多数现有方法没有明确考虑细胞和模态之间的拓扑信息共享。因此,它们无法同时有效地推断不同细胞类型的 active 生物网络和细胞聚类,并且在阐明这些复杂网络对特定细胞类型的外部刺激的反应方面的能力有限。
最近,图神经网络 (GNN) 通过传播相邻细胞特征和在全局细胞图中构建细胞-细胞关系,在学习单个细胞的低维表示方面显示出优势。此外,具有不同类型节点和边的异构图已被广泛用于建模多关系知识图。它为整合 scMulti-omics 数据和学习底层细胞类型特定的生物网络提供了一个自然的表示框架。用于建模和整合异构关系的注意机制的最新发展使深度学习模型可以解释,并使细胞类型特异性生物网络的推断成为可能。
在这项工作中,研究人员开发了 DeepMAPS,这是一个用于从 scMulti-omics 数据推断细胞类型特定生物网络的异构图 Transformer 框架。该框架采用了一种先进的 GNN 模型,即异构图 Transformer (Heterogeneous Graph Transformer,HGT),具有以下优点:
(1)它制定了一个以细胞和基因为节点,以它们之间的关系为边的一体化异构图。
(2)该模型捕获细胞和基因之间的相邻和全局拓扑特征,同时构建细胞-细胞关系和基因-基因关系。
(3)HGT 模型中的注意机制能够估计基因对特定细胞的重要性,可用于区分基因贡献,增强生物学解释性。
(4)该模型无假设,不依赖于基因共表达的约束,因此可能推断出其他工具通常无法发现的基因调控关系。
值得注意的是,DeepMAPS 与 Docker 一起实现为无代码、交互式和非编程的接口,以减轻 scMulti-omics 数据的编程负担。
DeepMAPS 框架概述
总的来说,DeepMAPS 是一个端到端且无假设的深度学习框架,可以从 scMulti-omics 数据推断特定细胞类型的生物网络。在 DeepMAPS 框架中有五个主要步骤:
1. 对数据进行预处理,去除低质量细胞和低表达基因,然后根据不同的数据类型采用不同的归一化方法。一个完整的细胞-基因矩阵被生成来表示每个细胞中每个基因的组合活性。针对不同的 scMulti-omics 数据类型采用不同的数据整合方法。
2. 从集成矩阵构建异构图,以细胞和基因为节点,以细胞中是否存在基因为边。
3. 建立 HGT 模型,共同学习细胞和基因的低维嵌入,并生成一个关注分数,表示基因对细胞的重要性。
4. 基于 HGT 学习嵌入和注意力分数预测细胞聚类和功能基因模块。
5. 在每种细胞类型中推断出不同的生物网络,例如基因调节网络(GRN)和基因关联网络。
图示:DeepMAPS 和 HGT 插图的工作流程。(来源:论文)
通过构建包含细胞和基因的异构图,DeepMAPS 同时识别它们的联合嵌入。并能够在完整框架中推断特定于细胞类型的生物网络以及细胞类型。此外,异构图 Transformer 的应用以可解释的统一多关系对细胞-基因关系进行建模。通过这种方式,可以大大缩短图中的训练和学习过程,以考虑更远距离的细胞影响。
DeepMAPS 表现较佳
研究人员在十个 scMulti-omics 数据集上对 DeepMAPS 的细胞聚类性能进行了基准测试。
图示:DeepMAPS 在细胞聚类方面的基准测试。(来源:论文)
基准测试结果表明,DeepMAPS 在细胞聚类和生物网络构建方面比现有工具表现更好。
为了进一步将 DeepMAPS 的功能扩展到 GRN 推理,研究人员使用了 10× Genomics 网站(10× Genomics 在线资源)上提供的单细胞多组 ATAC + 基因表达数据集。原始数据来自 14,566 个快速冷冻的腹内淋巴结肿瘤细胞,该细胞来自一名诊断为弥漫性小淋巴细胞淋巴瘤 (DSLL) 的淋巴结淋巴瘤患者。
图示:DeepMAPS 识别 DSLL 子网中的特定 GRN。(来源:论文)
DeepMAPS 可以构建 GRN 并识别特定于细胞类型的调控模态,以更好地了解患病亚群的细胞状态和发育顺序。
DeepMAPS 展示了在肺肿瘤白细胞 CITE-seq 数据和匹配的弥漫性小淋巴细胞淋巴瘤 scRNA-seq 和 scATAC-seq 数据中推导细胞类型特异性生物网络的竞争能力。
DeepMAPS 提供了一个多功能且用户友好的门户网站,用于分析 scMulti-omics 数据
由于单细胞测序数据的复杂性,近三年来开发了很多的 webserver 和 docker,但这些工具大多只提供细胞聚类和差异基因分析等最基本的功能。它们不支持 scMulti-omics 数据的联合分析,特别是对生物网络推理缺乏足够的支持。
在此,研究人员提供了一个无代码、交互式和非编程的界面,以减轻 scMulti-omics 数据的编程负担。web 服务器支持使用 DeepMAPS 分析多个 RNA-seq 数据、CITE-seq 数据和 scRNA-ATAC-seq数据。
图示:DeepMAPS 门户网站的组织结构。(来源:论文)
服务器中包括三个主要步骤:数据预处理、细胞聚类和注释以及网络构建。此外,DeepMAPS 服务器支持实时计算和交互式图形表示。用户可以注册一个帐户,以拥有自己的工作空间来存储和共享分析结果。DeepMAPS 网络服务器还强调了一个额外的功能,用于阐明复杂网络对特定细胞类型的外部刺激的响应。用户可以上传带有表型信息的元数据文件,选择并重新标记相应的细胞。
有进一步提高 DeepMAPS 功能的空间
虽然 DeepMAPS 在分析 scMulti-omics 数据方面有一定的优势和性能改进,但仍有进一步提高 DeepMAPS 功能的空间。
首先,考虑到异构图表示的复杂性,超大数据集的计算效率可能是一个实际问题。此外,建议在 GPU 上运行 DeepMAPS,这会导致潜在的再现性问题。最后,当前版本的 DeepMAPS 基于具有基因和细胞的二分异构图。为了完全实现 scMulti-omics 分析的端到端框架,可以将二分图扩展为多分图,其中可以将不同的模态作为不相交的节点类型包含在内。
总之,研究人员将 DeepMAPS 评估为 scMulti-omics 数据和细胞类型特异性生物网络推理综合分析的先驱研究。它可能会为深度学习在单细胞生物学领域的部署提供不同的愿景。随着 DeepMAPS 网络服务器的开发和维护,研究人员的长期目标是创建一个基于深度学习的生态社区,用于存档、分析、可视化和传播 AI 就绪的 scMulti-omics 数据。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...