用于抗体设计的深度生成蛋白语言模型

1,816 0

用于抗体设计的深度生成蛋白语言模型

编辑 | 萝卜皮

用于治疗应用的单克隆抗体的发现和优化依赖于大型序列库，但受到低溶解度、低热稳定性、高聚集和高免疫原性等可开发性问题的阻碍。在数百万个蛋白质序列上训练的生成语言模型是按需生成逼真、多样化序列的强大工具。

约翰霍普金斯大学的科学家和工程师团队提出了免疫球蛋白语言模型 (IgLM)，这是一种深度生成语言模型，用于通过重新设计可变长度的抗体序列跨度来创建合成库。IgLM 将抗体设计制定为基于自然语言文本填充的自回归序列生成任务。

该团队在 558M 抗体重链和轻链可变序列上训练 IgLM，以每个序列的链类型和来源物种为条件。证明 IgLM 可以生成来自各种物种的全长重链和轻链序列，以及具有改进的可开发性配置文件的填充 CDR 循环库。IgLM 是一种强大的抗体设计工具，应可用于多种应用。

该研究以「Generative language modeling for antibody design」为题，于 2022 年 12 月 20 日发布在 bioRxiv 预印平台。

用于抗体设计的深度生成蛋白语言模型

抗体因其多样性和以高特异性结合抗原的能力而在治疗中变得流行。传统上，单克隆抗体 (mAb) 是使用杂交瘤技术获得的，这需要对动物进行免疫。1985 年，噬菌体展示技术的发展允许从大型抗体库中体外选择特异性、高亲和力的 mAb。尽管取得了这些进步，但源自展示技术的治疗性 mAb 仍面临可开发性问题，例如表达差、溶解度低、热稳定性低和聚集度高。展示技术依赖于高质量和多样化的抗体库作为起点来分离更具开发性的高亲和力抗体。

合成抗体文库是通过将合成 DNA 引入抗体序列的区域来制备的，这些区域定义了互补决定区（CDR），允许人造抗原结合位点。然而，可能的合成抗体序列空间非常大（CDR 的 10 个位置多样化产生 20^10 ≈ 10^13 种可能的变体）。要发现具有高亲和力的抗体，必须构建数量级为 10^10–10^11 变体的大量合成文库，通常包含大量非功能性抗体。

最近的工作利用自然语言处理方法，对结构数据不可用的大量原始蛋白质序列数据库进行无监督预训练。这些工作探索了各种预训练任务和下游模型应用。例如，ESM 系列模型（针对掩码语言建模进行训练）已应用于表示学习、变异效应预测和蛋白质结构预测。自回归语言建模是预训练的另一种范例，也已应用于蛋白质序列建模。这些模型已被证明可以生成不同的蛋白质序列，尽管在残基构成上存在显著差异，但它们通常采用自然折叠。在某些情况下，这些生成的序列甚至保留了与天然蛋白质相当的酶活性。自回归语言模型也被证明是蛋白质适应性的强大零样本预测因子，在某些情况下，性能会随着模型规模的扩大而不断提高。

学界已有的模型仍有局限性

专门为抗体相关任务开发了另一套语言模型。该领域的大部分先前工作都集中在观察抗体空间 (OAS) 数据库中序列的掩码语言建模。

之前 Prihoda 团队开发了 Sapiens，这是一对用于重链和轻链掩码语言建模的不同模型（每个模型具有 569K 参数）。Sapiens 模型分别在 20M 和 19M 重链和轻链上进行了训练，并被证明是抗体人源化的有效工具。Ruffolo 团队开发了 AntiBERTy，这是一种单一掩码语言模型（26M 参数），在包含重链和轻链的 558M 序列语料库上进行训练。AntiBERTy 已应用于蛋白质结构预测的表示学习。Leem 团队开发了 AntiBERTa，这是一种在 67M 抗体序列（重抗体序列和轻抗体序列）的语料库上训练的单一掩码语言模型（86M 参数）。AntiBERTa 的表示用于互补位预测。

Olsen 团队开发了 AbLang，这是一对在 14M 重链和 187K 轻链上训练的掩码语言模型，用于序列恢复。对于序列生成，自回归生成模型已在抗体序列上进行训练并用于库设计。Akbar 团队训练了一个 LSTM 来自回归生成 CDR H3 环，并对它们结合抗原的潜力进行了计算机模拟研究。Shin 团队通过实验验证了一组具有生成的 CDR3 环的纳米抗体序列，与传统方法相比，尽管文库要小 1000 多倍，但在生存能力和结合发现方面显示出有希望的改进。

然而，由于该生成模型是单向的，因此不能用于直接重新设计序列内的 CDR3 环，而是必须进行过采样以生成与环后残基匹配的序列。

一种拥有新优势的新模型

在这里，约翰霍普金斯大学的科学家和工程师团队介绍了免疫球蛋白语言模型（IgLM），这是一种生成语言模型，它利用双向上下文来设计不同长度的抗体序列跨度，同时在大规模天然抗体数据集上进行训练。研究表明 IgLM 可以生成以链类型和来源物种为条件的全长抗体序列。此外，IgLM 可以使抗体上的环多样化，以生成高质量的文库，这些文库显示出有利的生物物理特性，同时类似于人类抗体。

用于抗体设计的深度生成蛋白语言模型

图示：用于抗体序列生成的 IgLM 模型概述。（来源：论文）

在训练期间，研究人员为模型提供条件标签，指示抗体的链类型和来源物种，从而能够可控地生成所需类型的序列。

用于抗体序列生成的自回归语言模型的并行工作已经在类似的天然抗体序列集上进行了训练，并探索了更大的模型尺寸。然而，像 ProGen2-OAS 这样的模型在抗体生成和设计方面的实用性有限，因为它们很难指导生成特定类型的序列（例如，物种或链类型）。IgLM 和 ProGen2-OAS 都利用提示策略来指导模型生成走向全长序列。

虽然这些策略在某些情况下可能有所帮助（特别是为了克服数据集的限制），但可能需要提供更多的残基来指导模型走向特定的序列类型（例如，人类与恒河猴重链）。相比之下，通过在模型训练中包含物种和链类型的调节信息，IgLM 能够在没有额外提示的情况下生成所需类型的序列。

用于抗体设计的深度生成蛋白语言模型

图示：可控抗体序列生成。（来源：论文）

尽管如此，这增加 IgLM 等模型的容量可能会带来更好的序列填充性能（更低的困惑度）和评分（更好的似然估计），这是未来工作的一个有希望的方向。

IgLM 的主要创新是能够在抗体序列内的特定位置生成填充的残基跨度。与仅考虑残基前面的传统生成语言模型相比，这使 IgLM 能够在要填充的区域的完整上下文中生成。研究人与通过为 49 种治疗性抗体生成文库来证明填充的效用。研究发现 IgLM 能够生成不同的 CDR H3 循环序列，并且这种多样性在很大程度上可以通过选择采样参数来调整。

用于抗体设计的深度生成蛋白语言模型

图示：生成填充的治疗性抗体库。（来源：论文）

此外，填充的文库具有理想的可开发性特征（聚集倾向、溶解度），同时比它们的父序列平均更像人类。值得注意的是，IgLM 相对于已经高度优化的抗体实现了这些改进，因为所有亲本序列都经过设计，可用于人类的大规模生产和使用。虽然这项研究中专注于抗体环填充，但类似的策略通常可能对蛋白质有用。例如，通用蛋白质序列填充模型可能适用于重新设计连续的蛋白质活性位点或用于在蛋白质工程的不同域之间生成连接子。

用于抗体设计的深度生成蛋白语言模型

图示：填充抗体库的治疗特性。（来源：论文）

「这些库通常由工程师随机突变序列生成。结果是并非生成的每一种抗体都能在体内发挥作用或表现良好。我们的方法不同：我们使用深度学习、人工智能模型来按需创建高质量的数据库，」团队负责人，约翰霍普金斯大学化学与生物分子工程系教授，纳米生物技术研究所副教授 Jeffrey Gray 说。

「展望未来，我们希望与合作伙伴一起验证该方法，以更快地发现治疗性抗体。」团队成员 Jeffrey Ruffolo 说，他是 Krieger 艺术与科学学院 Thomas C. Jenkins 生物物理学系的博士候选人，也是约翰·霍普金斯-阿斯利康学者，「最终目标是减少对大型图书馆的需求，并按需合成在实验室工作的特定抗体。」

Gray 表示，尽管该团队迄今为止的努力仅限于在计算机上创建抗体库，但他们正在寻找合作伙伴以进行实验测试。

「我们相信 IgLM 有真正的希望，但我们需要一个合作者通过实验筛选我们的文库以找到针对特定疾病的抗体。」他说，「原则上，我们可以做到这一点，但我们需要进一步的实验来证明这一点。」

论文链接：https://www.biorxiv.org/content/10.1101/2021.12.13.472419v2.full

相关报道：https://medicalxpress.com/news/2023-03-approach-antibody-libraries.html