制造针对某些病毒(包括流感病毒和HIV)的有效疫苗如此困难的原因之一是,这些病毒变异非常迅速。这使得它们能够通过一种称为 “病毒逃逸”的过程,逃避特定疫苗产生的抗体。
在一项新的研究中,来自美国麻省理工学院的研究人员如今设计了一种新的基于最初为分析语言而开发的模型的方法,可在计算上构建病毒逃逸的模型。该模型可以预测病毒表面蛋白的哪些部分更有可能发生突变,从而使得病毒逃逸,它还可以识别出不太可能发生突变的部分,使其成为开发新疫苗的良好靶标。相关研究结果发表在2021年1月15日的Science期刊上,论文标题为“Learning the language of viral evolution and escape”。
麻省理工学院计算机科学与人工智能实验室计算与生物学小组负责人Bonnie Berger说,“病毒逃逸是一个大问题。流感病毒的表面蛋白和HIV的包膜表面蛋白发生的病毒逃逸,都是导致我们没有通用的流感疫苗和HIV病毒疫苗的原因,这两种病毒每年都会造成数十万人死亡。”
在这项研究中,Berger和她的同事们鉴定出用于开发针对流感病毒、HIV和SARS-CoV-2的疫苗的潜在靶标。自从这篇论文被接受发表后,这些研究人员还将他们的模型应用于最近在英国和南非出现的SARS-CoV-2新变种。他们说,这一尚未经过同行评审的分析表明应当对这种病毒变种的基因序列进行进一步调查,以确定它们是否有可能逃脱现有疫苗的影响。
Berger和麻省理工学院生物工程助理教授Bryan Bryson是这篇论文的通讯作者。论文第一作者为麻省理工学院研究生Brian Hie。
蛋白语言
不同类型的病毒获得基因突变的速度不同,HIV和流感病毒属于突变最快的病毒之一。这些突变要想促进病毒逃逸,它们必须帮助病毒改变其表面蛋白的形状,使抗体不能再与之结合。然而,蛋白发生的变化不能使其失去功能。
这些研究人员决定使用一种称为语言模型的计算模型来对这些标准进行建模,这种计算模型来自自然语言处理(NLP)领域。这些模型最初是为了分析语言中的模式,特别是与某些词一起出现的频率。然后,这些模型可以预测哪些词可以用来完成一个句子,比如“Sally吃鸡蛋是为了......”。所选的词必须既在语法上正确,又有正确的含义。在这个例子中,NLP模型可能会预测“早餐”,或者“午餐”。
这些研究人员的关键见解是,这种类型的模型也可以应用于生物信息,如基因序列。在这种情况下,语法类似于决定特定序列编码的蛋白是否具有功能的规则,而语义类似于蛋白是否可以采取新的形状,帮助它逃避抗体。因此,能够使病毒逃逸的突变必须保持序列的语法性,但要以有用的方式改变蛋白的结构。
Hie说,“如果病毒想要逃避人类免疫系统,它又不想让自己突变,那么它就会死亡或无法复制。它想要保持适应度,但要把自己伪装得足够好,以便它无法被人类免疫系统检测到。”
为了对这一过程进行建模,这些研究人员训练了一种NLP模型来分析在基因序列中发现的模式,这使得它能够预测具有新功能但仍然遵循蛋白结构的生物学规则的新序列。这种建模的一个重要优势是,它只需要序列信息,而序列信息比蛋白结构更容易获得。该模型可以在相对较少的信息量上进行训练---在这项研究中,他们使用了6万个HIV序列、4.5万个流感病毒序列和4000个冠状病毒序列。
Hie说,“语言模型是非常强大的,这是因为它可以学习这种复杂的分布结构,并仅仅从序列变化中获得一些对功能的见解。我们有针对每个氨基酸位置的病毒序列数据的这个大的语料库,这种模型可以在训练数据中学习氨基酸共发生和共变异的特性。”
阻断病毒逃逸
一旦这种模型得到训练,这些研究人员就用它来预测冠状病毒刺突蛋白、HIV包膜蛋白和流感病毒血凝素(HA)蛋白的序列,这些序列或多或少会产生逃逸突变。
对于流感病毒来说,该模型显示,最不可能发生突变和产生病毒逃逸的序列是HA蛋白的柄部。这与最近的研究结果---针对HA蛋白柄部的抗体(大多数感染流感病毒或接种流感疫苗的人不会产生这类抗体)可以对任何流感病毒株提供近乎普遍的保护---是一致的。
这种模型对冠状病毒的分析表明,刺突蛋白中称为S2亚基的的一部分最不可能产生逃逸突变。SARS-CoV-2病毒变异的速度有多快仍是个问题,因此当前部署的抗击COVID-19大流行的疫苗能保持多久的有效性还是个未知数。初步证据表明,该病毒的变异速度不像流感病毒或HIV那样快。然而,科学家们最近发现了在新加坡、南非和马来西亚出现的新突变,他们认为应该对潜在的病毒逃逸进行调查(这些新数据还没有经过同行评审)。