溯源:在中国发现首例已知病例之前,已有多种变异株存在

SARS-CoV-2的祖先和家系

根据proCoV2病毒最早的突变及其位点,其祖病毒(proCoV2)及其最初的后代起源于中国,可追溯至中国武汉疫情爆发前6-8周。此外,该科学团队还证明,在中国首次发现COVID-19病例时,与proCoV2存在至少三种突变差异(alpha - 1-3)的毒株种群。系谱中显示了目前感兴趣的主要变种,包括UK (B.1.1.1.7)、South African (B.1.351)、South American (P.1)和现在的Indian (B.1.617)。这些变异不仅在各自的地区取代了先前的主要毒株,而且由于它们有可能逃避今天的疫苗和治疗方法,仍然威胁着世界卫生。资料来源:天普大学Sudhir Kumar

一项新的研究追溯了导致COVID-19和地理空间传播的祖基因组。

在分子流行病学领域,世界科学界一直在稳步探索解决早期历史的谜团SARS-CoV-2。尽管最近世界卫生组织的努力,但没有人确定了第一个人类传播的案例,或“患者零”新冠肺炎大流行。

需要找到最早的可能病例,才能更好地了解病毒是如何从其动物宿主首先感染人类的,以及SARS-CoV-2病毒基因组如何随着时间发生变异并在全球传播的历史。

自2019年12月检测到第一个SARS-COV-2病毒感染以来,SARS-COV-2的多百万种基因组在全球范围内被测序,揭示了冠状病毒在每种基因组的25次突变的速率下突变,尽管如此每年。纯粹的新兴变体,包括英国(B.1.1.1.7),南非(B.1.351),南美(第1章),现在,印度(B.1.617)不仅要取代先前的主导strains in their respective regions, but still threaten world health due to their potential to escape today’s vaccines and therapeutics.

天普大学(Temple University)基因组学和进化医学研究所(Institute for Genomics and Evolutionary Medicine)所长苏迪尔·库马尔(Sudhir Kumar)表示:“SARS-CoV-2病毒已经感染了全球逾1.45亿人,导致300万人死亡。”“我们开始寻找所有这些感染的共同基因祖先,我们称之为祖先基因组。”

该祖基因组(proCoV2)是所有已经感染并持续感染人类的SARS-CoV-2冠状病毒的母亲。

在没有患者零的情况下,Kumar和他的研究团队现在可能已经找到了援助全球分子流行病学侦探工作的下一个最好的事情。“自2019年12月以来,通过使用从感染个体获得的冠状病毒基因组的大数据集重建了祖细胞的基因组及其早期血迹,”新研究的牵头作者Kumar表示,在“先进的在线版”期刊上分子生物学与进化yabo124

他们发现祖先涌入了冠状病毒菌群,其成员包括中国武汉的菌株于2019年12月。“实质上,中国武汉的事件,中国武汉占病毒的第一个超级普获者事件这使得所有工具都有所必需的所有工具,导致全球大流行从盒子中出来,“Kumar说。

库马尔的研究小组估计,SARS-CoV-2的前体已经在更早的时间线内传播——至少比中国首个被称为“武汉1号”的基因组测序早6至8周。该研究的高级作者三浦早矢香(Sayaka Miura)表示:“这一时间线表明proCoV2的出现是在2019年10月底,这与12月初在意大利发现的与‘武汉-1’相同的刺尖蛋白片段的报告一致,以及其他证据。”

“我们在2020年1月以及之后在中国和美国的多个冠状病毒感染中发现了祖基因指纹。在中国出现首例COVID-19病例的前几个月和后几个月,这种病毒的祖先在全球传播。”Pond说。

除了对SARS-CoV-2早期历史的发现,Kumar的研究小组还开发了直观的突变指纹和希腊符号分类(ν, α, β, γ, δ和ε),以简化感染个体或殖民全球地区的主要毒株、亚毒株和变异的分类。这可能有助于科学家更好地追踪并为新变异的出现顺序提供背景。

“总的来说,我们的突变指纹和命名法提供了一种简单的方法,与系统发育指定相比,例如B.1.351和B.1.1.7,”Kumar说,这是一种简单的方法来收集新变种的血液的祖先。“。

例如,α指纹是指一个或多个α变体和其他随后的主要变体的基因组,以及αβ指纹是指含有所有α,至少一个β变体和没有其他主要变体的基因组。

“与我们的工具,我们观察到在欧洲流行菌株的传播和更换(αβε与αβζ)和亚洲(α,αβε),相同的优势菌株的流行在北美(αβ-δ),并继续存在多个高频菌株在亚洲和北美,“说池塘。

找到问题的根源

为了确定祖基因组,他们使用了一种以前没有用于SARS-CoV-2的方法,即突变顺序分析。这项技术广泛用于癌症研究,它依靠突变株的克隆分析和成对突变同时出现的频率来找到病毒的根源。

库马尔说,以前很多分析这样大数据集的尝试都没有成功,因为“重点是建立SARS-CoV-2的进化树”。“这种冠状病毒发展太慢,需要分析的基因组数量太大,基因组的数据质量变化很大。我立刻发现了冠状病毒的这些遗传数据的特性与另一种恶性疾病——癌症的克隆传播的遗传数据之间的相似之处。”

Kumar和Miura已经开发和研究了许多用于分析癌症患者肿瘤基因数据的技术。他们对这些技术进行了调整和创新,建立了一条可以追溯到祖先基因指纹的突变轨迹。“突变追踪方法产生了其主要突变的祖先和家族史。这是一个很好的例子,说明了大数据与基于生物信息的数据挖掘如何揭示重要的模式,”库马尔说。

库马尔说:“这种祖基因组的序列与一些人所说的参考序列非常不同,参考序列是在中国首次发现并存入GISAID SARS-CoV-2数据库的。”

最接近的匹配是在2019年12月24日最早的病毒样本出现26至80天后取样的8个基因组。在所有抽样大洲都发现了多次密切匹配,并且直到2020年6月(大流行第181天)才在南美洲检测到。总的来说,Kumar研究小组分析的140个基因组都只包含与proCoV2相同的差异。也就是说,它们的所有蛋白质在氨基上都与相应的proCoV2蛋白相同序列。这些蛋白质水平匹配的大多数(93个基因组)来自中国和其他亚洲国家的冠状病毒样本。

这些时空模式表明,proCoV2已经拥有了在全球人群中感染、传播和持续存在所需的全部蛋白质序列。

他们根据原cov2病毒的最早突变及其位置发现,原cov2病毒及其最初的后代起源于中国。此外,他们还证明,在中国首次发现COVID-19病例时,存在与proCoV2至少有三种突变差异的毒株种群。据估计,SARS-CoV-2每年发生25个突变,这意味着在2019年12月病例出现前几周,病毒肯定已经感染了人。

突变的签名

Because there was strong evidence of many mutations before the ones found in the reference genome, Kumar’s group had to come up with a new nomenclature of mutational signatures to classify SARS-CoV-2 and account for these by introducing a series of Greek letter symbols to represent each one.

例如,他们发现αSARS-COV-2基因组变体的出现来到了Covid-19的第一个报告之前。这强烈意味着祖先SARS-COV-2种群中存在一些序列多样性的存在。从2019年12月取样的所有17种基因组,包括指定的SARS-COV-2参考基因组,携带所有三种α变体。但是,1,756个没有α变体的基因组在全世界上进行采样直至于2020年7月。因此,最早的采样基因组(包括指定参考)不是祖菌株。

该研究还预测,在COVID-19的早期阶段,其祖先基因组的后代正在全球传播。它从一开始就准备好了感染。

“这种祖先拥有传播所需的所有能力,”庞德说。“人口中非同义变化过多。蝙蝠和人类之间发生了什么尚不清楚,但proCoV2可能已经在全球范围内感染。”

业务遍及全球

总的来说,他们已经确定了七种主要的进化谱系和它们全球传播的偶发性。proCoV2基因组产生了许多主要的后代谱系,其中一些是在中国祖先谱系可能发生之后出现在欧洲和北美的。

库马尔说:“亚洲病毒株引发了这场大流行。”“但随着时间的推移,在其他地方进化出来的许多变异现在对亚洲的影响要大得多。”

他们基于突变的分析还确定,北美冠状病毒的基因组特征与欧洲和亚洲流行的冠状病毒非常不同。

“这是一个动态的过程,”Kumar说。“显然,由于新突变的出现,三个ε,γ&δ绘制的涂抹的涂抹非常不同的涂抹图片。我们发现在尖刺蛋白变化(β突变)之后。科学家们仍在弄清楚这些突变的任何功能性质是否已经加速了大流行。“

值得注意的是,自4月2020年4月以来,Aβ-δ的突变签名仍然是北美的主导血统,与欧洲和亚洲的翻领相比。最近,包括来自南非和英国(B.1.1.17)的新型快速蔓延的变体,包括来自南非和英国(B.1.1.17)的型蛋白质变异(N501Y)迅速增加。南非N501Y变体的冠状病毒携带αβγδ遗传指纹,而英国携带αβε遗传指纹,根据其分类方案携带αβε遗传指纹。“因此,αβ的祖先继续推动这种冠状病毒的许多主要分支。”Kumar说。

实时更新

基于2020年7月7日、2020年10月12日GISAID的3个快照(60332个基因组数据)和2020年12月30日的扩增基因组数据(172480个基因组数据)。

随着新数据的出现,他们将继续完善他们的研究结果。

庞德说:“目前已经对100多万个SARS-CoV-2基因组进行了测序。“这种方法的力量在于,你拥有的数据越多,你就越容易知道个体突变和突变对的精确频率。”这些产生的变异,单核苷酸变异,或snv,它们的频率和历史可以用更多的数据很好地说明。因此,我们的分析为SARS-CoV-2系统发育推断了一个可信的根源。”

MBE的研究是他们对SARS-CoV-2基因组进行持续实时监测的努力的一部分350000人基因组

Pond说:“我们已经建立了一个实时仪表板,显示定期更新的结果,因为数据分析、手稿准备和科学论文同行评审的过程比SARS-CoV-2基因组收集的扩张速度要慢得多。”我们还提供了一个简单的“浏览器内”工具,根据MOA分析得出的关键突变对任何SARS-CoV-2基因组进行分类。

“这些发现以及我们对SARS-CoV-2菌株直观的突变指纹和条形码,克服了回顾COVID-19如何、何时以及为何出现和传播的艰巨挑战,这是通过科学、技术的努力创造克服这场大流行的补救措施的先决条件,公共政策和医疗,”库马尔说道。

2021年5月4日,分子生物学与进化yabo124
DOI: 10.1093 / molbev / msab118

是第一个评论关于“溯源:在中国发现首例已知病例之前就已存在多种变异株”

留下你的评论

电子邮件地址是可选的。如果提供的话,您的电子邮件不会发布或共享。