Covid-19患者零:数据分析标识所有SARS-COV-2基因组的“母亲”

DNA技术概念

寺庙研究人员已鉴定第一个传播冠状病毒的基因组。

在分子流行病学领域,全球科学界一直在休息解决了早期历史的谜语SARS-CoV-2

自2019年12月发现首例SARS-CoV-2病毒感染以来,全球已对其数万个基因组进行了测序,这表明冠状病毒正在突变,尽管速度缓慢,但每个基因组每年发生25个突变。

尽管需要重大努力,但没有人确定了人类传输的第一个案例,或“患者零”新型冠状病毒肺炎大流行病。寻找这种情况是为了更好地了解病毒可能首先从动物宿主中跳跃以感染人类以及SARS-COV-2病毒基因组如何随着时间的推移而突变的历史,并在全球范围内传播。

“SARS-CoV-2病毒携带一种RNA.天普大学基因组学和进化医学研究所所长Sudhir Kumar说。“我们需要找到这个共同的祖先,我们称之为祖先基因组。”

这种祖细胞基因组是当今所有SARS-COV-2冠状虫病的母亲。

在没有患者零的情况下,Kumar和他的寺庙大学研究团队现在可能已经找到了一个帮助全球分子流行病学侦探工作的最佳选择。“我们首先使用从受感染的个体获得的冠状病毒基因组的大数据集进行重建祖细胞的基因组,”该研究的高级作者Sayaka Miura说。

他们发现所有SARS-COV-2基因组的“母亲”,其早期后代菌株随后突变并传播以支配世界大流行。“我们现在已经重建了祖语基因组并映射了最早的突变,当前预印研究的相应作者说。

这样,他们的工作为SARS-CoV-2的早期突变历史提供了新的见解。例如,他们的研究报告称,SARS-CoV-2突增蛋白(D416G)的突变发生在COVID-19开始数周后的许多其他突变之后,这种突变往往与传染性和传播增加有关。该研究的高级合著者谢尔盖•庞德(Sergei Pond)表示:“它几乎总是与许多其他蛋白质突变一起被发现,因此它在增加传染性方面的作用仍然难以确定。”
除了他们对SARS-COV-2的早期历史的调查结果外,Kumar的小组还开发了突变指纹,以快速识别感染个人或殖民地区的菌株和子菌株。

order

为了确定祖基因组,他们使用了突变顺序分析技术,该技术依赖于突变株的克隆分析和SARS-CoV-2基因组中成对突变同时出现的频率。

首先,库马尔的团队筛选了近3万个SARS-CoV-2完整基因组的数据,SARS-CoV-2是导致COVID-19的病毒。他们总共分析了29681个SARS-CoV-2基因组,每个基因组至少包含28000个序列数据基。这些基因组是在2019年12月24日至2020年7月7日之间取样的,代表全球97个国家和地区。

Kumar说,他们以前分析这种大型数据集的尝试并不成功,因为“专注于构建SARS-COV-2的进化树”,“Kumar说。“这种冠状病毒演变得太慢,分析的基因组的数量太大,基因组的数据质量是高度变化的。我立即在来自冠状病毒的这些遗传数据的性质与来自另一个邪恶,癌症的克隆数据的遗传数据之间看到相似之处。“

Kumar的小组已经开发并研究了许多用于分析来自癌症患者肿瘤的遗传数据的技术。它们适应并创新了这些技术,并建立了自动追溯到祖先的突变之路。“基本上,在第一次突变之前的基因组是祖先的基因组,”Kumar说。“突变跟踪方法是美丽的,并预测SARS-COV-2的”主要菌株“的系统发生。这是一个与生物明智的数据挖掘联系的大数据如何揭示重要的模式。“

祖子基因组

Kumar的团队发现了所有SARS-COV-2基因组(ProCov2)的祖细胞(母亲)基因组的预测序列。在ProCov2基因组中,它们鉴定了170个非同义词(导致氨基的突变与在鼻孔Affinis蝙蝠中发现的密切相关的冠状病毒的基因组相比,蛋白质的变化)和958个同义取代。虽然来自蝙蝠到人类的中间动物仍然未知,但这达到了ProCov2和RATG13序列之间的96.12%序列相似性。

接下来,他们从数据集中确定了49种变异频率大于1%的单核苷酸变异(SNVs)。研究人员进一步研究了它们的突变模式和全球传播。

“突变之树预测了一种菌株的树,”Kumar说。“你也可以先做菌株的树,并预测突变的顺序。然而,这种方式受到序列质量的大大影响。当突变率低时,由于质量低和实际突变而难以区分错误。我们采取的方法对测序误差更加强大,因为跨基因组的位置对更具信息量。“

早期的时间表出现了

当将推断出的proCoV2序列与他们收集的基因组进行比较时,发现在核苷酸水平上没有完全匹配,库马尔的研究团队知道大流行开始的最初时间已经被打乱。

“这种祖子基因组的序列与一些人呼叫参考序列的序列,这是在中国首次观察到的并沉积在GISAID SARS-COV-2数据库中,”Kumar说。

最接近的匹配是在2019年12月24日获得的最早样本病毒12天后取样的基因组。在所有抽样大洲都发现了多次匹配,并在2020年4月在欧洲检测到。总的来说,Kumar研究小组分析的120个基因组都只包含与proCoV2相同的差异。也就是说,它们所有的蛋白在氨基酸序列上都与相应的proCoV2蛋白相同。这些蛋白质水平匹配的大多数(80个基因组)来自中国和其他亚洲国家的冠状病毒样本。

这些时空模式表明ProCov2已经拥有感染,传播和持续存在于全球人群所需的蛋白质序列的完整曲目。

他们发现ProCov2病毒及其初始后代在中国出现,基于Procov2及其地点的最早突变。此外,他们还证明,在第一次检测中国的Covid-19案件时,患有多达六种突变差异的菌株群体存在。随着SARS-COV-2每年突变25次的估计,这意味着病毒必须已经在2019年12月之前几周感染了人们。

突变签名

由于有强有力的证据表明,在参考基因组中发现的突变之前,有许多突变,库马尔的研究小组不得不提出一种新的突变标记命名法来对SARS-CoV-2进行分类,并通过引入一系列希腊字母符号来代表每个符号来解释这些突变。

例如,他们发现在Covid-19的第一个报告之前,μ和αSARS-COV-2基因组变体的出现是在Covid-19的第一个报告之前出现的。这强烈意味着祖先SARS-COV-2种群中存在一些序列多样性的存在。从2019年12月取样的所有17个基因组,包括指定的SARS-COV-2参考基因组,携带所有三个μ和三个α变体。有趣的是,含有μ变体但不是α变异的六种基因组在2020年1月在中国和美国进行了取样。因此,最早的采样基因组(包括指定参考)不是祖子菌株。

它还预测祖细胞基因组在Covid-19的最早阶段在全球范围内传播的后代。它已准备好从一开始就感染。

“祖先的所有能力都需要传播,”谢尔盖池塘说。“蝙蝠和人类之间的谱系有很少的证据,尽管蝙蝠冠状病毒有很强的选择。”

搭便车的突变

此外,他们发现了混淆的证据表明,伴随着D416G穗蛋白突变总是另一种突变。

“由于其功能性,许多人对穗蛋白的突变感兴趣,”Kumar说。“但是我们观察的是,除了尖刺蛋白外,在基因组中还存在几种额外的变化,这些内容始终与穗蛋白(D416G)的变化一起发现。我们称之为β群突变,并且尖峰突变是其中之一。无论我们认为尖刺突变在做什么,最好不要忘记其他突变也可能涉及。或者,这些突变可以简单地搭便车,我们尚未说明。“

“同样有趣的是,包含突刺蛋白突变的基因组经历了许多其他突变。我们所说的突变(有3个)发生在刺突突变的背景下,它们改变了一个非常重要的蛋白质中的精氨酸残基,核衣壳(N)蛋白质。epsilon突变在欧洲广泛存在,它们总是与刺突蛋白突变一起被发现。因此,epsilon突变开始在欧洲和亚洲形成一个主导分支。”

业务遍及全球

总共,他们已经确定了七大进化谱系,在大流行开始后出现,其中一些在中国祖先血统的成因后在欧洲和北美出现。

“亚洲菌株创立了整个大流行,”Kumar说。“但随着时间的推移,它是含有epsilon突变的亚毒弹,可能已经发生在中国以外(中东和欧洲首次观察),感染了更多。”

他们的突变分析还确定了北美冠状病毒港口的基因组签名比欧洲和亚洲的普遍存在。

“这是一个动态的过程,”Kumar说。“显然,由于新突变的出现,三个ε,γ和三角洲,我们发现在尖刺蛋白变化后发现的三种唾液胶质胶片涂上了差异。我们需要了解这些突变的任何功能性质是否加快了大流行。“

下一步

向前迈进,他们将继续优化其结果,因为新数据可用。

“现在已经测量了100,000多个SARS-COV-2基因组,”池塘说。Kumar说,“这种方法的力量是您拥有的数据越多,您就可以越容易地讲述单个突变和突变对的精确频率。可以非常良好地介绍产生的这些变体,单核苷酸变体或SNV,它们的频率和历史。因此,我们的分析可将SARS-COV-2 Phylogy的可靠根部推断出来。“

随着新的基因组报告的发布,他们的研究结果将在网上自动更新(现在有超过5万个样本,可以在网上找到http://igem.temple.edu/covidd-19)。

“这些调查结果和我们的SARS-COV-2菌株的直观突变指纹已经克服了艰难的挑战,以发展如何,何时和为何出现和蔓延的方式,何时以及为何传播,这是创造克服这一流行病的补救措施的先决条件Kumar说,科学,技术,公共政策和医学的努力。

Reference: “An evolutionary portrait of the progenitor SARS-CoV-2 and its dominant offshoots in COVID-19 pandemic” by Sudhir Kumar, Qiqing Tao, Steven Weaver, Maxwell Sanderford, Marcos A. Caraballo-Ortiz, Sudip Sharma, Sergei L. K. Pond and Sayaka Miura, 29 September 2020,生物奇
DOI:10.1101 / 2020.09.24.311845

2评论关于“COVID-19零号患者:数据分析确定所有SARS-CoV-2基因组的“母亲””

  1. 嗨,到2018年12月。我病了同样的毒素病毒症状,但他们说是军团国,我是唯一一个人病毒后,我的身体没有同样仍然有病毒的症状2次,但对此是消极的试验症状持续3天和消失

  2. 嗨,我来自Indonedia,在1月2020年初我开发了类似于Covid-19症状。那天我以为我患有普遍的感冒,只有那些症状比我曾经陷入过我的一生中陷入困境的症状。症状持续了10天。极端疲倦,鼻塞,发烧,喉咙痛,咽喉咽喉(每小时一次),非常频繁的睡眠呼吸暂停症状(在睡着后被窒息),但根本没有咳嗽。

发表评论

邮件地址是可选的。如果提供,您的电子邮件将不会被发布或共享。