探寻新冠病毒的“生物密码”——北大生命科学学院陆剑课题组开展新冠病毒演化动态研究纪实

3月3日,由中国科学院主办的英文综合性期刊《国家科学评论》(National Science Review)发表了由北京大学生命科学学院及蛋白质与植物基因研究国家重点实验室陆剑课题组和中国科学院上海巴斯德研究所崔杰课题组合作撰写的论文《SARS-CoV-2的起源与持续进化》(On the origin and continuing evolution of SARS-CoV-2),对新冠病毒(SARS-CoV-2)基因组的演化动态进行深入研究和解读。该研究最早提出了新冠病毒存在两个不同的主要谱系,从基因组水平上加深了我们对这种新型病毒的认识,对新冠肺炎疫情的临床诊断具有重要参考价值。

论文发表后迅速引起了国内外学界和媒体的热切关注,引发了多个学术论坛针对相关机制展开的深入探讨,Science (Mar. 9, 2020)等学术期刊和国内外多家新闻媒体纷纷予以报道。据《国家科学评论》官方网站数据显示,论文发表至今阅读量已经排在了该杂志所有文章阅读量的榜首,被下载8.8万多次。“我的邮箱里已经收到来自世界各地的很多邮件,有来自学界的科学讨论,也有来自公众的热切问询。大家对我们研究工作的高度关注,反映了希望从科学研究的角度了解和认识这种新型的冠状病毒的迫切愿望。这种愿望对于我们科研工作者来说,既是鼓励,也是动力,更是鞭策。”陆剑说。

“为增进对新冠病毒的认识贡献力量”

陆剑研究员及其课题组在基因组和分子演化领域经验丰富,并有一系列重要研究成果,尤为擅长从RNA水平上研究基因表达调控的机制和进化规律。陆剑说:“我是从1月下旬开始通过新闻关注到了这次疫情的发展。”随着疫情日益严重,陆剑深感应当运用实验室的特长,利用进化生物学的方法来对病毒的基因组序列进行分析和解读,开展病毒基因组的演化研究,为抗疫作出贡献。“只有了解病毒,才能更好地找到快速诊断、严密防御和有效治疗病毒感染的措施,”陆剑说,“开展这项研究也是在抗疫期间我尝试的教学改革,以培养学生分子进化和基因组学方面的分析能力。”

陆剑研究员(中)与实验室的学生交流 李香花 摄

陆剑课题组与崔杰课题组合作,通过对新冠病毒和近缘病毒进行系统发生分析,发现新冠病毒虽然与蝙蝠冠状病毒RaTG13的基因组总体差异较小(~4%),但其基因组内中性进化位点的差异高达17%,表明新冠病毒在进化过程中经历了非常强的自然选择。通过对新冠病毒和来自马来穿山甲的冠状病毒的核苷酸比较,推测新冠病毒与其分歧事件并非近期发生,也说明新冠病毒的起源可能更为复杂。

陆剑课题组与崔杰课题组通过对当时公共数据库中仅有的103个新冠病毒基因组全序列进行分子演化系统分析,首次发现依据两个高度连锁的突变位点(分别位于参考基因组的第8782和28144位),可以把新冠病毒主要分为“L”和“S”两个谱系,因基因组28144位突变对应的氨基酸分别是亮氨酸(L)和丝氨酸(S)而得名。在103个新冠病毒样品中,72 (~70%)个为“L”谱系,29 (28%) 个为“S”谱系;在另外2个样品中,1例可能是L和S谱系的混合体,而另1例由于发生了突变而不属于这两个谱系。虽然“L”谱系比“S”谱系更为普遍,但是进一步分析表明,“S”谱系更接近在蝙蝠和穿山甲体内发现的病毒,提示“S”更为古老。他们的数据分析还表明,新冠病毒的L和S两个谱系不是新近由于碱基发生变化而产生的,而是在病毒爆发的早期可能就已经存在了。陆剑介绍:“我们的研究从分子演化的角度加深了对新冠病毒的认识。”

图A: 103个新冠病毒群体中具有较高频率的SNP位点两两之间的连锁分析图

图B:每对SNP的r2(y轴)相对于它们在基因组上的距离(x轴)示意图

图C:每对SNP的LOD(优势对数,y轴)相对于这对SNP之间的基因组距离(x轴)示意图

陆剑课题组与崔杰课题组关于病毒分型的结果后续也被国内外其他独立研究印证,包括4月7日英国剑桥大学及德国学者发表在美国国家科学院院刊(PNAS)题为“Phylogenetic network analysis of SARS-CoV-2 genomes”的文章。在这篇文章中,作者对160个新冠病毒基因组序列进行分析,以来自蝙蝠的病毒序列RaTG13作为外群,把病毒毒株划分为A、B、C三种类型,"A型"较为原始,"B型"由"A型"演化出来后,"C型"进一步由"B型"演化出来。“其实这两篇文章的分型结果高度一致,PNAS文章的‘A型’就是我们划分的S谱系,‘B型’和‘C型’则构成了L谱系,而且PNAS作者在划分A、B、C三型的时候,主要依据也是我们划分L和S谱系所用到的8782和28144这两个高度连锁的突变位点。目前公共数据库中已经有超过15000多条新冠病毒基因组序列,我们的分型结果还在进一步细化。” 陆剑说。值得关注的是,陆剑及合作者的研究结果比PNAS文章的结果早一个月发表。

“让人感动的北大学子和非常稳定的校园网系统”

作为一名青年教师,陆剑在指导学生的学习和科研工作中很注重和学生之间的交流沟通。

陆剑研究员(右一)带领学生在北京百花山采集果蝇

疫情期间如何有效沟通?针对疫情使课题组的同学们被阻隔在各自家里的情况,陆剑发挥生物信息分析灵活、机动的特点,充分运用微信、VPN等网络平台,远程指导学生们结合生物信息和基因组学分析,对新冠病毒进行深入研究。“基本上每天都要开2-3个简短的远程组会,”陆剑说,“课题组的同学们非常努力,研究生唐小鹿、吴长城、吴鑫凯和姚欣敏四位同学做了大量的分析工作。”陆剑对同学们的科研热忱高度肯定:“我们学生身上所表现出的社会责任感和科研投入,让我非常感动。不管我什么时候发微信或者打电话布置工作,他们总是第一时间完成,哪怕是连夜加班。”有的同学家在乡村,上网不方便,但是同学们总是克服困难,坚持投入科研工作。一次陆剑给一个家在乡村的同学布置任务,这名学生说:“刚才大风把我家里的网络线路刮断了,我就用流量完成任务吧!”课题组师生合力进行科研攻坚。在研究过程中,陆剑带领学生基本上把当时与此项研究相关的文献都进行了深入阅读,并进行讨论。“由于分子进化这个领域比较广博,学生们仍然处于学习阶段,因此对于论文的结果,我需要至少两名同学独立分析,同时,我自己也会独立验证,确保研究结果的准确性。”通过这个过程,课题组的同学们加深了对科研工作全过程的认识和理解。“我们进展得很快,”在历时4周的“连轴转”集中科研攻关之后,课题组终于取得了重要的研究进展。

陆剑表示,北大“给力”的网络服务对科研成果的取得起到了极大的支撑作用。“我们分析用到了大量的计算资源,咱们学校提供的VPN服务非常稳定,学生们在家登录VPN之后,远程在服务器上运算,学校的VPN服务给我们提供了坚强的科研保障。”

“科研合作非常重要”

在科研攻关过程中,陆剑课题组同国内相关领域的专家开展了科研合作。“中科院上海巴斯德研究所崔杰课题组长期从事病毒的演化工作,中国医学科学院病原生物学研究所钱朝晖研究员尤为擅长冠状病毒的功能和机制研究,是我们的‘活字典’;我们大家各展所长,通过微信等平台交流沟通,一起研究。”

《SARS-CoV-2的起源与持续进化》发表后,陆剑研究员同合作者特别强调,文章中分析的病毒基因组数据量较少,后续工作需要扩大样本数量来进一步验证结论和推测。

国内一些科学家意识到开展广泛深入的科研合作对最终战胜疫情的重要性。2月上中旬,台湾“中研院”院士、中科院基因所原所长、中山大学生命科学学院吴仲义教授和中国科学院院士、中科院脑科学与智能技术卓越创新中心(神经科学研究所)学术主任蒲慕明研究员在《国家科学评论》上两次撰文呼吁科研工作者即时公布和共享新型冠状病毒测序数据。

“我们当时进行这项研究的时候,公共数据库中只有103个新冠病毒基因组序列,而经过我国及其他国家科学家和医务工作者一致努力,到3月底基因组序列增加到2225个,截至5月2日基因组序列已经超过15000多条。”陆剑课题组基于这15000多条基因组序列进行了进一步分析发现,“我们当时根据103个基因组序列把新冠病毒分为L和S两个谱系,现在基因组数据增大一百多倍后,L和S谱系的划分仍然非常明确,而且在世界不同国家和地区的分布也呈现不同,我们正在继续进行研究。”

伴随着疫情的发展,公共数据库中病毒基因组序列快速增加,病毒基因组数据的扩充为研究提供了非常宝贵的数据资料。“我们的基因组分析工作是建立在我国和世界各地奋斗在一线的医务工作者和科研工作者们共同努力的结果之上的,我们对此深表感谢!”陆剑对“人类命运共同体”理念感触尤深:“在疫情面前,我们深感加强科研攻关国际合作的重要性。我们希望和各国科学家和医务人员开展通力合作,为疫情的防治贡献智慧和力量。”

“下一步结合临床数据开展深入研究”

“关山初度路犹长”,陆剑课题组探寻新冠病毒“生物密码”的脚步仍在持续向前。“我们之前的研究是根据当时103个新冠病毒基因组全序列进行分子演化系统分析,得出了初步的阶段性结果;下一步我们还要连点成线,并结合临床数据和流行病学结果开展深入研究。”陆剑课题组正在深入研究新冠病毒序列在世界范围内的变化趋势,并与广州医科大学、武汉大学相关团队展开合作,将进化分析与临床数据相结合,做进一步的研究。

“我们希望和病毒学家、临床大夫等更多领域的科研工作者进一步合作,结合更多的基因组数据、临床信息及实验数据来更好地了解病毒,在充分认识病毒的基础上寻求最佳的治疗方法,服务于科学的抗‘疫’政策的制定,最终战胜疫情。”陆剑说。


转载本网文章请注明出处