院士访谈 | 陈松蹊:手持“万能钥匙”的统计学家

新冠疫情暴发之初,

科学预测疫情“拐点”。

连续八年关注大气污染,

从百万条数据中解读蓝天“密码”。

他是北大教授陈松蹊,

今年新晋中国科学院院士。

作为数学家的他,

经常到不同学科串门,

而统计学正是他手中的“万能钥匙”。

一场跨时区的昼夜接力

2020年1月23日,新冠疫情突发,武汉封城,各地的人们都为疫情走向和防控忧心。

得知疫情消息时,陈松蹊正在美国进行学术交流。他立即意识到这将是一件对社会影响极大的事,也许可以用自己的研究做点什么。陈松蹊决定带领自己的团队跟进疫情形势,运用统计学理论对疫情数据进行建模评估,进行传染形势预测与防控策略研究。于是,他和他的团队开启了一场跨越时区的昼夜接力。

“应该是大年初一那天,老师建了一个群,把我们都拉进去收集疫情相关的数据,大家协同工作。”统计科学中心博士生顾嘉同学回忆。面对紧迫的疫情形势,团队每天早晚两次数据汇总,随时进行线上会议,不分日夜地反馈模型进度……这场线上协作跨越12个时区,陈松蹊淡淡笑着说:“不同时区的优势来了,我们接力工作,省下了大量的时间。”

在飞机上,陈松蹊也在伏案推演,昏暗的机舱里面只有他的一角亮着小灯。之前并没有做传染病相关模型的经验,那就边做边学呗。陈松蹊依旧是一副遇到问题迎难而上的姿态。

陈松蹊在回京的行程中仍在投入研究

短短一周,他们便在一个新的领域里有了研究成果。2020年2月3日,陈松蹊带领团队着手编写疫情分析简报,之后几乎以每天一份的频率更新疫情分析日报。

“我的团队早在2月初就发现传染力在湖北及各省市急速下降”,陈松蹊团队根据数据模型计算发现,尽管2月初每日新增病例仍在增加,但国内疫情总体情况在持续改善。事实证明,2月底国内疫情基本得到控制,数据模型的预测是准确的。

6f7096697a634d71ac21d94d513366ee.jpg

团队于2020年2月4号发布的疫情分析简报

这样紧密的工作节奏其实是陈松蹊多年来的常态。除了上课时间,他每天在办公室从早上八点半泡到晚六点,跟进数据、阅读文献、备课、答疑;晚饭后,再回来工作至十点。这已经成为他最享受的生活模式。

“差不多是学术即生活的‘007’工作制”,顾嘉同学笑称,“如果陈老师不在一个工作场合,总能在另一个工作场合找到他。”

新冠成为全球流行的大疾病,而各国的应对政策并不统一。陈松蹊又将目光转移到了研究各国的措施与新冠肺炎传播控制效果之间的关系上。

扎实的数据模型证明:严格的人群限制性措施对控制疫情传播有显著成效,政府迅速地采取有力的应对措施可以显著缩短疫情到达拐点的时间,并有效减少感染和死亡人数。

2020年10月和2021年4月,陈松蹊团队分别在国家科学评论National Science Review和英国皇家学会会刊Proceedings of the Royal Society A上发表了关于25国新型冠状病毒肺炎疫情防控效果分析的研究论文。这为中国在新冠疫情防控上的国际话语权提供了客观、坚实有力的依据。

各国新冠疫情应对政策影响研究

谈到对这些研究课题的选择时,陈松蹊的第一反应是:You have to do it。出于社会责任感,也出于学者的本心,陈松蹊从不停留在舒适区,而是会选择内心深处认为真正重要的问题,凭借着学术直觉与热情信念,全身心地投入到新理论与新领域的开拓中去。

“在开启一个新的方向时,总有着想象不到的困难,但陈老师总是凭借着他的研究激情、克服问题的信念,全身心的投入以及天赋去解决一个接着一个的问题。”组里的博士生闫晗谈及导师时十分钦佩,“这种精神深深感染着我们。”

“人努力 - 天帮忙”

人类面临越来越多的不确定性和挑战,幸而我们总能以专业的能力和认真的态度去改善环境,改善所呼吸的空气。而改善这个世界离不开我们所有人共同的努力。

——在陈松蹊团队的空气质量报告里,写着这份愿景。为着这份呼唤蓝天的愿景,他们行动了八年。


团队的八份空气质量报告

2013年7月,陈松蹊计划邀请美国斯坦福大学一位著名的统计学者来北大统计科学中心访问、讲学,这位学者对访学北大非常感兴趣,但后来没有回复来华邀请。在陈松蹊的询问下,对方发来了统计实时空气质量指数的网站链接,言外之意是担心北京雾霾可能带来健康上的隐患,遂决定不来了。老北京陈松蹊不干了——“就像以前北京队踢球儿输了,这怎么行。”

之后查阅这一网站的数据成为了陈松蹊的“每日打卡”。2014年3月,北京大学统计科学中心的八位老师同学开始收集和分析北京的PM2.5数据,希望通过统计学的分析判断,为防治空气污染、维护生态环境提供依据与建议。

面对全新的方向和浩如烟海般的数据,科研进程宛如征战。为了环境研究的项目,陈松蹊多次带着学生寻找数据,与环境科学工作人员座谈,向他们细致地讲解研究内容。团队爆发出惊人的凝聚力和生产力,从大数据和非参数统计学方法入手,不断发现新问题,学习新的技术手段。

两年多以后,他们成为了国家重点研发大气项目中唯一一支统计学团队,在大气污染评估、时空模型、大气污染的模式、数据质量、经济与环境的关系等各方面都取得了一系列丰硕成果。团队做大数据统计与落地的能力也随之锻炼出来。

大气污染的治理实际上是对污染排放的管理,正是统计学的研究告诉了我们观测数据背后排放物污染的规律,让数据开口“说话”。陈松蹊团队构建了科学度量大气污染的统计方法,提出有效评估城市污染治理需要分离人为减排效果和天气干扰的影响。尽管计算指数的过程是精密繁杂的,他们给这一指数起的名字却相当形象、易懂:“人努力-天帮忙”指数。

北大空气质量报告截图:2+66城市,2018年春季“人努力-天帮忙”地图

从关注北京的几个站点、到京津冀地区,再到3+95城市,陈松蹊带领团队发布了八份空气质量报告,也提出了多项具体的防治政策建议。每份研究报告的形成都是反复推进迭代的过程,陈松蹊总能从同学们的报告中敏锐地发现一些待修改的细节和可持续挖掘的数据,他每次都会把报告打印出来手批指导意见,一份成稿的背后可能是几十次的修改。

大气污染的研究仍在继续。目前,他与团队又关注到“碳达峰与碳中和”问题,致力于构建出测算碳排放与碳吸收更加准确的算法。重大的民生问题与社会发展问题,似乎已经成为他关注世界的重要落点。

到其他学科“串门”

海洋渔业、人口普查、金融经济……这些看起来并无相通之处的领域,陈松蹊也常有涉及。因为,他的手中拿着一把到其他学科“串门”的“万能钥匙”——统计学。

像在进行着一场场探秘,去看世界纷繁现象之下的沉睡的事实,而这把有力的钥匙,便是统计分析。采集、分析、计算、解读、应用,哪里有数据,哪里就有统计学。

在新西兰深造时,陈松蹊的导师曾用“foolhardy”一词评价他,这反映了他敢于解决问题的闯劲和追逐真知的好奇心。

在陈松蹊眼中,学者的最高境界是根据问题发展出新的理论,而后转回到实际应用,认知与探索世界的最终落点是围绕国家需要、社会福祉进行科研创新。一切统计学的研究,都需要数学理论与计算方法上的支撑。这更接近于人们想象中高深艰涩的数学理论。陈松蹊在超高维假设检验方法和非参数经验似然方法等理论方面取得的丰硕成果,推动了统计学的几个关键性发展。

“超高维大数据统计分析”,这个炫酷的名字背后,解决的是人类认知进入大数据时代后统计学的理论方法问题。以往,数据维度较少,假如研究药效在几十个样本患者身上的表现,这其中的变量只有性别、体重、年龄、病因、病况、药效等非常有限的几个。而随着人类认知世界变得更为广阔丰富,数据的维度大为增加。以生物学为例,本世纪初人类基因组计划取得突破进展后,成千上万的基因序列数据使得数据维度远远大于样本量,许多传统的统计算法失效,更新统计理论和方法就成为迫切需要。

陈松蹊提出了一些在小样本-超高维数据统计时能有效控制发生两类错误的概率的统计检验方法,这一研究也在2017年获得教育部自然科学一等奖。超高维数据的统计方法可以研究更复杂的影响因子情况,比如究竟是哪个基因影响某人的某种疾病。

北大空气质量报告截图:“3+95”城市2020年PM2.5秋冬和8小时臭氧春夏平均浓度散点分布图

有了理论方法,便可以追着“问题”应用,时不时“到其他学科里串串门”。对他们而言,研究新方向时要先学习了解新领域的新知识,是常有的事情。

“有什么不懂的,我可以向北大各个方向、专业的老师们请教,问问他们,也许未来还可以合作做研究。”

陈松蹊称赞北大完备的学科实力优势能够为交叉科学研究提供更多的发展空间。

问题导向的研究,引向了知识交流、学科交叉、专业合作。陈松蹊本人在北大数学科学学院、光华管理学院、北大统计科学中心、大数据国家工程实验室等机构身兼数职,这本身就在打破壁垒。

“我们”:学术感召力

“回到北京,一方面是为国家社会需求作贡献,另一方面也想对北大统计、经济计量学科的发展和学生的科研培养起一些积极的作用。”

陈松蹊曾先后在澳大利亚、新加坡、美国等国高校任职,2008年,他选择到北大任教。2010年,陈松蹊与北大的老师们一起创立了统计科学中心,并出任首届联席主任。

2018年第五份空气质量报告媒体发布会后合影

在这里,一支统计学团队源源不断地壮大。十余位优秀的统计与经济计量学者先后加盟,初有兴趣的学生们向着科学运用数据统计的目标成长。

十三年时光流逝,陈松蹊与北大同学们的联结也越来越紧密。在他眼中,这里的年轻人聪明勤奋、能人辈出,这也使他愈发严格要求自己的教学工作,

“这么好的学生到这儿来了,你能把他培养成什么样子?别把人给耽误了。”

而在学生眼里,陈松蹊勤勉的治学和纯粹的热爱常令他们看到理想学者的模样。“要有内生的动力参与到研究中,陈老师引导本科同学时就特别注重这一点。”组里博士生童培峰回忆起他大三时跟随陈松蹊接触科研的情形。

每当有新课题时,陈松蹊通常会让学生们自由探索一段时间,再提出可能存在的问题与改进方向。当学生的研究取得突破时,他全力支持,抓住各种机会推荐学生和优秀的学术前辈交流,经常用自己的科研经费支持学生参加国内外学术会议、出国访问学习,一步步地带领学生走入学术的大门,也一同体会科研的困难与成功。

“有时候陈老师会提出一个idea,看起来天马行空,我们真正着手去做一下就发现它是合理的,能够落下来。”硕士生孙浩轩觉得这种将数学理论与方法应用到实际问题中的过程带给他无穷的吸引。

“亲力亲为”“亦师亦友”,这是学生们谈起导师时最常出现的两个词。学生们每一篇报告、论文,陈松蹊都会亲自上手修改。团队例行的组会上,大家同步进展,自由分享想法,他认真地听取并给出意见,也乐于与学生分享自己求学时的科研经历与英语写作的过程,提供学术研究与求职的帮助和建议。

陈松蹊与团队一同秋游

在与学生的日常交往中你能见到这位热情的学者的另一面:细致、周到。在发现学生的心理波动时,及时、恰当地开导;当得知有些同学的电脑不能支持繁重的计算任务时,陈松蹊立刻给组里的博士生配备了工作站;出差归来,他总会为学生们带一些当地特产;在重要的传统节日,他邀请在异乡读书的同学们去家里做客聚餐;闲暇时,陈松蹊也会组织团队里的学生一起爬山,颇爱户外运动的他还会策划几条非常规的路线。

牵引、随行、凝聚,这是一个以“我们”为主体的活力团队。无论学术或生活,陈松蹊自身的信念与行动总能散发出一种强大的感召力。你仍能看到陈松蹊在阐述科研问题时眼神里所透露出的那种美好的愿景,这将驱动着他和团队里的青年们,一同用统计学这把钥匙,更久远也更深切地在科研世界的各个领域探秘。

转载本网文章请注明出处