聚焦两会|陈松蹊:建议加强数据分析人才培养力度

数据是国家或企业的战略资源,只有掌握了数据,并通过分析让数据说话,数据才能真正产生价值。但目前,我国数据分析人才缺口非常大。

数据分析人才缺失是什么原因造成的?如何加大培养力度?针对这些问题,新京报记者在全国两会前夕专访了全国政协委员、中国科学院院士、北京大学讲席教授陈松蹊。

全国政协委员、中国科学院院士、北京大学讲席教授陈松蹊。受访者供图

谈统计学人才培养

建议将统计学纳入基础学科,在学科建设方面给予政策倾斜

新京报:去年全国两会上,你提出“加强统计学基础研究人才培养”的建议。今年,你带来的《关于“加强数据分析人才培养力度”的提案》也和统计学人才相关。统计学为何重要?可以应用于哪些热门领域?

陈松蹊:统计学是指导数据收集、数据分析、数据推断的学科,是整个数据科学的基础,数据分析的基础是统计学。在数据驱动的时代,无论是学术研究还是商业决策,都离不开统计学的指导。

统计学的应用领域非常广泛。目前热门的人工智能有两个基础,一个是计算机科学,一个是统计学。随着国家将数据列为第五大生产要素,数据赋能的重要性日益凸显。而要实现数据的有效赋能,就需要大量的数据分析人才。统计学正是培养数据分析人才的学科。

新京报:你今年提案的背景是什么?目前我国数据分析人才面临什么样的问题?

陈松蹊:近些年,我国在数字基础设施建设方面进行了很好的布局,拥有海量存储和强大算力。但是,数字中国建设不只是存储平台、计算平台等硬件方面的建设,更多的是软实力建设,需要把收集的数据用起来,分析出门道,释放数据的生产力。

目前,我国数据分析人才缺口非常大。据人力资源和社会保障部估计,预计“十四五”期间需求总量将达到2000万人左右。与此形成巨大反差的,是我国数据分析人才培养能力严重不足。

这主要体现在四个方面:首先,统计学在数据分析人才培养中的主力军作用未得到充分发挥。在全国120多个一级学科中,统计学是仅有的把数据作为唯一研究对象的学科,是数据分析人才培养的核心主干学科。但受到学位点数量和招生名额的限制,我国统计学硕士及博士研究生的培养规模还十分有限,不能满足各行各业的需求。

同时,统计学未被列入基础学科,这不利于吸引优秀高中生选择统计学专业,不利于国家的人工智能核心技术的创新发展,特别是大语言模型、生成式AI等领域,也不利于培养能引领数据分析国际发展的战略科学家,不利于培养能带领企业创新发展、实现数据赋能的数据分析师。

师资严重短缺也是一大问题。为了更好地培养数据分析人才,高校需要大量的统计与数据科学师资。从近10年统计学博士生的就业市场看,业界和学界对统计学博士毕业生的需求旺盛,业界的薪酬待遇相对较高,一半以上的博士毕业生选择在业界就业,进一步加剧了高校数据分析人才培养能力不足。比如北京大学,每年统计学博士毕业生也就十几个,最终可能只有一半到各个学校从事教学工作。

此外,国家和地方统计局及调查总队、政府部门的统计专业机构、医疗卫生行业等均严重缺乏高层次专业统计分析人才,这非常不利于数字中国和数字政府建设。

新京报:你认为应该如何加大数据分析人才培养力度?

陈松蹊:我建议,将统计学纳入现有强基计划试点高校强基招生专业中,加大对统计学基础研究人才培养的支持力度;明确将统计学纳入“基础学科拔尖学生培养计划”,尽快在全国高校中遴选补充一批统计学基础学科拔尖学生培养基地,补齐统计学基础研究创新拔尖人才培养短板。

将统计学纳入国家“101计划”,集中全国优势力量,系统性建设统计学教材体系,加快形成适应数字中国建设的统计与数据科学核心课程体系,并在全国高校中逐步推广。

加大统计学一流学科建设的支持力度,增加统计学“双一流”建设学科点;在经费投入、招生名额、推免比例、教育部特聘教授和教学名师评审等方面给予统计学以其他基础学科同样的政策倾斜。

谈大气污染治理

应采用剔除气象影响的空气质量评估方法

新京报:自2014年开始,你带领北京大学环境统计团队对中国大气污染进行统计学分析,近年来的研究得出了什么样的总体结论?

陈松蹊:我们主要是使用大数据统计方法提出了去除大气监测数据中的气象因素干扰的方法,获得时间上可比较的空气质量指标和“人努力-天帮忙”指数,其可以排除气象因素的干扰,及时衡量污染排放量,评估国家的大气污染治理的效果。

根据我们对大气污染防治重点区域和周边102个地级及以上城市的长期跟踪测算,在去除气象因素影响后,2022年PM2.5均值浓度相较2013年锐减55.3%。

新京报:你是去年当选全国政协委员的“新委员”,连续两年的提案都关注了大气污染治理问题。请介绍一下提案的内容。

陈松蹊:去年,我提交了关于提高空气质量标准的提案。目前我国采用的是2012年起实行的空气质量等级,但这套标准主要是世界卫生组织空气质量准则中给出的“过渡时期”的初级标准。

在我国空气质量显著改善的基础上,这一空气质量标准已经落后。中国目前使用的以PM2.5 75微克/立方米为空气质量“良”的上界值过于宽松,远高于世界上许多国家。公众看到空气质量是良,大多不会采取防护措施,不利于敏感人群的健康防护。我建议,在部署空气质量新标准的同时,可以先将PM2.5空气质量“良”的上界水平从75微克/立方米降低到50微克/立方米。

今年,我将提交《关于采用剔除气象影响的空气质量评估方法的提案》。大气污染治理绩效评估方法的科学性和公平性,直接影响着地方政府空气污染防治的积极性和效率。

目前,国家对城市空气质量目标的考核指标是基于污染物原始观测浓度进行简单算数平均得出的,这种简单的评估方法忽略了空气质量受气象条件的显著影响。

北大环境统计团队提出了“人努力-天帮忙”指数,能科学有效地分解人为排放和气象因素对空气质量的影响。历年空气质量评估报告都明确显示,“天帮忙”(气象因素)对空气质量的影响不容忽视。

其次,发达国家已开始实施剔除气象影响的空气质量评估,但采用的方法不完全适用于排放水平有较大年际变化的中国。

在数字化时代背景下,日益积累的环境数据与统计分析技术带来了机遇,气象与空气质量的关系是环境领域的研究热点,但尚未实现从科研到政策的有效转化。在政策制定层面,我建议采用剔除气象影响的大气污染物浓度进行绩效考核和空气质量达标评价,进一步完善环境治理体系。同时,通过确保评估结果与地方污染治理绩效紧密挂钩,维护政策公平性和稳定性,推动环境治理工作取得实效。

谈共享公共数据

建议有序开放,使国内科研人员获取长时期历史数据

新京报:今年上会,你还准备了什么提案?

陈松蹊:我计划提交《关于“共享公共数据 实现科学数据自立自强”的提案》。

《数字中国建设整体布局规划》提出,要畅通数据资源大循环,构建国家数据管理体制机制,健全各级数据统筹管理机构。推动公共数据汇聚利用,建设公共卫生、科技、教育等重要领域国家数据资源库。

公共数据是指国家授权的公共管理或服务组织,收集、产生的涉及公共品并不含个人隐私的数据。公共数据具有公共性和非竞争性特征,通常包括各类地理空间、气象、大气环境、生态、流行病、经济、农业、交通、人口和社会数据等。

数据驱动的研究范式正在深刻改变科研生产力。公共数据作为重要的科技资源,是众多科技领域,如人工智能、大气环境、统计学、医疗健康和经济管理学等,在解决国家重大需求、“卡脖子”问题中所必需的研究基础。

但目前,我国科技工作者在获取公共数据上面临诸多困难。比如公共数据获取渠道不畅。近十年来,我国一些公共数据的可获取性得到了提升,一些数据的实时播报为通过网络实时下载数据提供了可能。但是网络下载无法获取历史数据,下载数据的通道并不稳定,数据格式时有变化,易造成数据缺失,研究成果的数据源容易被挑战。目前,一般科技工作者缺乏国内历史公共数据的有效获取途径,而提供公开下载的数据来源是科研发表的基本要求。

同时,由于国内公共数据获取困难,我国科学家大量使用国外的公开数据集进行科学研究。经常使用的数据集有英国生物银行基于大样本人群的遗传、生活环境和健康数据;欧洲中期天气预报中心发布的自1951年的高分辨率全球气象再分析数据;世界卫生组织发布的各国流行病数据等。过度依赖外部数据,不利于我国科学技术自立自强,且存在关键时刻数据获取中断的风险。

还有一个问题是缺乏高质量的再分析科学数据集。观测数据普遍存在空间分布不均、时间延续性差、观测种类不全等缺陷。再分析数据使用先进的统计方法,将物理模型与多源观测数据进行融合,是现有技术条件下的最优数据集。再分析数据的构造高度依赖稳定的数据源与职能机构有序公开的数据政策。目前,再分析数据是人工智能算法训练的数据基础,华为盘古气象大模型就是基于欧洲气象中心公开的再分析数据集训练成功的。

新京报:你认为应如何有序开放公共数据?哪些可以优先开放?

陈松蹊:我建议按照数据风险等级,有序开放共享公共数据。不涉及国家安全的数据,如高分辨率气象、大气环境、环保、生态、经济社会等可以优先考虑公开。对一些敏感数据,可以签署标准化协议,对数据的使用进行不同程度的规范,之后再对国内学者和企业开放。有序开放共享公共数据,能够使国内科研人员、企业及时获取长时期历史数据,提高我国大数据分析和数据赋能能力。

我还建议,集中力量打造高质量再分析数据集。组建由领域与数据科学家组成的数据融合团队,发挥我国在数据同化方面的统计学基础优势,在一些关键科学领域构建高质量的再分析数据集,解决我国科研人员的数据需求,降低对外部数据的依赖,实现科学数据自立自强。

谈统计学和交叉学科研究前景

可在气候变化、人工智能医疗诊断等方面发挥作用

新京报:你致力于统计学与大气环境的交叉研究,你如何看待统计学和其他学科交叉研究的未来前景?

陈松蹊:在数据时代,前景非常好。举例来说,当前气候变化备受关注。联合国政府间气候变化专门委员会(IPCC)报告是全球气候变化研究的权威性参考,对于世界各国应对气候变化战略起到关键作用。报告的形成就用到了统计学方法对气候变化进行归因。最近,我们发现其相关理论和方法需要完善,我们团队成员正在进行这方面的研究。近20年,统计学向高维数据、超高维数据的统计分析发展,这些最新的结果可以应用于IPCC报告。

我们正在海洋方面开展交叉研究,构造西太平洋的科学数据集,包括温度、盐度、流速等。我们还在和首都医科大学宣武医院、首都医科大学附属北京潞河医院等合作,利用人工智能统计学方法进行医疗诊断,用脑电波统计数据分析实现癫痫的自动诊断,把医生从读脑电数据的任务中解放出来。另外,在一些乡村地区,可能没有神经内科专家能解读脑电,我们的目标就是用人工智能学习最优秀的神经内科医生读脑电的技术,让边远地区的患者也能得到高水平的分析。

原文链接:两会院士说|陈松蹊:建议加强数据分析人才培养力度

386748f62f11451990ebbc27f17aff60.png

转载本网文章请注明出处