我和我的祖国 | 俞士汶:助力汉语走入信息时代

编者按:百余年来,北京大学始终与国家和民族同呼吸、共命运。特别是北大的广大离退休老同志在劈波斩浪中开拓前进,在披荆斩棘中开辟天地,他们的功业载入史册,他们的精神历久弥新。这里是北大一批老同志的回忆文章。他们的回忆,从不同的侧面,勾画出北京大学的发展历程,记述了许多鲜为人知的故事,是了解北大历史,乃至中国高等教育史的珍贵史料,也为我们理解北大传统、传承北大精神提供了一本生动的教科书。这是一封穿越时空的来信,更是一份矢志报国、不懈奋斗的青春宣言。

个人简介:俞士汶,1938年12月出生,安徽宣城人,北京大学信息科学技术学院教授。1957年考入北京大学物理系,1958年转入数学力学系,1964年毕业后留校。主要从事计算语言学研究,作为第一完成人的主要研究成果有以《现代汉语语法信息词典》为基础的综合型语言知识库。

俞士汶

当“家是最小国,国是千万家”的歌声唱响时,我想到的是北京大学也是一个大家庭。我在这个大家庭中生活了六十多年,亲身见证了北大的各种变化。1957年刚入学时,我住在十三斋,位于当今理科楼一带,是一座两层的旧楼,冬天要靠工人在户外烧嵌在墙壁里的煤炉取暖。2017年9月,我陪当年同住十三斋的校友到学生宿舍区转了转,眼前新的宿舍楼让我们感慨万千。北大的发展波澜壮阔、绚丽多彩。作为一名北大人,可说可记的感受实在太多了。

在大树的支撑下成长

我们这代人,一生难得有几回自主的选择。1957年报考北大是我人生中最重要的选择。在北大读了一两年后,我与中学同学交流学习心得时发现,读理科与读工科不同。在工科统称高等数学的课程,在北大分为数学分析、线性代数,表面上只是深浅不同,其实对人潜质的影响和能力的培养大不一样,抽象、严谨的课程训练增强了我探求事物本质及其内在规律的惯性,懂得欣赏数学的形式美,追求逻辑思维的严密,认识到主观的已知同客观的未知相比,永远是微不足道的,也对科学存有敬畏之心。做学问需要想象力,更需要实事求是的精神,来不得半点虚假。我在北大早期受到的熏陶,对于日后科研实践风格的形成产生了潜移默化的影响。我始终感谢北京大学为我提供的雨露阳光。

我在北大学的专业是计算数学,即可以在电子数字计算机上应用的离散化的数值方法。那时有计算数学这个专业的高校不止北大一所,但是在读书期间有条件使用电子计算机的学校却是少之又少。1963年我读大学五年级,上程序设计实习课时,我们可以到中国科学院计算技术研究所使用被称为103机的电子计算机,那时的说法叫“上机”。103机每秒可执行2000次定点运算(机内用二进制表示的数值只能在-1与+1之间),用穿孔纸带输入程序和数据,只允许少许的计算结果在很窄的纸上打印出来。记得当时我用机器指令编了一个自动取比例因子(使计算过程中的所有数据自动保持在-1与+1之间)的求解常微分方程的程序,一次便通过了,程序没有错误,计算结果正确,辅导教员和我都十分高兴。

作为计算数学专业的毕业生,能够留在北大工作是非常幸运的,有机会参与重要的科研任务。1958年,北大自主研制每秒一万次定点运算的电子管计算机,称之为“红旗机”。受元器件品质和工艺水平的限制,机器极不稳定。1964年毕业留校后,我和同事们编制了验证“红旗机”各条指令功能的检查程序,昼夜轮班,抓住机器稳定的短暂时段,运行检查程序,终于多次完整通过,证明了“红旗机”指令系统的逻辑正确性。这在当时是一个很大的成绩,得到时任副校长周培源的表扬和鼓励。1970—1973年,我参加了全国第一台百万次集成电路计算机多道程序操作系统的研制。1973—1978年,我从事6912计算机及其高级程序设计语言的维护推广工作,编写了两本讲义,铅印发行了2000册。1978—1985年,我参加计算机-激光汉字照排系统分时操作系统的研制。通过总结这些系统软件的研制和维护经验,同时发挥长期积累的理论优势,我作为第二作者,与杨芙清院士合著了《操作系统结构分析》(北京大学出版社1986年出版)。

1986年选择计算语言学作为新的研究方向,是我事业的一个转折点。同年,北京大学计算语言学研究所成立,我是最早的成员之一。计算语言所在北大只是一个很小的单位,不过却算得上是一处学术景观,其特点是大跨度的学科交叉融合。以文科学科“计算语言学”命名的研究所设置在理科的信息科学技术学院和计算机科学技术系内。如果要解释一下计算语言学,那就是它相当于人工智能领域的自然语言处理,大家就都知道了,机器翻译就是一例。可是30多年前,计算语言学在中国还是一个相对生僻的技术术语。那时个人计算机正在普及,社会信息化浪潮涌动,中文信息处理开始了上规模的研究。时任北大副校长、著名语言学家朱德熙先生等几位北大学者一方面认识到语言学和信息技术的结合一定能为社会急需的中文信息处理技术发展作出贡献,另一方面又看到北大文理结合的天然优势。有了这一新机遇,北大初创了计算语言学研究所。

研究所成立后,我们以发展计算语言学的基础研究和应用基础研究作为自己的使命,并思考如何赶上国际前沿。我们将建设汉语信息处理基础设施作为工作重心,优先研制包含汉语词汇、句法、语义知识的机器词典。之所以做出这样的决策,是因为我们认识到,模型可以借鉴,算法可以学习,系统构建经验可以吸取,唯有自然语言处理系统不可或缺的中文语言知识库是不可能假手于人的。况且汉语的根在中国,我们有着建设中文语言知识库得天独厚的优势。起步阶段的困难也是不少的,信息技术研究需要一定的物质条件。那时我们白手起家,几乎一切都是从零开始。我和一位同事挤在一间原是盥洗室的房间里办公,面积只有两平方米。最初用的两台个人计算机是从朋友那里借来的。为了支持基础研究,我们积极申请各类科研项目,包括应用软件的研发。在国家“七五”计划期间(1986—1990),朱德熙领衔承担了国家社会科学重点科研项目“现代汉语词类”,这一归属于中国语言文学系。得益于杨芙清的推荐和支持,我第一次承担了国家科技攻关项目,归属于计算语言所,其中有一个子项目是“现代汉语词语语法信息库”。我们响应朱德熙的倡议,将这两个项目结合到一起,计算语言所和中文系组成联合课题组,协同攻关。朱德熙身体力行,亲自填写包含词语各种语法信息的工作单,按时交稿,即使后来去了美国,也同课题组保持密切联系。朱德熙带领我们联合攻关取得的成果就是后来发展并定名为《现代汉语语法信息词典》的雏形。

俞士汶获国家科技进步二等奖

经过20多年的努力和积累,自2007年至2016年,以《现代汉语语法信息词典》为基础的“综合型语言知识库”获得政府部门、全国性学术团体和北京大学共计10项奖励,其中以2011年获得中国国家科学技术进步奖二等奖为最高荣誉。还有一项也值得一提,即我本人于2011年获得中国中文信息学会成立30周年首次颁发的终身成就奖。这个奖项不要求获奖人提交任何申报材料。

在颁奖大会上,我只说了两句发自肺腑的感言:“感谢小集体——北大计算语言所同人的共同努力,感谢大集体——中文信息处理学界先进的鼎力支持。”获得这么多奖励,我们当然高兴,局外人很可能会认为这是我和项目组孜孜以求的,其实并非如此。2007年我年届古稀,两年前就已退休,年龄和精力都让我不再参与竞争。我对自己做的工作从不敢过高估计。同事们大概也受我影响,主观上都没想到要报奖。是当时担任信息科学技术学院院长的梅宏院士了解了我们的工作,并准确地评估了这项成果的价值,鼓励我们,更确切地说是督促我们报奖,我们这才被动员起来。在报奖的全过程中,梅宏在每个环节都对我们进行了面对面的指导,信息学院和科技开发部的很多老师也给予了我们帮助。

我实实在在地感受到,在我们小小的成功背后,确实有一棵大树在支撑着。

支流也有好风景

除了1957年报考北大外,1986年研究方向转向计算语言学是我的另一个自主选择。从所学专业和工作经历看,我在计算机系统软件领域具有一定的基础和优势,那为什么会在1986年毅然决然改变研究方向,定位到计算语言学呢?这当然离不开大环境。当时社会信息化的重大需求正催生中文信息处理技术,我身处学术高地北大,是有利的客观因素。

不过,主观因素才是决定性的。自己既然在北大,自然就注意了解重大科学问题、学科发展方向以及国家战略需求,也期待能为国家和社会做一点事情。另外,我对语言问题历来有一种朦胧的喜爱与探索。我们平时使用自然语言(母语汉语及外语)同人打交道,但我一直在系统软件领域工作,实际上就是使用被称为指令系统的机器语言同机器打交道。忙忙碌碌中偶有遐想:人如果能用自然语言同机器打交道,在科学技术上一定是个飞跃。如今,这个想法已经毫不稀奇,智能机器人已经部分实现了这一功能。但在当时,这个想法还是超前的。我倒也不是纯粹的胡思乱想,那时使用高级程序设计语言编制计算程序,已经向着自然语言方向迈出了小小的第一步。审视自己,除了兴趣和喜好,也觉得自己有从事计算语言学研究的基础。大学选读理科,缘于中小学喜欢数理学科(爱做算术应用题、几何证明题等),逻辑思维能力得到锻炼是理所当然的;很幸运,高中时还遇上了一位优秀的语文老师,讲课十分生动,引导我们欣赏古诗、分析文句,培养了我的形象思维能力和写作能力。正是所接受的良好的基础教育让我敢于选择文理结合的计算语言学研究方向。我还喜欢学习外语,我们学外语是以语法为纲的,这与机器学自然语言的规则方法颇有相似之处。学习外语的经验对我理解自然语言处理的数学模型与实现方法有启示作用。

我的选择也有偶然因素。1974年,我无意读到一篇介绍数理语言学的文章(作者是冯志伟)。文中认为数学方法可以用于语言学研究,这对我是个启发。1979年,我在繁忙之际挤时间听了一位美国专家在清华大学举办的“自然语言处理”系列讲座,历时半个学期。这些偶然事件对我在1986年选择计算语言学作为长期的研究方向,也起了助推作用。

选定研究方向后,就是努力奋斗。信息科学技术犹如一条奔腾的长河,计算语言学不过是一条小溪。在计算机学科体系内,与计算语言学对应的是属于人工智能的分支学科——自然语言处理。当下,人工智能已成为国家发展战略、国际科技竞争的前沿阵地,自然语言处理被誉为人工智能王冠上的明珠,受到广泛青睐。不过,在之前相当长的时期内,自然语言处理都没能融入主流。我招的最后一名硕士生,名字叫支流。我以带点儿玩笑的口吻说:“我是从非主流开始,到支流结束。”

计算语言学和自然语言处理研究的是让计算机模拟人的语言机制,自动地处理自然语言所承载的信息,既有语言模型、分析与生成算法等理论研究,也有实用研究,例如机器翻译、信息检索、人机会话等。计算语言学与自然语言处理的最高境界是自然语言理解,即让计算机具备人类理解和运用自然语言的能力。自然语言处理(机器翻译)是数字计算机在非数值领域应用的最早尝试,几乎与计算机同步走过了70余年。然而,无论是同计算机技术本身相比较,还是同计算机在各行各业的应用(包括属于人工智能的语音处理、图像处理等)相比较,自然语言理解的进步都是相当缓慢的,可以说至今尚未取得突破性进展。在这种情况下计算语言学的发展受到制约也是可以理解的。然而凡是主流,人才必然集中,竞争必然激烈。特别是在发展迅速的信息科技领域,选择研究方向时,不能追逐已经热起来的潮流,要有另辟蹊径、冒一定风险的勇气,要预见到其发展空间,还要结合自己的实际情况,发挥自己的优势。

30年前,国内已有一批学者开始从事语言信息处理研究,中国中文信息学会下属的二级学会计算语言学专业委员会于1986年成立就是一个标志。不过,大多数学者都是把研究重点放在应用系统的开发上,这是语言信息处理研究中的主流。而我却把主要精力放在通用型语言知识库的建设上,再次偏到支流的支流。之所以这样做,是因为我认识到,既然语言信息处理的最高境界是自然语言理解,要实现不同程度的理解,就要为计算机装备不同规模、不同深度的知识库。我较早地认识到通用型语言知识库对这一领域的重要性,1986年开始做电子词典,1995年规划了综合型语言知识库,坚持了30余年。先词汇,再句法、语义,进而概念;先做格式化、含显性知识的词典,再做含隐性知识的非结构化的文本语料库;先从语言知识库入手,再到常识和领域知识库——规模逐步扩大,门类逐步齐全,质量逐步提高,取得了一定的成绩。

我们所建的知识库都是面向应用研究的,不曾脱离应用系统的开发。有几个应用系统也曾辉煌过,例如,“七五”期间我们曾开发了“以词语为基础、以语句为变换单位的中文输入软件”“基于测试点的机器翻译译文质量自动评估软件”,其技术在当时都处于先进水平。我们正是在应用系统的开发中,认识到通用型知识库在自然语言处理技术发展中所具有的全局重要性,从而把研究重点放在了应用系统所需要的共同的基础上。

正好与成语“十年磨一剑”相映衬,从1986年到1996年,《现代汉语语法信息词典》默默地做了10年。从1996年开始,《现代汉语语法信息词典》及其衍生成果得到业界关注,除自由下载部分成果外,要求转让许可使用权的用户纷至沓来,一直到2018年,连续23年都有签约者,从未间断。在信息技术领域,一项成果有如此长的生命期,确实罕见,也是我们所始料不及的。我认为主流固然有其澎湃、繁华之气势,支流却也有其宁静、恬美之魅力。当支流汇入主流,为中文信息处理技术的长河奉献一朵浪花,我自然也感到欣慰。

在这里,我要说的第二个感受就是支流也有好风景。

取长补短,集思广益

我的第三个感受是科学研究需要取长补短、集思广益。计算语言学是文理交叉学科,需要理科学者和文科学者进行深入交流。不同领域的专家在一起交流,产生有价值的新想法是常有的事,但要将思想变成物化的成果,则需要有一定数量的专家深入了解并掌握自己原来不懂的学科知识、观点、方法,从而形成新的知识生长点。不同的学科总有些不对称的情况。一般地说,年轻的语言学家,有比较多的人愿意掌握计算机技术,转向计算语言学。而对于原本属于计算机学科的人来说,偏离信息技术的主流,从头学相对冷清的语言学,则更难下决心。我努力地这样做了,总算有些收获。不过,我一向认为,自己做的工作只不过是把语言学家长期发现和积累的语言学知识改造成计算机可以使用的形式而已,不敢放大自己的成绩。还有,在各种有需要的场合,我总是尽可能用深入浅出的方式向文科学者介绍计算机处理自然语言的目标、原理和方法,这也是出于我对语言学和中国语言学家的尊重。

在学科内部,也存在不同理论与方法的论争。在计算语言学中,也长期存在基于规则和基于统计这两种方法论的论争。近几年来,基于神经网络的深度学习方法更是独领风骚。不过,我始终认为,不同方法各有所长,应当互补地用其所长。正因为长期坚持文理结合,长期坚持规则方法与统计方法并重,长期坚持专家知识与计算技术相结合,我们才最终取得了《现代汉语语法信息词典》、多层次加工语料库、现代汉语句法结构知识库等一系列知识密集型成果,并产生了社会效益和经济效益。

2006年,计算语言学研究所成立20周年,我写了一副对联作为纪念:“规则与统计共舞,语言随计算齐飞。”计算语言学研究所是我长期所在的集体,起初只是一个四五个人的小型课题组,发展到今天,集合了一大批拥有博士学位的计算语言学精英,成为国内外颇负盛名的计算语言学研究重镇。内部团结与对外合作是长期稳步前进的两个车轮。退休前,我虽然是学术带头人,但并不要求我的学生和同事们一定要按照我的想法去做,而是把他们都看成合作伙伴。因为我了解,自己在各个方面并不比我的同事和学生更强。只因有共同的兴趣和选题,大家才集合到一起。我只是坚持按时完成承担的项目,并保证质量,强调计划和规范的重要性。我鼓励创新,从不抑制选择的自由。

在师生的共同努力下,我们创造了这样一种学术环境:不论你来自理科还是文科,也不论你擅长抽象思维还是工程实现,也不论你相信理性的思考还是热衷经验的升华,都可以在一起切磋、交流,这里洋溢着求知欲与探索精神,崇尚实事求是。也正是这样的环境,造就了一批文理知识结构兼优的新型人才,这是我们能够取得成功的根本原因。对外,我们在与不同地位、不同水平的单位和个人打交道时,既不妄自菲薄,也不妄自尊大,坚持互利合作,讲究诚信。良好的声誉也是北大计算语言所自立于成功之林的要素之一。我们在注意保护属于北大的知识产权的同时,总是尽可能多地开放可以实际应用的成果。例如,《现代汉语语法信息词典》于1995年年底刚通过鉴定,1996年年初便全文发表了规格说明书。2002年发表的《北京大学现代汉语语料库基本加工规范》还于2007年获得第四届中国科协期刊优秀学术论文奖。

行百里者半九十

我要说的最后一个感受是,行百里者半九十。在自然语言处理领域,很多人并非没有认识到知识库的重要性,也很了解知识库建设是艰苦、细致、长期的工作。在人与机器的互动中,我们先迈出了第一步,抢占了先机。在获得初步成功后,我们不敢懈怠,始终以“行百里者半九十”的古训告诫自己,因而能在较长时期内保持优势地位。

我们在研究工作中应用“求同辨异”的方法。“求同”以发现语言的普遍性,“辨异”以发现语言的特殊性,主要的精力要花在“辨异”上。《现代汉语语法信息词典》的设计思想,就是在将现代汉语中数以万计的词语大致归类(“求同”)的基础上,分类描述每个词语的语法属性(“辨异”),从而使数以百万计的庞大的语法信息有条不紊地呈现在用户(计算机和人)面前,而且保障了语言知识库的可扩展性。我们也将“求同辨异”的方法贯彻于研究工作的全过程,“求同”以得到阶段性成果,“辨异”以发现不足,继续开拓课题、深化研究内容。

科学研究不宜急功近利。在漫长的岁月里,特别是在还没见到效益的前10年间,我们也感到有压力。好在课题组的主要骨干清醒地认识到,没有一定的积累,是不可能取得站得住脚的成果的。我们相信“付一分辛劳,会有一分收获”。“收获”不仅仅指取得的效益,在创造过程中所品味的甘苦,更是激励创造者的重要力量源泉。

近年来,外单位请我去讲课,常常要求我讲一点治学经验。但我总是说,我的历程、我的经验,仅供参考,并不具有普遍意义。还是回到第一个感受,北大的环境十分重要。我在北大可以做而且做成了的事情,换个环境,不一定能做,也不一定会成功。

在综合型语言知识库获奖时,我的一位老朋友祝贺我:“你画上了一个圆满的句号。”不过,我倒希望它只是一个逗号。我希望我的人生一直是逗号,承上启下,最后是个省略号。退休之后,我也没有偷闲,仍主持或参加国家级重要科研项目(如“973项目”),现在是国家自然科学基金项目“汉语抽象意义表示关键技术研究”的项目组成员。自2005年1月到2018年12月的14年间,我正式发表了35篇学术论文,共计38万余字,都是自己在键盘上敲出来的。我将自己现在所做的一些事情比作拾麦穗,虽然没有重要的创新,过程与收获却延缓了自己的心理衰老。当然,总有一天,我不能再继续自己所喜爱的研究,一定还有来不及完成的工作……

我寄希望于同行的伙伴,寄希望于年轻的一代,祝愿你们到达更光辉的顶峰。

微信图片_20210309092429.jpg

转载本网文章请注明出处