综合型语言知识库

本项目获2011年度中国国家科学技术进步奖二等奖。

该项目完成单位:北京大学计算语言学研究所。主要完成人:俞士汶、穗志方、常宝宝、刘 扬、段慧明、朱学锋、孙 斌、吴云芳、李素建、陆俭明

综合型语言知识库(简称CLKB)属于文理结合的"中国语言文字信息处理"学科。语言信息处理旨在让机器理解和运用人类语言。我国语言信息处理的上规模研究始于20世纪80年代中期,当时国内外汉语语言基础资源几乎是空白。与英语、日语不同,汉语缺乏形式标记,汉语语言知识库的建设尤显迫切和艰巨。基于对母语知识与文化的认知优势,项目组从1986年开始研究汉语计算模型和语言知识形式化描述方法,并构建语言知识库。历时20余年,建成综合型语言知识库,有力地支持了中文信息处理的原创性科学研究和应用技术开发。

CLKB包括6个语言知识库、10项规范与标准、4个核心基础软件和4个应用系统,它们相互支撑,形成一个紧密联系的有机整体。

语言知识库是CLKB的主体,包括:

现代汉语语法信息词典,含8万词的360万项语法属性描述;

汉语短语结构规则库,含600多条语法规则;

现代汉语多级加工语料库,实现词语切分并标注词类的基本标注语料库1.5亿字,其中精加工的有5200万字,标注义项的有2800万字;

多语言概念词典,含10万个以同义词集表示的概念;

平行语料库,含对译的英汉句对100万;

多领域术语库,有35万中英对照术语。

CLKB的系列化语言知识库涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。综合而言,CLKB是当今世界规模最大且获得广泛认可的汉语语言知识资源,具有完全的自主知识产权。

CLKB于2007年通过教育部组织的技术鉴定。鉴定意见对CLKB的评价是:"其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平"。

CLKB已产生巨大的学术影响、社会效益与可观的经济效益。规范和论著被广泛引用,两篇全国优秀博士学位论文在这里产生。免费用户数以万计。此外,CLKB的签约用户遍布美、日、德、法、俄、英、韩、瑞典、新加坡和中国大陆、台湾、香港,包括从事相关研究的著名企业、大学和研究所。自1996年开始应用至今16年来,CLKB作为语言信息处理技术与产业的基础设施,为机器翻译、智能搜索、语音处理、信息提取、人机会话等各方面应用提供规范化的语言知识和核心软件。CLKB也为我国少数民族语言处理、聋人手语自动翻译、汉语国际传播做出了卓有成效的贡献。CLKB生命期之长在IT领域实属罕见。

CLKB近期所获奖励有:2011年度中国国家科学技术进步奖二等奖、2010年中国电子学会电子信息科学技术奖一等奖、2008年度北京技术市场金桥奖项目二等奖、2007年度教育部科技进步奖一等奖、2007年中国科协第四届期刊优秀论文奖等。

编辑:拉丁

转载本网文章请注明出处