面向应用的长名词短语研究
汉语自动句法分析的难点问题
自动句法分析是中文信息处理领域诸多应用技术的基础,如机器翻译、人机对话系统等。但句法分析技术在处理大规模真实语料时遇到了较大的困难。按照PARSE-VAL评测体系,目前英语
句法分析的F值可达90%以上,汉语则徘徊在80%左右(李帅克等,22)。这一体系基于短行评价,若按照句子的完整结构和关行评价,则又要低很多。可以说,在今天词法分析已经能够基本达到应用要求的情况下,句法分析技术已经成为制约中文信息处理技术发展的瓶颈。
世纪90年代中后期,国内英语浅层句法分析的思想,展开了组块识别与分析研究。由于底层句法歧义在很大程度上影响了句法分析的效果,浅层句法分析主张从识别句子中某些简单的组块开始,在充分化解底层歧义的基础上,逐步完成句法分析的任务。它把一个句子的完整分析过程划分为三个部分,即组块识别、组块间依存关系的识别以及组块内部的结构分析,并着力于组块的识别和内部结构分析。浅层句法分析的思想是句法分析技术步,适合用于分析缺乏形态变化、底层歧义较多的汉语句子,成为汉语句法分析技术的重要发展趋势。
国际上,浅层句法分析任务经历了单一短语的识别、覆盖较广的组块识别、结构复杂的小句识别等发展阶段,而国内研究多集中在基本块,是简单名词短语的识别分析取得了较多的成果;较为复杂的语块能块、复杂名词短语识别也受到了一定的关注,但分析效果还一步提升的空间。
在浅层句法分析的研究过程中,名词短语引起了研究者的关注。一方面,名词短语编码了实体和概念,这些实体和概念是理解文本的基础;另一方面,名词短语承担着句子中的论元角色,也是语义关系分析的基础。
自然语言处理研究者对名词短行了新的分类,提出两种具有较高处理价值的名词短语,一种是基本名词短语,一种是长名词短语。相比较而言,长名词短语的内部结构复杂多样,既有较为简单的名词短语,含类似英语定语从句的范畴,识别和分析的难度更大。
显然,结构复杂的长名词短语识别需要语言学知识的支持。然而,在本体语言学研究中,语法研究的是动词,名词重在语义研究。因此,汉语动词短语的句法研究取得了丰硕的成果,名词短语的相关研究却相对较少,主要集中在静态结构的描写以及定语语序等理论研究方面,而动态结构构造规律和分布状况还没有得到充分描写。譬如,“的”是汉语中出现频率高的词,也是语法研究的热点问题。几乎所有的词类和句法结构都能入含“的”名词短语,这些结构是如何嵌套的,主体模式是什么,分布比例如何,本体语言学很少从这一角度展开描写,但是其是名词短语识别的重要参考数据。