未登录词处理主要包括识别、词类标注和语义类标注等内容。目前自然语言处理学界对于未登录词识别研究较多,对于未登录词词类标注和语义类标注则研究较少。因此,本文主要专注于现代汉语未登录词词类标注和语义类标注的研究。在未登录词词类标注和语义类标注过程中主要有两类可以使用的特征,即内部特征和外部特征。所谓内部特征指未登录词的成分、成分的属性以及成分、成分属性的组合序列;所谓外部特征指未登录词在语料中的分布,通常用未登录词的上下文来表示。本文在前人研究工作的基础上,构建了大规模的生语料库,分别使用基于内部特征和外部特征的方法以及两种特征相结合的方法来自动处理未登录词词类和语义类标注的问题。
更多科学出版社服务,请扫码获取。
2000年我给北京大学中文系本科四年级学生开“理论语言学”课,邱立坤是班上最喜欢提问题和争论问题的同学之一。他也是一位痴迷语言学的年轻人,每次和同学或老师谈起语言学,眼睛就开始发亮。那时候我们经常讨论句法结构关系、语类问题和句法的初始概念问题。我一直指导他的本科学位论文、硕士学位论文和博士学位论文,句法理论的基本问题一直伴随着我们。学习期间,立坤还选修了大量计算机课程,人和机器的关系,自然语言理解的概率模型和规则模型也是我们讨论的重点。这本书是立坤在博士论文基础上扩展而成的,要解决的问题是未登录词的语类标注,包括语法的和语义的。这项工作的意义先得从单位和规则说起。
按照结构语言学的理论,先要确定词,再确定词类。词是最小的自由形式,比如“该校、该系、该所”等分别都是词。确定了词以后,再根据分布确定词类。“该校”这些词都分布在通常称为名词的环境中:
该校有问题,需要对该校进行调查
该系有问题,需要对该系进行调查
该所有问题,需要对该所进行调查
至于“该校、该系、该所”的构词语素“该、校、系、所”,尽管是最小的,但不自由,不是词,因此无法根据自由分布的理论对这些语素进行语法分类,也无法根据这些语素的分布信息来确定“该校、该系、该所”这些词的语类。概括地说,结构语言学确定“该校”的语类必须通过“该校”的分布。
目录
第1章 绪论1
1.1研究对象、背景、问题及应用价值1
1.2研究原则、方法与技术路线4
1.3本书的组织结构6
第2章 方法论8
2.1语言本体方面的相关研究8
2.2计算方面的相关研究14
2.3本书工作的方法论基础18
第3章 相关资源、方法和工具23
3.1相关语言资源23
3.2条件随机场24
3.3评测方法与评测指标24
3.4软件工具25
第4章 现代汉语复合词内部结构词典的构造26
4.1汉语复合词的基本构造类型26
4.2词典构建方案27
4.3自动标注方法28
4.4结构分析方案、原则和方法30
4.5结构关系类型的判断31
4.6成分语法类的判断32
4.7成分语义类的判断34
4.8计算机辅助人工标注35
第5章 未登录词词类自动标注37
5.1基于内部特征的模型38
5.2可信度计算40
5.3基于外部特征的词类标注模型41
5.4实验结果43
5.5实验结果分析46
第6章 基于内部特征的未登录词语义类自动标注47
6.1基线模型48
6.2基于内部特征的模型(模型1)50
6.3双向平行类推规则与成对替换类推规则的分析58
6.4实验59
第7章 结合内部与外部特征的未登录词语义类自动标注66
7.1结合内部特征与外部特征的模型(模型2)67
7.2实验72
第8章 未登录词语义类自动标注的应用81
8.1语义词典修正81
8.2语义词典扩充97
第9章基于分布式词表示的类比识别与类比挖掘99
9.1关系相似度任务与词嵌入模型100
9.2服务于类比识别的基于依存上下文的词语embedding表示102
9.3改进的类比识别方法:使用句法依存减少搜索空间103
9.4基于依存embedding的类比挖掘104
9.5实验106
结语114
参考文献116
附录123
附录A双向平行类推规则示例(后字为共同成分)123
附录B双向平行类推规则示例(前字为共同成分)133
附录C成对替换类推规则示例(前字为替换成分)134
附录D成对替换类推规则示例(后字为替换成分)150
后记163
表目录
表4.1语义词典义项分类列表26
表4.2自动分析方法标注结果汇总30
表5.1四种特征分析方案39
表5.2低可信度序列示例41
表5.3句法模板列表(以“喜欢”为例)42
表5.4训练数据和测试数据中的词长分布43
表5.5基于内部特征的四种方案的实验结果44
表5.6使用基于全局上下文的模型及规则之后的结果45
表5.7与Wu和Jiang(2000)所提方法的比较46
表6.1未登录词“文化部门”的训练词语51
表6.2序列化子模型使用的特征模板54
表6.3SSM方法字类关联模型在《词林》IV测试集上的结果61
表6.4SSM方法规则子模型在《词林》IV测试集上的结果61
表6.5SSM方法混合模型在《词林》IV测试集上的结果61
表6.6模型1类类关联子模型在《词林》IV集上的结果62
表6.7各种方法在《词林》IV集上的结果比较63
表6.8SSM方法规则子模型在《HowNet》IV集上的结果63
表6.9模型1类类关联子模型在《HowNet》IV集上的结果64
表6.10各模型在《HowNet》IV集上的结果比较64
表6.11各方法在《词林》TSOOV集上的结果比较65
表7.1哈尔滨工业大学依存句法标注体系及其含义69
表7.2上下文词语频次示例70
表7.3模型2与其他方法的比较74
表7.4权重计算方法的比较76
表7.5模型2中三个选项的比较77
表8.1基于成对替换类推规则的词典修正算法1结果分析示例84
表8.2基于双向平行类推规则的词典修正算法1结果分析示例86
表8.3TS1义项缺失或不当自动发现结果分析90
表8.4五个昀佳候选结果98
表9.《同义词词林》和CWS上的汉语embedding评价结果108
表9.CAQS上的汉语embedding评价结果109
表9.Google数据集上的英语embedding评价结果109
表9.NG2、NG5、DEP相似词示例110
表9.类比挖掘实验结果112
图目录
图5.1特征模板40
图5.2投票标准42
图6.1模型1步骤说明57
图7.1依存句法分析示例70
图7.2权重计算方法71
图7.3模型2F值随K值变化曲线(0<K<80)76
图9.1依存句法树示例103
图9.2基于自举的类比挖掘算法105