本书包括汉语口语中介语语料库研究,国外语料库考察,语料的录入、转写与标注研究,语料库应用研究四方面内容。口语语料库(包括多模态语料库)建设由于语料采集、转写、标注的困难,一向滞后于笔语语料库,这使汉语口语中介语研究和习得研究难以广泛、深入地开展,口笔语中介语的对比研究更是难以企及。本书从不同角度探讨口语库建设问题,其中关于口语研究和口语库建设之间的互动关系的认识、多模态理论在语料库建设中的应用、国内外英语口语学习者语料库和法语口语语料库的建设经验,对汉语口语库的设计与建设均具有积极的借鉴意义和重要的指导作用。
针对以往汉语中介语语料库建设存在的主观随意性,本书研究了语料元信息采集、语料录入与转写、语料标注、检索系统研发等建库中的重要问题,努力克服随意性,推动语料库建设的标准化和科学化。转写标注软件ELAN广泛应用于口语库和多模态语料库建设,掌握该软件可达工欲善其事,必先利其器之效。在语料库应用方面,本书注重运用语料库解决汉语教学与研究中的具体问题,对中介语中的动词、趋向动词、某些副词、介词、语篇等进行偏误分析,通过翔实的统计数据得出了一些具有普遍意义、有较强说服力的研究结论。
序
语料库是语言知识的可靠来源(代序)
第三届汉语中介语口语语料库国际会议致辞
冯志伟
首先祝贺第三届汉语中介语口语语料库国际会议在北京召开。汉语中介语口语语料库是获取语言知识、发现语言偏误、提高语言习得水平的重要手段。
我是一个自然语言处理的研究者,早在1957年,我就对语言的研究产生了浓厚的兴趣,梦想着打破人类的语言障碍,后来我知道了美国在1954年就研制成功俄英机器翻译,受到极大的鼓舞,决心投身机器翻译研究,实现自己的科学梦想。19791981年我在法国格勒诺布尔理科医科大学留学时,曾经研制过一个把汉语自动翻译为法语、英语、日语、俄语和德语5种外语的机器翻译系统,叫作FAJRA系统,提出了多叉多标记树形图模型(multiple-branched and multiple-labeled tree model, MMT),这是一个基于短语的机器翻译模型(phrasebased machine translation, PBMT)。
当时我采用的方法是基于语言规则的理性主义方法。我用了3年时间,编写了汉语分析规则5 000条左右,法语、英语、日语、俄语和德语的转换规则和生成规则各3 000条左右,一共20 000多条规则,此外,我还编制了若干部机器可读的、代码化的机器翻译词典。由于工作量大,我每天工作时间都超过10小时,扎扎实实苦干了3年,于1981年11月在IBM 4341大型计算机上输出了法语、英语、日语、俄语和德语等5种语言的机器翻译译文。这是世界上个把汉语自动翻译成多种外语的机器翻译系统。
这个系统研制成功之后,在有限规模的语言范围内,翻译的正确率还比较高,而当扩大语言范围时,对于任意的汉语句子,翻译的正确率只能达到70%左右,这样的机器翻译系统显然是难以实用的。我在1982年回国之后,又相继研制了法汉、英汉、日汉和德汉机器翻译系统,翻译正确率都没有超过70%。
我耗费了如此巨大的精力,却得到了很不理想的结果,在严峻的考验面前,我少年时代的机器翻译梦想遭到了挫败。我没有得到多少成功的经验,却留下了大量失败的教训。我为此感到困惑,有一种难言的失落感。
正当我愁眉不展之际,1993年7月在日本神户召开的第四届机器翻译高层会议(MT Summit IV)上,英国著名学者哈钦斯(J.Hutchins)在他的特约报告中指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是在基于规则的技术中引入了语料库方法。这种建立在大规模(largescale)真实文本(authentic text)处理基础上的机器翻译,是机器翻译研究史上的一场革命,它会把自然语言的计算机处理推向一个崭新的阶段。
把语料库方法引入到机器翻译中,改变了机器翻译研究者获取知识的手段,由于语料库是大规模的真实文本,人们就可以得到更加完善的统计性的语言知识,因此,也就大大地提高了机器翻译的质量,加快了机器翻译系统的研制周期。
语言知识究竟在哪里?语言知识固然存在于语法书里,存在于各种类型的词典里,存在于汗牛充栋的语言学论文里,但是,更加全面、客观的语言知识应当存在于大规模的真实文本语料库里,语料库是语言知识可靠的来源。
语料库改变了机器翻译的命运,基于短语的机器翻译发展成为统计机器翻译(statistical machine translation, SMT),机器翻译走向了商品化和实用化的新阶段。
随着互联网的迅速发展,我们进入了大数据时代。数据挖掘成为计算机科学的一个重要研究领域,数据挖掘中采用的机器自动学习的方法,对于统计机器翻译具有重要的价值。
机器自动学习的方法主要有三种类型:有指导的学习、无指导的学习、半指导的学习。
有指导的学习实际上是对于数据进行分类,首先使用事先定义好的类别或范畴标记对数据的实例进行标注,作为训练数据,机器根据这些标注好的训练数据进行自动学习,再根据学习得到的知识对于新的数据进行分类。由于用来学习的训练数据是用事先定义好的标记进行过标注的,机器学习的过程是在这些训练数据的指导下进行的,所以叫作有指导的学习。在无指导的学习中,用来学习的数据没有使用事先定义好的类别或范畴标记进行过标注,要使用机器学习的算法来自动地发现隐藏在数据中的特征、结构或规律。这种无指导学习的一个关键技术是聚类,聚类技术根据数据实例的相同点或相异点,自动地把它们聚类为不同的组合。
有指导的学习要求事先人工标注大量的数据实例,需要付出巨大的人工劳动量,费力而又费时。为了减少人工标注的劳动量,可以同时从标注过的数据实例和没有标注过的数据实例中进行学习,标注过的数据实例的集合可以比较小,而没有标注过的数据实例的集合可以很大,这样的模型叫作半指导的学习。
机器自动学习的这些方法已经成熟,而且广泛地应用于统计机器翻译的研究中,这就从根本上改变了传统的获取语言知识的手段,从大规模的双语对齐语料库中,通过机器自动学习的方法,去获取语言的翻译信息,对于机器翻译的发展具有革命性的意义。
目前,基于多层神经网络的、以大数据作为输入的深度学习(deep learning)方法引入到机器翻译中。这是一种新型的机器自动学习。深度学习的训练方式是无监督的特征学习,使用多层神经网络的方法。这种多层神经网络是非线性的,可以重复利用中间层的计算单元,减少参数,计算机从海量的大数据中可以自动地产生模型的特征和算法。
词向量是多层神经网络的一种重要方法,词向量把单词映射为一个固定维度的向量,不同的词向量构成词向量语义空间,在这个词向量语义空间中,语义相似的单词距离较近。
深度学习研究者米克罗夫(Tomas Mikolov)发现,如果用意大利这个单词的属性向量来减去罗马这个单词的属性向量,再加上巴黎这个单词的属性向量,我们就能得到法国这个单词或者相近的属性向量。类似地,如果用国王的属性向量减去男人的属性向量,再加上女人的属性向量,就能得到王后的属性向量。这是非常令人振奋的结果,因为米克罗夫事先并没有刻意地做这样的安排。
2007年以来,采用深度学习的方法,以大规模的双语对齐的口语语料库作为语言知识的来源,从双语对齐的口语语料库中获取翻译知识,统计机器翻译又进一步发展成了神经机器翻译(neural machine translation, NMT),口语神经机器翻译正确率已经超过了90%,针对日常口语的神经机器翻译基本上可以付诸实用了。
但是,在这种神经机器翻译中,语言之间的翻译细节还是一个黑箱(black box),尽管翻译的结果不错,我们对于其中的语言处理机制仍然是不清楚的,在语言学理论上,我们还难以做出科学的解释。
近,深度学习向神经网络中融入记忆机制,把基于理性主义的知识驱动与基于经验主义的数据驱动结合起来,架起了符号主义与联接主义之间的桥梁。这应当是今后神经机器翻译发展的新方向。
可以看出,由于在机器翻译中引入了语料库技术,机器翻译已经获得了巨大的进步,这是令人可喜的。不论是书面语文本语料库还是口语语料库,都是机器翻译得以发展进步的关键性因素。语料库对于机器翻译的发展具有举足轻重的作用。
目前,汉语中介语语料库建设已经取得了很大的成绩。北京语言大学、南京师范大学、鲁东大学、暨南大学、中山大学、上海交通大学、厦门大学、台湾师范大学先后建立了不同规模的汉语中介语语料库。香港中文大学、新疆医科大学还建立了汉语口语习得语料库。
在这些中介语语料库的基础上,研究者们进行了卓有成效的研究,成果斐然。第三届汉语中介语口语语料库国际会议为交流这些成果提供了一个很好的交流机会,我衷心祝贺这次国际会议成功。
张宝林,北京语言大学教授,博士研究生导师。西北师范大学兼职教授,福建师范大学客座教授,语言资源高精尖创新中心特聘研究员,中央民族大学语言教学、认知与习得开放研究中心学术顾问。中国语料库语言学研究会理事,中国语文现代化学会语言资源开发与应用专业委员会副理事长。主要研究领域为汉语教学语法、国际中文教育、语料库语言学。主持或作为主要成员参加、省部级、校级科研项目10多项;独立或合作出版学术专著、教材、大纲、词典等10多部,发表学术论文70多篇。主要著作有《汉语教学参考语法》(2006)、《现状与对策汉语作为第二语言的教学研究》(2011)、《基于语料库的外国人汉语句式习得研究》(合著,项目负责人,2014)、《汉语语法的多层面考察》(2015)、《语言培训服务国家标准研究》(合著,项目负责人,2016)、《汉语中介语语料库标注规范研究》(合著,项目负责人,2019)等。
目录
语料库是语言知识的可靠来源(代序)冯志伟 001
口语语料库和多模态语料库研究005
从口语研究看口语中介语语料库建设 刘运同007
国内外主要英语口语学习者语料库概述 许家金 董通013
法语CLAPI互动口语语料库对汉语中介语口语语料库建设的借鉴意义 王秀丽 王鹏飞022
国内外多模态话语分析的知识图谱 王笑 黄伟034
多模态理论在中介语语料库建设中的应用研究 邢晓青050
标注、录写与检索研究071
汉语中介语语料库标注标准研究 闫慧慧073
试论汉语中介语语料库的元信息标注 文雁088
汉语中介语语料库的语篇衔接与连贯标注研究
基于HSK动态作文语料库 张悦104
汉语学习者口语语料库建设语用标注研究 段海于121
汉语中介语口语语料库语料标注刍议 杨帆141
汉语中介语语料库口语及视频语料转写研究 梁丁一163
汉语中介语笔语语料录入标准研究 齐菲 段清钒 张馨丹174
ELAN操作的几个关键问题
兼谈语宝标注软件的使用 李斌185
汉语中介语语料库的检索系统 张宝林212
语料库应用研究231
HSK动态作文语料库动词偏误的全面统计与启示 玄玥 华晓君233
基于中介语语料库的常常与往往的偏误分析及教学设计 耿直249
基于语料库的汉语学习者趋向动词习得考察 李红梅263
日本汉语学习者介词在习得情况考察
基于语料库的研究 张敏300
留学生汉语口语词汇偏误研究
《以2015汉语桥我与中国次亲密接触》为例 康利南318
汉语中介语语篇结构偏误研究
基于HSK 动态作文语料库的研究 周春弟333
基于ELAN的对外汉语教师课堂体态语分析 靳继君350
其他研究373
作文自动评分系统研究的现状与对策 胡楚欣375
关于冠状病毒语料库的调研报告 卢方红396
后记415