本书是作者在多年科学研究的基础上整理完善而成的,是自然语言处理技术在文本分类领域应用的综述和总结,本书专业性较强,注重对技术理论依据和解决思路的精细讲解,读者可通过对本书的学习了解和掌握人工智能相关技术在网络文本处理时的实现方法和操作流程。本书的内容包括:文本预处理、特征表示与降维、文本分类算法、多标签文本分类技术、短文本分类与应用等。每个章节里对关键的知识点进行细致讲解,并通过举例叙述的方式强化相关理论的直观印象,将理论阐述和实例演示紧密联系起来,方便初学者对深奥枯涩理论知识的理解和掌握,本书对提高学生理论联系实际的能力具有较大帮助。本书可作为本科院校智能科学与技术、计算机科学与技术等专业的教材,也可供从事自然语言处理研究的人员进行参考。
前 言
文本分类是机器自然语言处理的一个重要研究方向,具有广阔的应用领域和科学研究价值。本书理论性强,读者需要有扎实的数学和统计学基础,部分内容对于初学者来说比较难以理解。全书以文本分类的处理流程为主线组织叙述框架:对文本预处理、特征选择与降维、常用分类算法、多标签文本分类技术、短文本分类技术等进行了详细的讲解,围绕文本分类处理中涉及相关技术的理论依据、实现思路、优劣势等问题展开阐述,并将一些重要的知识点通过举例的方式直观讲解,加深读者的理解。
文本信息机器分类涵盖的内容较为宽泛,叙述过程不可能面面俱到,本书以网络文本作为处理对象,针对其特有的大规模、强噪音、特征表示稀疏、上下文关联性强等特点,综合介绍了科研工作者针对此类问题的解决思路和有效做法,并以微博信息为例,细致介绍了主题模型在网络短文本处理中的应用。
本书共六章,内容包括:绪论、文本预处理、特征表示与降维、文本分类算法、多标签文本分类技术、短文本分类与应用。
本书由陈念、杨永超著。各章节的分工如下:第1、2、6章由陈念著,第3、4、5章由杨永超著,由陈念负责统稿。全书共计19.5万字,其中陈念著9.5万字,杨永超著10万字。
对于本书的错误和不当之处,希望读者随时指正。
编 者
2020年4月