《科研主题演化过程中的词语迁移研究》结合数据挖掘和机器学习等领域的主题建模和文本挖掘方法,以及情报学领域注重文本内容分析的优势,以信息检索领域的学术文献为例,对科研主题的演化过程及演化过程中各主题下词语的分布及语义变化进行考察。发现科研主题的生长趋势和演化动态,深入分析词语迁移现象,揭示并验证关于词语迁移的相似性、多样性和凝聚性规律。
科研主题演化及主题内容分析,是信息科学相关领域长期关注的问题。目前数量庞大的学术文献既向科研主题分析提出了挑战,也为学术文本挖掘工作提供了充足的资源。科研主题是动态演化的,在一个科研领域的发展过程中,新兴主题涌现,已经形成的主题越发活跃成熟或者逐渐老化衰退,各个主题的研究内容不断变化,单一主题发生分化,多个主题之间产生融合。理解科研主题的演化过程并对其进行深入的内容分析,可以帮助新人领域的研究者了解领域概况,促进领域专家之间进行领域内部和跨领域的知识交流,向科研基金管理机构和政策制定者提供科学创新的发展轨迹,帮助决策者跟进领域知识的流动情况。
鉴于科研主题研究的重要性,以数据挖掘领域为代表的各学科均对其投入了很大的关注,相比之下,情报学领域对于科研主题演化的研究成果较少,对于演化动态和演化过程中主题结构变化的分析尤为欠缺。而在数据挖掘等计算机科学相关领域中,由于学科本身技术导向的特性,对于科研主题演化的考察比较注重演化模型的构建和优化,研究成果疏于探讨主题间的知识交流情况和主题在不同时期的发展状态,以及更进一步深入词语层面的内容分析。
目前以情报学和数据挖掘领域为代表的信息科学相关领域对科研主题演化分析的现状是,情报学领域缺少成熟的技术方法对主题结构的动态演化过程和词语在主题中的分布变化进行识别和抽取;数据挖掘领域由于其技术导向的特征,缺乏对于科研主题深入的内容分析。
基于上述认知,本书结合数据挖掘和机器学习等领域的主题建模和文本挖掘方法,以及情报学领域注重文本内容分析的优势,以信息检索领域的学术文献为例,对科研主题的演化过程及演化过程中各主题下词语的分布及语义变化进行考察。共计七个章节。
第一章,引言,主要介绍选题背景与研究意义,国内外研究现状,词语语义和词语迁移概念的界定,本研究的内容、方法及创新之处。
第二章,理论基础,包括科学范式的转变,贝叶斯网络和主题建模原理,以及创新扩散理论,为后文进行主题抽取、演化研究和词语在主题中的分布研究提供理论支撑。
第三章,科研主题的划分与确定。基于LDA主题模型对科研文献构成的文本数据集进行了主题抽取和分析。选取的研究样本为信息检索领域的研究论文,数据来源为Web of Science数据库,时间检索跨度为1956-2014年,检索结果共计20359条文献数据。共计抽取五个主题,作为信息检索领域的重要主题进行后续的演化研究和词语分析。
第四章,对科研主题的演化过程进行分析,对信息检索领域五个重要主题的生长趋势和演化动态进行识别和考察。在生长趋势分析中,对LDA主题模型训练结果中的文档一主题概率分布按年分组进行聚合,从而得到每一年每个主题下的内容占当年文献总内容的比例,以表示各主题在对应年份的活跃程度。针对目前研究对主题活跃度的测量仍停留在对发表文献进行简单计数的基础上,本章的生长趋势分析结果较好地保留了一篇文档以不同比例包含多个主题的特性。在演化动态分析中,针对目前主题演化研究对主题分化融合、知识交流和不同时期的发展阶段分析的不足,对应上述三点展开了研究。整体语料被划分为六个时间窗口,每个时间窗口另外抽取存在于该时间段内的局域主题,第三章抽取的五个主题称为全局主题。
陈柏彤,博士,上海大学讲师,毕业于武汉大学信息管理学院情报学专业,主要研究方向为数据驱动知识发现。
第一章 引言
第一节 选题背景与研究意义
一 选题背景
二 研究意义
第二节 国内外研究现状分析
一 基于主题模型的主题发现与主题演化研究
二 科研主题的生长趋势
三 基于知识图谱的科研主题演化研究
四 词语迁移相关研究
五 存在问题述评
第三节 词语语义和词语迁移概念的界定
一 词语语义概念界定
二 词语迁移概念界定
第四节 研究内容和研究方法
一 研究内容
二 研究方法
第五节 创新之处
第二章 理论基础
第一节 科学哲学与科学范式的转变
一 科学哲学对范式的定义
二 科学范式的转变
三 科学范式转变与科研主题演化的关系
第二节 贝叶斯概率与贝叶斯网络
一 贝叶斯概率
二 贝叶斯网络
第三节 主题模型概述
一 文本集合建模
二 PLSI模型
三 LDA模型
第四节 创新扩散理论
一 创新扩散理论概述
二 创新扩散理论的继承与发展
第三章 科研主题的划分与确定
第一节 数据获取与预处理
一 数据获取
二 数据预处理
第二节 文档建模与参数设定
一 模型输入
二 模型运算
三 模型输出
第三节 结果分析
第四节 本章小结
第四章 科研主题的演化过程
第一节 科研主题的生长趋势
一 历时主题活跃度探测
二 生长趋势分析
……
第五章 科研主题演化过程中的词语迁移现象
第六章 科研主题演化过程中的词语迁移规律
第七章 总结与展望
参考文献
索引