1、本书通过典型案例的R语言实现,清晰解读教材中晦涩难懂的理论阐述与算法推导,让抽象的大数据落地到具体行业上,理论联系实际,实用性强。 2、实验指导书中所有案例均来自医疗大数据研究室项目和培训积累,并且结合课堂体验和学习效果,从中精挑细选的典型案例。 3、适合不同层次的读者。不仅适合高等院校的各相关专业的本专科生、研究生,也适合零编程基础的科研人员以及对大数据分析技术感兴趣的人士阅读。
内容系统、全面、规范
如今,大数据的发展已经成为我国经济发展的新引擎,数据科学与大数据技术专业及课程也已在高校陆续开设。从大数据元年发展至今,市面上出现了大量大数据技术相关书籍,但大部分书籍偏重于技术和算法的理论介绍,实用性和操作性强的教材很少,导致学生在学习过程中阅读兴趣度会逐渐降低,以致半途而废,而商业实践的书籍又过多偏重于工程,即使有案例操作,也缺乏系统性,不适合作为教材讲授。本书从理论与实践相结合的角度出发,在大数据挖掘理论的基础上编写而成。每个知识点都有对应的实验,以简洁实验的举例取代晦涩难懂的算法推导。实验例题背景介绍、步骤解析明确,读者可直接参考实验流程,独立完成程序运行。
本书主要从基础、建模、案例三部分展开对大数据挖掘的分析应用。基础部分介绍了实验工具R、Python语言的使用,数据采集、质量分析、统计、可视化等数据准备,以及数据清洗、集成、变换、规约等预处理操作。建模部分介绍了大数据挖掘常用的分类模型和算法,涵盖了回归方法、分类方法、关联规则、聚类分析、预测方法、离群点诊断和时间序列分析方法,在每一类方法中包括了基本的方法介绍、实验解析及完整的代码。案例部分精选了2个大数据挖掘综合应用案例。
本书编写分工为:通旭明撰写第1、第3、第4章,赵志升撰写第2章,梁俊花撰写第5、第9、第10、第11章,李静撰写第6章,刘洋撰写第7和第8章。全书由赵志升、梁俊花统稿和校对。本书在编写过程中,还得到了王春艳、袁艳红等老师的帮助,在此表示感谢;同时,感谢河北北方学院大数据分析项目团队成员郭明磊、傅轩昂、刘石、袁博、张贵轩、姜连勋、武美璇、武丽媛参与本书的写作和实验代码的调试校验;感谢教育部“2018产学合作协同育人项目——江苏知途教育科技有限公司教学内容和课程体系改革项目”对本书的支持。
由于编者水平有限,加之时间仓促,书中难免存在不当之处,欢迎读者提出宝贵意见和建议,以便再版时修正。读者的意见和建议请发至邮箱zzsbigdata@sina.com。
赵志升,女,河北北方学院,教授,教龄35年,长期从事大数据分析、计算机应用相关的教学与研究,发表相关论文50余篇,专著1部,主编教材8部,先后主持省厅级项目15项,获国家软件著作权20余项,获河北省医学科技一等奖1项,获河北省科学技术进步三等奖1项,讲授的课程包括:《数据库原理与应用》《数据仓库与数据挖掘》《大数据分析基础》《信息系统分析与设计》等。
第1章实验工具的选择1
11实验工具选择1
12R语言3
13Python语言15
第2章数据的准备34
21数据采集34
22数据抽样51
23数据质量分析55
第3章数据预处理方法77
31数据清洗77
32数据集成85
33数据变换90
34数据规约97
35数据降维106
第4章回归方法110
41多元线性回归110
42逻辑回归120
43线性判别分析126
第5章分类方法131
51K近邻分类131
52贝叶斯分类139
53神经网络146
54决策树153
55随机森林160
56支持向量机164
57分类的评价175
第6章关联规则192
61关联规则概要192
62Apriori算法193
63FPGrowth算法200
第7章聚类分析207
71聚类方法概要207
72Kmeans聚类算法209
73K中心点聚类算法216
74密度聚类算法220
75层次聚类算法225
76期望最大化聚类算法228
77神经网络聚类算法232
78模糊C均值聚类算法235
79高斯混合聚类算法238
第8章预测方法241
81预测方法概要241
82灰色预测241
83马尔科夫预测247
第9章离群点诊断251
91单变量的离群点诊断251
92基于回归的离群点诊断
254
93基于聚类的离群点诊断
259
94局部离群点因子检测263
第10章时间序列分析方法267
101季节指数预测法267
102解读自回归时间序列模型
272
103时间序列分解280
第11章综合案例286
111员工离职预测分析286
112北京二手房房价分析299