本书是学习大数据技术的入门教材,深入浅出地介绍了什么是大数据、大数据的价值及应用、大数据的架构、大数据的采集及预处理、大数据的存储、大数据分析、大数据可视化等,为学生提供在实践中解决大数据相关问题的思路和方法。本书贯彻理论精简的原则,注重科普性,突出实用性,可作为职业院校相关专业的选修课教材,也可供大数据技术初学者及有关技术人员阅读。
余战秋,高级讲师,任教于安徽工业经济职业技术学院,出版过多本职业教育教材;蔡政策,高级讲师,任教于安徽国际商务职业学院。
第1章 大数据概述 1
1.1 大数据是什么 1
1.1.1 大数据是怎么来的 1
1.1.2 大数据的定义与特征 4
1.1.3 大数据与云计算、物联网、互联网之间的关系 5
1.2 大数据的意义及挑战 7
1.2.1 研究大数据的意义 7
1.2.2 大数据的异构性和不完备性 10
1.2.3 数据处理的时效性 10
1.2.4 数据安全与隐私保护 11
1.2.5 大数据的能耗 12
1.2.6 大数据管理易用性 12
1.3 大数据技术及应用 13
1.3.1 大数据技术框架 13
1.3.2 大数据处理工具和技术发展趋势 17
1.3.3 大数据的应用 19
【思考题】 25
第2章 大数据的架构 26
2.1 大数据平台架构简介 26
2.1.1 传统计算方式的数据瓶颈 26
2.1.2 大数据处理平台的技术架构 27
2.1.3 主流大数据架构 32
2.2 Hadoop体系架构 37
2.2.1 Hadoop体系架构简介 37
2.2.2 Hadoop的应用 48
2.2.3 Hadoop MapReduce的应用 50
2.2.4 Hadoop MapReduce应用实例 58
【思考题】 74
第3章 大数据的采集及预处理 75
3.1 大数据采集 75
3.1.1 大数据采集简介 75
3.1.2 常用大数据采集工具 81
3.1.3 常用的数据采集方法 88
3.1.4 Kafka概述 91
3.1.5 Kafka安装及使用 94
3.2 数据预处理 100
3.2.1 数据清洗 100
3.2.2 数据集成 104
3.2.3 数据变换 106
3.3 ETL技术及其工具 108
3.3.1 数据仓库技术ETL 108
3.3.2 常用ETL工具 111
3.3.3 Kettle 113
【思考题】 120
第4章 大数据的存储 121
4.1 大数据的存储方式 121
4.1.1 大数据存储综述 121
4.1.2 数据的存储方法 125
4.1.3 大数据的基础设施 128
4.1.4 大数据文件存储方式 136
4.1.5 大数据存储的特点及技术路线 142
4.2 数据仓库及开发模型 144
4.2.1 数据仓库简介 144
4.2.2 数据仓库模型设计 149
【思考题】 161
第5章 大数据分析 163
5.1 大数据分析概述 163
5.1.1 数据分析的概念和分类 164
5.1.2 大数据存在模式与结构大数据 167
5.1.3 大数据分析与数据分析的区别 169
5.1.4 大数据分析的背景及挑战 170
5.2 大数据分析工具及方法 170
5.2.1 大数据分析工具及手段 170
5.2.2 大数据分析方法 175
5.3 数据挖掘 192
5.3.1 数据挖掘概述 192
5.3.2 数据挖掘工具 194
【思考题】 199
第6章 大数据可视化 200
6.1 数据可视化概述 200
6.2 大数据可视化的实现 204
6.2.1 数据可视化方式 204
6.2.2 大数据可视化模式及应用 210
6.2.3 大数据可视化方法 210
6.2.4 大数据可视化的设计 217
6.3 主流大数据可视化工具及应用 220
6.3.1 Excel及应用 220
6.3.2 Processing及应用 221
6.3.3 NodeXL及应用 235
【思考题】 240
参考文献 241