本书从概念、思维、存储和处理、分析与应用等方面系统介绍了大数据的相关知识,主要内容包括:大数据的基本概念,大数据思维,大数据采集与获取技术,大数据批处理、流式处理和交互式处理框架,Hadoop?项目结构与技术分布,分布式并行编程MapReduce?模型,Spark?技术架构和基本流程,数据特征工程及数据可视化等内容,通过大数据与人工智能技术助力新冠疫情防控、非法集资预警、大型活动安全预警、智慧法院数据融合分析与集成应用等案例,再现场景、数据、数据分析特征选择及分析技术应用的过程,有助于读者对大数据技术、分析及应用有更深刻的体会和了解。本书可作为高等院校计算机、大数据等相关专业的大数据课程导论教材,也可供相关技术人员参考。
方建文,男,所长/教授,衢州学院电气与信息工程学院,获得浙江大学 计算机科学与技术专业 工学博士
第1章 大数据概述 1
1.1 数据 1
1.1.1 数据的概念 1
1.1.2 大数据的概念 1
1.2 大数据发展的技术背景 2
1.2.1 互联网技术的发展 2
1.2.2 存储技术的发展 2
1.2.3 计算能力的发展 2
1.3 大数据的主要来源 3
1.3.1 互联网大数据 3
1.3.2 传统行业大数据 3
1.3.3 音频、视频和数据 4
1.3.4 移动设备的实时记录与跟踪 4
1.4 大数据的特征 5
1.4.1 规模性 5
1.4.2 多样性 6
1.4.3 高速性 6
1.4.4 价值密度低 6
1.5 大数据的应用 6
1.5.1 大数据的应用环境 6
1.5.2 大数据的应用领域 7
1.6 中国的大数据产业链 7
1.7 我国大数据的发展态势 10
1.8 大数据与数字经济 12
第2章 大数据思维 14
2.1 大数据的思维特点 14
2.1.1 大数据的总体思维 14
2.1.2 大数据的非精确思维 15
2.1.3 大数据的非因果性思维 15
2.1.4 以数据为中心 16
2.1.5 大数据的运营思维 16
2.1.6 数据的收集 16
2.1.7 数据的分类 16
2.2 大数据的应用思维 17
2.3 大数据的价值思维 19
2.3.1 识别与串联价值 19
2.3.2 描述价值 19
2.3.3 时间价值 19
2.3.4 组合价值 19
2.3.5 预测价值 20
2.4 大数据的分析思维 20
2.5 大数据分析的特点 21
第3章 大数据采集与获取技术 25
3.1 数据源分布 25
3.2 内部数据 26
3.2.1 政府内部数据 26
3.2.2 各利益主体自营数据 26
3.2.3 物联网数据 27
3.2.4 互联网数据 27
3.3 内部数据获取方法 28
3.3.1 内部数据的ETL技术 28
3.3.2 常用ETL工具说明 30
3.4 外部数据及获取方法 32
3.4.1 网络数据源的特性与价值 32
3.4.2 网络爬虫 33
3.4.3 网络爬虫应用注意事项 34
3.5 深网的数据及获取的方法 35
3.5.1 深网的含义 35
3.5.2 深网数据的特点 36
3.5.3 深网数据的获取方法 36
第4章 大数据存储与管理技术 38
4.1 数据存储的基本概念 38
4.1.1 存储容量 38
4.1.2 存储性能 38
4.1.3 存储可靠性和可用性 39
4.1.4 存储成本 40
4.2 常用的数据存储介质 40
4.2.1 机械硬盘 40
4.2.2 固态硬盘 41
4.2.3 可记录光盘 42
4.2.4 U盘 42
4.2.5 闪存卡 43
4.2.6 数据存储介质的选择原则 43
4.3 数据存储模式 43
4.3.1 DAS 44
4.3.2 NAS 45
4.3.3 SAN 46
4.3.4 存储模型选择 47
4.4 大数据管理技术 47
4.1.1 文件系统 47
4.4.2 分布式文件系统 48
4.4.3 数据库 51
4.4.4 键-值数据库 52
4.4.5 分布式数据库 53
4.4.6 关系型数据库 54
4.4.7 数据仓库 55
4.4.8 文档数据库 56
4.4.9 图形数据库 57
4.4.10 云存储 58
第5章 大数据处理技术 61
5.1 大数据处理框架分类 61
5.1.1 批处理框架 61
5.1.2 流式处理框架 62
5.1.3 交互式处理框架 63
5.2 Hadoop 63
5.2.1 Hadoop?项目结构及技术分布 64
5.2.2 MapReduce?模型 65
5.3 Spark 67
5.3.1 技术架构 68
5.3.2 基本流程 68
5.3.3 Spark?程序运行流程 69
第6章 大数据分析技术 71
6.1 大数据分析的概念 71
6.2 大数据的处理流程 71
6.3 大数据分析的方法 72
6.4 数据特征工程 73
6.4.1 特征构建 74
6.4.2 特征选择 75
6.4.3 特征提取 76
6.5 大数据分析的主要技术 76
6.5.1 深度学习 76
6.5.2 知识计算 80
6.6 数据可视化 89
6.6.1 数据可视化分析方法 90
6.6.2 可视化分析的常用工具 92
6.6.3 数据可视化的应用举例 93
第7章 大数据安全 94
7.1 大数据安全概述 94
7.1.1 大数据安全的意义 95
7.1.2 大数据安全面临的问题 95
7.2 大数据隐私保护 97
7.2.1 数据保护与保密 98
7.2.2 国内隐私保护相关政策法规 98
7.3 典型案例 100
7.3.1 棱镜门事件 100
7.3.2 维基解密 101
7.3.3 Facebook?数据滥用事件 101
7.3.4 手机应用软件过度采集个人信息 102
7.3.5 12306?数据泄露 103
7.3.6 免费Wi-Fi?窃取用户信息 103
7.3.7 收集个人隐私信息的“探针盒子” 104
第8章 大数据与云计算、物联网、人工智能 105
8.1 云计算 105
8.1.1 云计算的概念 105
8.1.2 云计算的特点 105
8.1.3 云计算的分类 106
8.1.4 云计算的服务模式 107
8.1.5 主流的云计算厂商 108
8.2 物联网 111
8.2.1 物联网的概念 111
8.2.2 物联网的核心技术 111
8.2.3 物联网的特点 112
8.3 人工智能 113
8.3.1 人工智能的概念 113
8.3.2 人工智能的关键技术 114
8.4 大数据与云计算、物联网和人工智能的关系 116
第9章 大数据应用 118
9.1 大数据与人工智能技术在新冠疫情防控中的应用 118
9.1.1 助力新型冠状病毒疫情防控的进展 118
9.1.2 助力新型冠状病毒智能医疗诊断服务 119
9.1.3 助力新型冠状病毒疫苗研发和药物筛选 120
9.1.4 助力抗疫资源的生产组织与调度 120
9.1.5 助力新型冠状病毒疫情溯源与监测预警 121
9.2 大数据用于非法集资预警 122
9.2.1 挑战 123
9.2.2 实施过程/解决方案 123
9.2.3 效果总结 126
9.3 大数据在大型活动安全预警中的应用 126
9.3.1 问题分析 127
9.3.2 总体架构 127
9.3.3 核心技术 129
9.3.4 实际应用 130
9.4 ?“智慧法院”数据融合分析与集成应用 130
9.4.1 应用背景 130
9.4.2 ?“智慧法院”数据融合分析及集成应用示范平台架构 131
9.4.3 共性关键技术 133
9.4.4 应用案例 135
参考文献 138