只有在可以一致地提供预测性的业务见解并在整个组织范围内扩展时,数据分析和AI才能产生价值。这也是众多企业所面临的巨大挑战。本书概述了有效且实用的组织、管理和评估数据的方法,因此有助于建立信息体系结构以更好地推动AI和数据科学的发展。本书主要包括以下内容:简化数据管理,使数据随时随地可用;缩短实现AI用例的价值实现时间;使整个企业都可以访问AI和数据洞察力;动态、实时地扩展复杂的AI场景;开发可带来可预测的、可重复的价值的信息体系结构。本书可以使包括架构师、开发人员、产品所有者和业务主管在内的各种角色受益。
“我想做的是交付结果。”
Lou Gerstner
Business Week
为何你需要此书
“19世纪末,谁也不会相信地球正受到智慧生命的密切注视……”
1898年,H. G. Wells出版的《世界大战》(The War of the Worlds,Harper & Brothers)以此开场。在20世纪末,这样的怀疑也同样盛行。但与19世纪以来的虚构的注视者不同,20世纪晚期的注视者是真实存在的,而这些注视者就是具有开拓性的数字化公司。在《世界大战》中,单细胞细菌被证明是兼具进攻性和防御性的决定性武器。如今,这一武器便是数据。当数据被错误使用时,企业将会面临突然崩溃的局面;当数据被正确使用时,企业则会茁壮成长。
自象形文字和字母出现以来,数据已然开始发挥其作用。商业智能(Business Intelligence,BI)一词的出现,可以追溯至Richard Millar Devens 1865年出版的Cyclopaedia of Commercial and Business Anecdotes一书。尽管如此,直至制表机器公司(Tabulating Machine Company,IBM前身)创始人Herman Hollerith发明了打孔卡片,数据的大规模采集才得以实现。Hollerith初是为1890年美国政府人口普查而发明的打孔制表技术。1937年,美国政府与IBM签署协议,运用其打孔卡读卡机,为涉及2600万个社会保障号码的大规模簿记项目提供服务和支持。
1965年,美国政府建立了个数据中心,以存储其7.42亿张纳税申报单和1.75亿套录有指纹信息的计算机磁带。随着互联网以及后来的移动设备和物联网的出现,私有企业能够基于日益增加的与消费者共享的触点数,建立大量的消费者数据存储,从而使大规模数据使用真正得以实现。平均而言,每个人每秒创建的数据量超过1.7MB,这样的信息量大致相当于154万亿张打孔卡片。通过将数据量与数据有效处理能力相结合,数据并不仅仅是被简单记录和保存,而是得以大规模使用。
显然,我们正处于大数据时代。企业正在争先恐后地整合各种能完成高级分析的能力,如人工智能和机器学习,从而限度地利用其自身的数据。如何通过具有前瞻性的预判来改善市场的商业表现,已然成为强制性需求。诸如数据湖(Data Lake)之类的数据管理概念也被提出,以指导企业进行数据存储和数据管理。在许多方面,数据湖与更早的企业数据仓库(Enterprise Data Warehouse,EDW)形成了鲜明对比。通常而言,企业数据仓库仅接受已被视为有用的数据,且其内容的组织方式高度系统化。
在被误用的情况下,一个数据湖只不过是非结构化和未处理的海量数据的存储地,许多这样的数据永远都不会被使用。然而,通过高级分析和机器学习模型,数据湖可以有效地得到利用。
但是,数据仓库和数据湖能否真正实现企业改善商业表现的目的?更简洁地说,企业是否已经意识到存储数据之地在商业方面的价值?
全球信息技术研究和咨询公司—高德纳咨询公司(Gartner Group)对此进行了引人深思的分析。据估计,超过一半的企业数据仓库尝试都是失败的,而新的数据湖的情况甚至更糟。高德纳的分析师曾预测,数据湖的失败率可能高达60%。然而,现在高德纳认为这个数字过于保守,实际失败率可能接近85%。
为什么诸如企业数据仓库和数据湖这样的方案的失败率如此惊人?简单来说,开发适当的信息架构并非易事。
与企业数据仓库的失败原因相同,数据科学家采用的许多方法也未能意识到如下几点:
企业性质。
企业的业务运营。
变化的随机性和潜在的巨大性。
数据质量的重要性。
在模式设计和信息架构中应用不同技术的方式,这可能会影响组织应对变化的准备。
分析表明,数据湖和大数据计划失败率较高的原因并不在于技术本身,而是在于技术人员应用技术的方式。
在我们与企业客户的对话中,这些方面很快就变得不言而喻。在讨论数据仓库和数据湖时,我们经常面临诸多问题,例如:“对于每一种方式而言,我们都有很多选择,选择哪一个?”经常会出现组织中的一个部门需要数据库进行数据存储,但是其需求无法通过以前的数据存储方式得到满足。因此,该部门不再尝试重塑或更新已有的数据仓库或者数据湖,而是创建一个全新的数据存储区域。这样做的结果往往是一个多种数据存储解决方案的大杂烩,彼此之间不能有效结合,从而丧失数据分析的机会。
显然,新技术可以提供许多实实在在的好处,但是除非对这些技术进行严谨的部署和管理,否则,这些好处无法实现。与传统建筑架构的设计不同,信息架构的设计无法做到一劳永逸。
虽然组织可以控制如何获取数据,但是不能控制所需要的数据如何随时间变化。组织往往是脆弱的,因为当环境发生变化时,信息架构可能会崩溃。只有灵活的、自适应的信息架构才能适应新的环境。针对动态目标,设计和部署解决方案是困难的,但这个挑战并非不可克服。
很多信息技术专业人士都认为“垃圾输入等于垃圾输出”这个草率断言已经过时了。实际上,数十年来,垃圾数据一直给分析和决策过程带来困扰。管理不善的数据和缺乏一致性的表示对每一个人工智能项目来说依然是危险信号。
机器学习和深度学习对数据质量的要求尤其高。就像硬币的两面,低质量数据可能带来两种具有破坏性的影响。一方面,与历史数据相关的低质量数据会使预测模型的训练失真;另一方面,新数据会使模型失真,对决策制定产生负面影响。
作为一种可共享资源,当数据质量不佳时,数据通过服务层像病毒一样暴露在整个组织中,从而影响每一个接触此数据的人。因此,人工智能的信息架构必须能减少与数据质量相关的传统问题,促进数据流动,并在必要的时候实现数据隔离。
本书的目的是让你了解企业如何构建信息架构,从而为成功的、可持续的、可扩展的人工智能部署铺平道路。本书包括一个结构化框架和建议,既兼顾实用性又具有可操作性,可以帮助企业完成信息架构,进而从人工智能技术中获益。
本书主要内容
我们将从第1章开始,对人工智能阶梯进行讨论。人工智能阶梯是IBM开发的一个说明性工具,用来演示一个组织要持续从人工智能技术中获益所必须攀登的“步骤”或“梯级”。由此出发,第2章和第3章涵盖了数据科学家和信息技术领导者在攀登人工智能阶梯的过程中必须注意的一系列因素。
在第4章和第5章中,我们将探索关于数据仓库及其如何让位于数据湖的历史,并讨论如何根据地形学和拓扑学来设计数据湖。这些讨论将深入数据的接收、治理、存储、处理、访问、管理和监测等方面。
在第6章中,我们将讨论开发运营(DevOps)、数据运营(DataOps)、机器学习运营(MLOps)如何使组织得以更好地实时使用数据。在第7章中,我们将深入探讨数据治理和集成数据管理的基本要素。为了便于数据科学家确定数据的价值,我们将讨论数据价值链和数据可访问性、可发现性的需求。
由于组织内部的不同角色需要以不同的方式与数据进行交互,第8章将介绍不同的数据访问方式,还将进一步讨论数据价值评估,并解释如何使用统计学协助实现数据价值排序。
在第9章中,我们将讨论信息架构中可能出现的问题,以及整个组织的数据素养对于规避此类问题的重要性。
后,在第10章中,我们将对开发人工智能信息架构的相关情况进行概述。第10章还提供了将上述理论背景应用于现实世界的信息架构开发的可行步骤。
尼尔·菲什曼(Neal Fishman)是IBM的杰出工程师,并且是IBM全球业务服务组织内基于数据的病理学的首席技术官。尼尔也是Open Group认证的杰出IT架构师。
科尔·斯特莱克(Cole Stryker)是一名常驻洛杉矶的作家和记者。他是Epic Win for Anonymous和Hacking the Future的作者。
题记
本书赞誉
序言
前言
致谢
关于作者
第1章 攀登人工智能阶梯1
1.1 人工智能的数据准备2
1.2 重点技术领域2
1.3 一步一个脚印地攀登阶梯3
1.4 不断适应以保持组织的相关性6
1.5 基于数据的推理在现代业务中至关重要8
1.6 朝着以人工智能为中心的组织迈进11
1.7 本章小结12
第2章 框架部分I:使用人工智能的注意事项14
2.1 数据驱动决策制定15
2.1.1 通过询问来获得洞见15
2.1.2 信任矩阵16
2.1.3 衡量标准和人类洞见的重要性18
2.2 使数据与数据科学民主化18
2.3 是的,先决条件:组织数据必须有先见之明20
2.4 促进变革之风:有组织的数据如何缩短反应时间23
2.5 质疑一切24
2.6 本章小结26
第3章 框架部分II:使用数据和人工智能的注意事项27
3.1 个性化每个用户的数据体验28
3.2 上下文的影响:选择正确的数据显示方式29
3.3 民族志研究:通过专业数据增进理解32
3.4 数据治理和数据质量33
3.4.1 分解数据的价值34
3.4.2 通过数据治理提供结构34
3.4.3 为训练进行数据策管35
3.4.4 创造价值的其他注意事项35
3.5 本体论:封装知识的手段36
3.6 人工智能成果的公平、信任和透明度38
3.7 可访问的、准确的、经过策管的和经过组织的数据41
3.8 本章小结42
第4章 分析回顾:不只是个锤子44
4.1 曾经的情况:回顾企业数据仓库44
4.2 传统数据仓库的缺点49
4.3 范式转变52
4.4 现代分析环境:数据湖53
4.4.1 两者对比55
4.4.2 本地数据56
4.4.3 差异属性56
4.5 数据湖的要素58
4.6 新常态:大数据即普通数据60
4.6.1 从单一数据模型的刚性中解放出来60
4.6.2 流数据61
4.6.3 适合任务的工具61
4.6.4 易访问性61
4.6.5 降低成本61
4.6.6 可扩展性62
4.6.7 人工智能的数据管理和数据治理62
4.7 Schema-On-Read与Schema-On-Write63
4.8 本章小结65
第5章 分析前瞻:不是所有事物都是钉子67
5.1 组织的需求67
5.1.1 暂存区域69
5.1.2 原始区域70
5.1.3 发现与探索区域71
5.1.4 对齐区域71
5.1.5 协调区域76
5.1.6 策管区域77
5.2 数据拓扑78
5.2.1 区域地图80
5.2.2 数据管道81
5.2.3 数据地形81
5.3 扩展、添加、移动和删除区域83
5.4 启用区域84
5.4.1 摄入84
5.4.2 数据治理86
5.4.3 数据存储和保留87
5.4.4 数据处理89
5.4.5 数据访问90
5.4.6 管理和监控91
5.4.7 元数据91
5.5 本章小结92
第6章 人工智能阶梯的运营准则93
6.1 时光流逝94
6.2 创建98
6.2.1 稳定性99
6.2.2 障碍99
6.2.3 复杂性99
6.3 执行100
6.3.1 摄入101
6.3.2 可见性102
6.3.3 合规性102
6.4 运行102
6.4.1 质量103
6.4.2 依赖104
6.4.3 可复用性104
6.5 xOps三重奏:DevOps/MLOps、DataOps和AIOps105
6.5.1 DevOps/MLOps105
6.5.2 DataOps107
6.5.3 AIOps109
6.6 本章小结111
第7章 化运用数据:以价值为导向112
7.1 迈向价值链113
7.1.1 通过关联链接116
7.1.2 启用操作117
7.1.3 扩大行动手段118
7.2 策管119
7.3 数据治理121
7.4 集成数据管理123
7.4.1 载入125
7.4.2 组织125
7.4.3 编目126
7.4.4 元数据127
7.4.5 准备128
7.4.6 预配129
7.4.7 多租户129
7.5 本章小结132
第8章 通过统计分析评估数据并启用有意义的访问133
8.1 派生价值:将数据当作资产进行管理133
8.2 数据可访问性:并非所有用户都是平等的139
8.3 向数据提供自助服务140
8.4 访问:添加控件的重要性141
8.5 为了数据治理,使用自底向上的方法对数据集进行排序142
8.6 各行业如何使用数据和人工智能143
8.7 受益于统计数字144
8.8 本章小结151
第9章 长期构建152
9.1 改变习惯的需要:避免硬编码152
9.1.1 过载153
9.1.2 锁定154
9.1.3 所有权和分解156
9.1.4 避免变化的设计156
9.2 通过人工智能扩展数据的价值157
9.3 混合持久化159
9.4 受益于数据素养163
9.4.1 理解主题165
9.4.2 技能集165
9.4.3 全部都是元数据167
9.4.4 正确的数据,在正确的上下文
中,使用正确的接口168
9.5 本章小结170
第10章 终章:人工智能的信息架构171
10.1 人工智能开发工作172
10.2 基本要素:基于云的计算、数据和分析175
10.2.1 交集:计算容量和存储容量180
10.2.2 分析强度181
10.2.3 跨要素的互操作性183
10.2.4 数据管道飞行路径:飞行前、飞行中、飞行后186
10.2.5 数据水坑、数据池和数据