随着数字经济的不断发展,数据价值得到越来越广泛而深入的体现。目前我国信息数据资源80%以上掌握在各级政府部门手里,受数据孤岛、技术壁垒、法制缺失、数据标准不统一等因素影响,大量数据未能得到充分开放、共享或利用,不利于推动我国数字产业化与产业数字化的发展。政府、企业和个人是数据开放、共享和交易的基本主体,技术与法制是数据
本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1?5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据
本书的主旨是介绍如何结合Python3语言进行各类结构化和非结构化数据的采集、预处理和存储,涉及统计概率、数据格式与编码、网页开发、自然语言处理、数据科学等不同领域的内容。全书共分为11章,包括数据科学概述、Python基础、统计与概率基础、文件读写与操作、数据可视化、网络数据爬取等多个主题。内容覆盖本地文件、网页数据
数据治理是一门实践中的学问。本书轻理论、重实践,是一份实用的数据治理指南,涉及数据治理组织、管理制度、流程规范、数据标准管理、数据质量管理、元数据管理、主数据管理、数据安全与隐私等主题。全书共分为3篇,第一篇包含第1章和第2章,介绍数据治理的理论与方法;第二篇包含第3章至第6章,介绍数据治理的平台建设与工具;第三篇包含
本书从实用角度出发,围绕Linux操作系统和Hadoop集群部署,从虚拟机安装入手,结合典型项目和案例,较为全面地介绍了大数据开发技术平台Hadoop及其生态系统的相关知识。主要内容包括大数据技术中的Hadoop集群部署、HDFS、MapReduce、Hive、HBase和Sqoop等。全书所有知识点都结合具体的编程示
数据挖掘与商务智能
本书系统介绍大数据技术的原理与应用,主要内容包括基本概念、分布式计算编程基础、Hadoop系统、分布式文件系统HDFS、分布式数据库HBase、分布式计算框架MapReduce、数据仓库Hive、流计算SparkStreaming、数据可视化、大数据的电商精准营销案例、好友推荐案例等章节,涵盖了海量数据的高效存储、非结
这是一本能为数字化转型企业的数据治理提供全面指导的著作。它基于国际主流的数据治理框架和用友多年的数据治理经验,从道、法、术、器4个维度全面而深入地展开,不仅有数据治理在战略层面的顶层设计,还有数据治理在执行层面的实施方法,既可以作为数据治理的纲领性指南,又可以作为数据治理的实操手册。从数据治理的战略规划到落地实施,本书
本书是第一本兼顾编程和统计学基础技能的书籍,涵盖了整个数据科学生命周期。它面向那些希望成为数据科学家或与数据科学家合作的读者,以及希望跨越“技术/非技术”界限的数据分析师。如果具备基本的Python编程知识,你将学到如何使用像pandas这样的行业标准工具来处理数据。
本书汇总了数据科学中经常使用的数学知识,包括矩阵基础、微积分、概率论和优化等,以矩阵和向量形式统一了几个内容的符号体系,系统全面地介绍了数据科学的数学基础。全书共7章,内容包括线性代数、向量空间、内积空间、矩阵分解、向量微积分、概率与分布和优化方法。本书兼顾数学表达的严谨性和知识描述的直观性,减少了枯燥的证明过程,增加