本书共12章。第1章简要介绍DeepSeek的技术架构、本地部署与在线开发环境,为后续分析奠定技术基础。第2~4章聚焦多源数据获取、数据清洗及预处理,提供标准化操作流程与代码实例。第5-8章介绍描述性统计、频数分析、相关性分析、线性/曲线/逻辑回归、K-Means聚类、时间序列分析等核心算法,结合GDP分析、商品评论挖
本书共分为8章,每一章都围绕完整的项目展开,涵盖Spark的各个重要组件。包括认识Spark、Scala语法应用、SparkCore数据分析、SparkSQL结构化数据处理、Spark、流式数据处理,Spark结构化流式处理、Spark机器学习应用、社交软件运营数据分析,逐步提升读者的技术水平和应用能力。每个项目由多个
本书精心编排为15章,内容包括Spark简介、Spark集群环境部署、Spark编程体验、RDD深度解读、RDD的Shuffle详解、Spark共享变量、Spark序列化和线程安全、Spark内存管理机制、SparkSQL简介、SparkSQL抽象编程详解、SparkSQL自定义函数、SparkSQL源码解读、Spar
本书提供了完整的数据资产对内运营与对外运营的实施路径,从数据治理、数据资产入表到数据资产场景化应用,再到完整的数据资产运营,每个环节都有明确的实施路径及重点、难点。通过系统化的讲解,确保读者在理解每个概念的同时,能够掌握如何落地实施,避免出现知识断层的情况。 数据资产入表、管理和运营的核心是数据资产本身,法律、财务、评
知识图谱以三元组形式组织现实世界的各种事实,并通过图的形式揭示事实间语义关联,由于其完善的知识组织和存储方式,且建模更加灵活、表达能力更强,逐渐拓展到语言理解、智能问答、推荐系统等领域应用。工程应用场景中时序信息相关的动态性是知识图谱关键及主要特征,融合时序相关信息的动态知识推理对于提高知识图谱推荐、问答等应用的精准性
本书介绍典型控制系统的性能要求及控制设计的基本方法,并给出相应的仿真与分析。全书共6章,第1~4章从经典控制设计和鲁棒综合控制策略这类可推广至常见的二阶系统的控制设计方法开始,以柔性系统的特性与特殊控制问题为例,向读者展示两种控制方案在类似柔性系统设计中的应用。第5、6章介绍一种非线性控制方案,给出一种高精度要求的空间
随着数据量的爆炸式增长,大数据存储技术在数据科学、人工智能、云计算等领域的重要性日益凸显。大数据不仅为个人生活、企业经营,以及国家与社会的发展带来了机遇,也带来了挑战。本书是一本大数据入门图书,主要介绍了Hive、HBase、Sqoop等内容。本书采用理论与实践相结合的讲解方式,旨在帮助读者摆脱枯燥的理论学习,注重实际
本书以项目实战为核心载体,采用任务驱动教学模式,系统且深入地解析Hadoop生态圈中主流的大数据开发技术。全书精心编排7个项目,从Hadoop的基础理论入门,逐步深入到Hadoop集群环境配置、Hadoop分布式文件系统、MapReduce分布式计算框架,再到MapReduce离线数据处理、基于Hive的离线数据分析,
本书是面向大数据人才培养的高等学校数据科学与大数据技术专业系列教材中的一本,通过把数据思维融入全书各章,并通过Python实现相关案例,使抽象的数据思维具体化,从而加深读者对数据的感性认识,提高读者对数据思维的理解能力。本书首先介绍了大数据相关的概念,然后根据数据处理流程的逻辑顺序,对大数据平台和大数据开发进行了深入介
本书系统地介绍了数据挖掘算法、原理及基于Python的实现方法,将算法原理与案例相结合,帮助读者建立数据挖掘领域的理论基础,提升基本的实践技能。本书共15章,主要包括数据挖掘概述、Python环境的搭建、数据预处理、数据集划分与交叉验证评分、回归、分类、集成学习、参数调优、降维、特征选择与特征联合、流水线、聚类、关联规