Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。《Python和PySpark数据分析》帮助你使用PySpark解决数据科学的
从信息资源管理协同创新视角,分析了大数据治理面临的挑战、机遇和焦点议题,大数据治理研究的视角、立场及代表性观点,大数据治理的框架类型及其构成要素。以公共价值理论、数字连续性理论、利益相关者理论和协同创新理论为主要理论支持,从大数据治理目标、主体、治理客体、治理活动、治理环境等多个维度,分析了大数据治理的政策、标准和技术
首先,本书在内容选择上坚持“经典”与“前沿”并重。一方面,系统全面地讲述了无约束和有约束最优化问题的常用求解方法,包括负梯度方法、牛顿方法、拟牛顿方法、共轭梯度方法、罚函数方法等。另一方面,加入近几年在数据科学领域受到广泛关注的一些新型一阶最优化方法,例如随机梯度下降方法、小批量随机梯度下降、动量方法、Nesterov
本书从理论上论述非线性系统的全局能控性.主要介绍平面仿射非线性系统和几类特殊的高维非线性系统的全局能控性判据,以及几类多项式系统全局能控性的判别算法.另外,本书也对平面仿射非线性系统的全局渐近能控性及全局镇定性做一点讨论.
鲁棒预测控制是在预测控制的基础上考虑到实际系统存在着模型不精确或者参数时变、未知扰动等各种不确定性而发展起来的先进控制技术。如何在鲁棒预测控制的基础上有效处理时变时滞对系统的影响成为工业过程控制亟待解决的问题。本书针对具有时变时滞的工业过程可能存在参数时变、强干扰、执行器故障、非线性、多阶段切换、时变跟踪轨迹等问题,重
本书从需求规划、需求实现到可视化展示等,遵循项目开发的主要流程,全景介绍了电商行业Flink实时数据仓库的搭建过程。在整个项目的搭建过程中,介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等,并穿插了大数据和数据仓库相关的理论知识,包括数据仓库的概念介绍、电商业务概述、数据仓库理论介绍和数据仓库建模等。最核
本书对数据定价策略与优化进行较为深入的研究,针对现有研究的薄弱之处,分别针对考虑数据质量、数据规模的数据定价策略,数据产品设计与定价策略,面向闭环数据供应链的数据定价策略和客户隐私感知、激励与数据供应链定价策略等问题进行研究。
"本书为项目式、任务式教材。以三个具体的项目为载体,每个项目分若干个任务。分别为:滑仓系统概念设计与虚拟调试、加盖拧盖单元概念设计与虚拟调试、检测分拣单元概念设计与虚拟调试。第一个项目以基本知识的学习与应用为目的,读者通过该项目的学习与实践初步掌握概念设计与虚拟调试的基本技能;第二个项目、第三个项目以全国职业院校技能大
要想在数据科学领域取得成功,你需要精通数学。但不仅仅是数学。这本指南提供了一个清晰的、简单的答案,你需要了解,包括概率、统计、假设测试、线性代数、机器学习和微积分的知识。使用Python代码的实际示例将帮助您了解数学如何应用于您将要做的工作,在将概念连接到机器学习等应用程序时,提供了对概念在底层如何工作的清晰理解。你会
本书面向Hadoop大数据技术,通过大量实例,循序渐进地介绍了Hadoop生态系统常用组件的安装及使用方法。 全书共15个项目,主要内容包括:在虚拟机中安装CentOS7、安装Hadoop伪分布、配置平台基础环境、搭建Zookeeper分布式集群、搭建HDFS分布式集群、搭建YARN分布式集群、Hadoop分布式计算