最新消息:《Spark大数据编程基础(Scala版)》图书已经出版发布!

前 言

大数据被称为“未来的新石油”,那么如何开采“新石油”是各个领域处理大数据面临的核心问题。工欲善其事,必先利其器。大数据编程为处理大数据提供了最有效的“器”,本书将全面的介绍大数据编程基础。大数据处理技术发展迅速,Spark已经成为大数据处理的首选平台,因此本书的大数据编程将针对Spark平台进行。

本书成体系的介绍了Spark大数据编程技术。本书分为三个部分共10章,从“Spark环境介绍”开始,以“Spark编程入门基础”为承接、最后具体到每一个“Spark编程组件”。这三部分内容从浅入深自成体系,可以方便的学习Spark编程的每个具体知识点。

第一部分包含第1~2章,讲述了Spark的环境。其中,第1章对Spark的背景和运行架构进行了概述;第2章对Spark开发环境的搭建进行了详细介绍。这是学习后续章节的基础。

第二部分包含了第3~5章,讲述了“Spark编程入门基础”部分,重点介绍了Scala编程基础和RDD编程。本书采用Scala编程语言,因此第3章和第4章分别介绍了Scala语言基础和Scala面向对象编程。弹性分布式数据集(Resilient Distributed Dataset,RDD)是Spark对数据的核心抽象,因此第5章介绍了RDD编程。

第三部分包含了第6~10章,讲述了“Spark编程组件”部分,重点介绍了Spark SQL、Spark Streaming、Spark GraphX、Spark ML四个组件的编程。其中,第6章介绍了Spark SQL,可以高效的处理结构化数据;第7章介绍了Spark Streaming,可以高效的处理流式数据;第8章介绍了Spark GraphX,可以高效的处理图数据;第9章和第10章介绍了Spark ML,分别以Spark机器学习原理和Spark机器学习模型为重点。

本书在编写过程中力求深入浅出、重点突出、简明扼要,尽可能方便不同专业背景和知识层次的读者阅读。本书编写过程中,中南大学研究生杜宏亮、田玲、熊帆、高俊、吕腾飞、蒋志怡、应晓婷等做了大量的资料收集整理、书稿校对等工作,在此,对这些同学的辛勤工作表示感谢。

本书配套的官方网站是http://aibigdata.csu.edu.cn ,免费提供全部课件资源、源代码和数据。相关资料也可以到中南大学出版社的网站下载。

另外,本书部分内容参考了大量的公开资料和网络上的资源,对他们的工作致以深切的感谢。需要指出的是,数据科学与大数据技术是一个全新的专业,因此编写一本完美的大数据编程教材绝非易事。由于水平有限,书中难免存在疏漏或者错误,希望广大读者不吝赐教。如有任何建议、意见或者疑问,请及时联系作者,以期在后续版本中改进和完善。

编 者
2019年1月