Hadoop应用实战
上QQ阅读APP看书,第一时间看更新

1.6 这本书都讲些啥

本书引用了大量的实际案例,有些地方我们用了企业和机构的原名,而还有一些,为了保护商业隐私,把真实的名字隐去了。另外,为了不泄露商业机密,案例中的数据有些是经过处理的,和真实数据会有一定差别,但是这些修改并不会影响案例的实际效果和场景的意义。

第1章尽量用精简的篇幅介绍大数据和数据挖掘的概念,介绍了与数据挖掘有关的常用算法以及数据仓库的基本概念。

第2章介绍了Hadoop的由来。我们从Google的三篇跨时代的论文出发,介绍Hadoop是怎样产生的。

第3章介绍了Hadoop系统上的各种组件。如果读者对Hadoop生态系统已经很了解,那么可以略过这一章。

第4章介绍了Hadoop系统为大数据生态系统带来的价值。我们首先讨论的是企业和机构在今天面对的挑战和遇到的问题,解释新的IT架构的需求;然后介绍Hadoop能够解决的问题。在解释了去IOE的概念之后,最后描述7种最常见的Hadoop项目类型。

第5章为读者作一个“Hadoop速成”的培训,用尽量简洁的方式介绍如何搭建Hadoop系统、系统大致的运行方式和典型配置,如何进行Hadoop编程以及如何在云上运行Hadoop系统。在最后,为读者列出了和Hadoop相关的各种信息,便于读者自己去学习。

第6章的重点是介绍Hadoop在数据仓库上的应用。首先介绍大数据时代分布式数据系统的要求和特点,之后剖析传统数据仓库存在的瓶颈,然后解释为什么Hadoop是解决数据仓库瓶颈的方法,最后介绍基于Hadoop和Spark的数据仓库解决方案,而类似的方案在后面几章的案例中也会用到的。

第7章介绍了3种适合Hadoop系统的应用场景:存储密集型、网络密集型和运算密集型。最后比较开源的和商用的平台,向读者解释应该选用怎样的商用Hadoop系统。

第8~11章是本书的重点,主要介绍Hadoop在各种场景下的应用。第8章介绍的是Hadoop在互联网公司中的应用。我们在腾讯、金山、百度和迅雷的兄弟们为我们提供了他们使用Hadoop的实际案例,帮助读者了解这些大的互联网公司都是怎样应用Hadoop系统的。第9~11章介绍了Hadoop在不同行业上的应用。例如在第9章中的运营商案例中,Hadoop大数据技术高效的内存计算可以做到30亿次的扫描/秒/核,1250万次的聚合/秒/核,150万次的插入/秒,250TB/小时的数据处理,1亿表单/小时的处理速度,大大提高了运营商海量数据的处理分析效率。

第12章介绍实时系统是如何通过Hadoop来实现的。随着数据量的不断提升,无论对于企业还是个人来说,其不断积累的冷数据会越来越多。在第12章的12.2节,会为大家介绍如何对冷数据做专门的处理。

第13章主要讨论Hadoop平台上风险点的预估和应对机制,分析平台可能存在的风险点以及对应的处理机制。只要在有数据的系统中,就会有被侵犯和越权访问的可能性存在,在第13章中我们还会给大家介绍Hadoop系统安全和隐私性以及如何处理的问题。

第14章介绍Hadoop的未来发展方向以及大数据和区块链技术可能有的关系。

附录A中列举的是在本书中出现过的中英文专业词汇。

本书在写作过程中参考了一些中英文文献和网站,这些文献和参考网站会在附录B和附录C中列举出来。

附录D中列举的是在HDFS上用户可能用到的大部分命令行。

附录E中列举了本书中出现过的所有案例,有兴趣的同学可以按图索骥,进行细读。

最后,我们来看相对于不同的读者哪些章节是最有价值的。下面我们列出不同的读者最需要关注的章节,这并不意味着其他的章节是不需要关注的,而是相对来说这些章节需要更仔细地阅读。