
前言
近几年,大数据技术迅猛发展,在各个领域都得到广泛关注,推动了新一轮技术发展浪潮。大数据技术的发展,已被列为国家重大发展战略。到2016年为止,大数据已经是第三次出现在政府工作报告中;而在过去的几年里,无论是聚焦大数据发展的《促进大数据发展行动纲要》,还是“十三五”规划中都深刻体现了政府对大数据产业和应用发展的重视。
大数据发展一般会经历扩散期、加速期、转型期、成熟期。目前国内发展还处于第二和第三阶段,数据与传统产业的融合还处于起步阶段,各行业对大数据分析和挖掘的应用还不理想。但随着市场竞争的加剧,各行业对大数据技术研究的热情越来越高,未来几年,各领域的数据分析都将大规模应用。本书在注重大数据时代应用环境前提下,考虑大数据处理分析需求多样、复杂的基本情况,从初学者角度出发,以轻量级理论、丰富的实例介绍大数据常用计算模式的各种系统和工具,注重大数据分析实践操作。本书主要特点如下。
1.内容丰富多样,对比学习
考虑到当前大数据发展处于起步并逐步赶超先进的阶段,其应用领域丰富广泛,本书除了介绍典型开源大数据处理框架——Apache Hadoop框架之外,还介绍了批处理计算Spark、流式计算及典型工具(Storm、Apex、Flink)和事件流及典型工具(Druid)等,让读者了解不同类型工具系统的特点,并配以丰富简单易上手的实例,让读者能够切实体会和掌握各种类型工具的特点和应用。
2.轻量级理论,重在培养动手实践能力
为了让读者能够快速掌握技能并保证理论能够适应实践要求,本书本着轻量级理论原则,给出丰富的实例、详实的实验操作步骤,使读者易于配置的实验环境,让读者能够快速上手,在做中学。
3.有效结合实际应用
除了各章节给出的配套实例外,本书在最后还给出电商领域的大数据分析综合实例,以实际行业应用案例说明大数据处理和计算工具的使用,并进一步阐述大数据行业应用的重大意义。
为了方便读者学习和使用,本书中所有实验操作和实验代码均经过实际运行测试,可直接使用运行。
本书由陈志德、曾燕清、李翔宇共同完成,陈志德统编全稿。由于编者水平有限,书中不妥或错误之处在所难免,不当之处敬请读者批评指正,并将反馈意见发送到邮箱feedbackbigdata@163.com,以便我们及时修正完善。
编者
2016年10月