更新时间:2020-11-21 11:52:10
封面
版权页
内容提要
前言
第1章 大数据概述
1.1 大数据的发展
1.2 大数据的概念及特征
1.3 大数据的产生及数据类型
1.4 大数据计算模式和系统
1.5 大数据的主要技术层面和技术内容
1.6 大数据的典型应用
1.7 本章小结
第2章 数据获取
2.1 Scrapy环境搭建
2.2 爬虫项目创建
2.3 采集目标数据项定义
2.4 爬虫核心实现
2.5 数据存储
2.6 爬虫运行
2.7 本章小结
第3章 Hadoop基础
3.1 Hadoop概述
3.2 Hadoop原理
3.3 Hadoop的安装与配置
3.4 Hadoop生态系统简介
3.5 本章小结
第4章HDFS基本应用
4.1 实战命令行接口
4.2 实战Java接口
4.3 数据流
4.4 本章小结
第5章 MapReduce应用开发
5.1 配置Hadoop MapReduce开发环境
5.2 编写和运行第一个MapReduce程序前的准备
5.3 MapReduce应用案例
5.4 本章小结
第6章 分布式数据库HBase
6.1 HBase简介
6.2 HBase接口
6.3 安装HBase集群
6.4 HBase Shell
6.5 HBase API
6.6 HBase综合实例
6.7 本章小结
第7章 数据仓库工具Hive
7.1 Hive简介
7.2 Hive接口实战
7.3 Hive复杂语句实战
7.4 Hive综合实例
7.5 本章小结
第8章 开源集群计算环境Spark
8.1 Spark简介
8.2 Spark接口实战
8.3 Spark编程的RDD
8.4 Spark实战案例——统计1000万人口的平均年龄
8.5 Spark MLlib实战——聚类实战
8.6 本章小结
第9章 流实时处理系统Storm
9.1 Storm概述
9.2 Storm安装与配置
9.3 本章小结
第10章 企业级、大数据流处理Apex
10.1 Apache Apex简介
10.2 Apache Apex开发环境配置
10.3 运行TopN Words应用
10.4 本章小结
第11章 事件流OLAP之Druid
11.1 Druid简介
11.2 Druid应用场所
11.3 Druid集群
11.4 Druid单机环境
11.5 本章小结
第12章 事件数据流引擎Flink
12.1 Flink概述
12.2 Flink基本架构
12.3 单机安装Flink
12.4 Flink运行第一个例子
12.5 Flink集群部署
12.6 本章小结
第13章 分布式文件搜索Elasticsearch
13.1 Elasticsearch简介
13.2 Elasticsearch单节点安装
13.3 插件Elasticsearch-head安装
13.4 Elasticsearch的基本操作
13.5 综合实战
13.6 本章小结
第14章 实例电商数据分析
14.1 背景与挖掘目标
14.2 分析方法与过程
14.3 本章小结
参考文献