
前言 Preface
为什么要写这本书?
数据科学正在重塑全球经济,重新定义我们的生活和工作方式,并从多个方面为产业赋能。例如,在新冠肺炎疫情时期,数据为卫生部门的紧急响应提供了有力支撑;在公司运营方面,数据辅助管理层制定决策;在个人生活方面,上网浏览记录有助于网站为用户推荐更感兴趣的内容。因此,数据分析师和数据科学家在各行各业中都备受青睐。
对于初学者来说,Python是一门非常优秀的编程语言。首先,与其他编程语言相比,Python的语法相对简单,代码的可读性很高,这极大地方便了初学者的学习。其次,Python在数据分析、探索性计算、数据可视化等领域中拥有非常成熟的库和活跃的社区支持,这使得Python成为数据处理领域的重要解决方案。最后,Python的强大不仅体现在数据分析与挖掘方面,而且在网络爬虫、Web开发等领域中也有着广泛的应用,它更是人工智能时代的通用语言。对于公司来说,使用Python作为主要的开发语言,有助于简化技术栈,提高开发效率,甚至有可能使用一门语言就完成全部业务。
笔者阅读过很多数据分析与挖掘的书籍,发现这些书籍中往往以概念和理论为主,其中大量统计学和机器学习的公式对于初学者来说可能较难理解和应用,而具体的实例和实现细节则相对较少。对于初学者来说,仅学习理论是远远不够的,只有将理论与实践相结合,才能更深入地理解和掌握数据分析与挖掘。此外,笔者自从多年前接触Python语言后,便对其产生了浓厚的兴趣,并坚信Python在未来将拥有广阔的发展前景。基于以上原因,笔者希望能够将自己对数据科学的理解、对Python语言的热爱及实践经验,分享给广大读者,从而吸引和帮助更多的人加入数据科学这个行业中来。
本书特色
本书结合了笔者多年的一线教学经验和项目实战积累,从实例出发讲解每个知识点,让读者清楚每个知识点的真实使用场景。本书的最大特点就是代码实践,旨在使读者对数据分析与挖掘原理的理解达到代码级。全书共12章,从Python语言的基础讲起,再到数据分析方法和数据挖掘建模,最后讲解了两个典型的数据分析与挖掘案例。本书有两条线,一条明线是数据分析与挖掘实战,还有一条暗线是Python语言从入门到项目实战。书中最后两个实战应用案例各自都是一个完整的Python项目,读者不仅能学习数据分析与挖掘,还能掌握Python语言的应用能力。本书具有以下特点。
(1)理论与实践相结合,每个理论都有对应的实践代码讲解,读者参考源代码,完成实例,就可以看到实例效果。
(2)除最后两章外,每章末尾都配备相应的思考与练习题,方便读者阅读后巩固知识点,举一反三,学以致用,加深印象。
(3)本书最后两章的完整案例,可以帮助读者针对特定场景快速设计数据分析与挖掘的方案。
(4)本书偏向零基础的读者,会简单操作计算机就可以阅读本书。如果读者具备编程基础和统计学知识,阅读起来会更加顺畅。
写给读者的学习建议
在阅读本书时,如果读者是零基础,建议从第1篇Python语言基础开始学起。如果读者已经具备Python语言基础,可以跳过第1篇,直接从第2篇开始学习。因为数据分析与挖掘的很多原理都需要通过Python语言加以实践,如果不懂Python语言的语法,学习起来就会困难重重,很多时候还要去关注语法本身,这样就达不到事半功倍的效果。
Python数据分析与挖掘的难度并不高,读者只要掌握了数据分析工具的使用、常用的数据挖掘模型、一定的数据处理与分析思想,就可以得到自己想要的结果。但是,内容看懂了与实验做出来不是一回事,只有实实在在地操作,才能了解所有的细节,并深刻体会数据模型的原理及容易被忽略的一些细节问题。因此,强烈建议读者在阅读的同时,动手实践相关实验,这样才能把知识掌握牢固,打下良好的基础。
配套资源下载说明
本书为读者提供了以下配套学习资源。
(1)书中所有案例的源代码,方便读者参考学习、优化修改和分析使用。
(2)重点知识及相关案例的视频教程。读者可以在看书学习的同时,参考对应的视频教程,学习效果更佳。
(3)PPT课件,方便教师教学使用。
备注:以上资源已上传到百度网盘,供读者下载。请读者关注封底“博雅读书社”微信公众号,输入图书77页的资源下载码,获取下载地址及密码。
本书是由具有丰富的教学实践经验与项目工作经验的熊熙老师、张雪莲老师策划并统筹编写。参与书稿内容创作的还有马腾、蒋雯静、徐孟奇、王靖、韩昆等研究生,在此对他们的辛勤付出表示感谢。另外,由于计算机技术发展较快及作者水平有限,书中疏漏和不足之处在所难免,恳请广大读者指正。