大数据:挖掘数据背后的真相
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

·为了发现问题,丰田要反复问五回为什么

数据科学家平时都做些什么工作呢?

坦率地说,就是“分析”。分析大体上分为三种类型,即发现问题型、解决问题型和验证结果型。可能大家难以形象地理解,我们可以先思考一下“恋人之间稍稍闹点小别扭”这个问题。

为什么要闹别扭呢?肯定会有关系不融洽的理由。为找出那个理由进行的分析就是“发现问题”

例如,统计一下两人从开始交往到现在的网上聊天情况,可以发现,最近一段时间,两人的网聊次数及发送信息的文字数都出现了减少的倾向。除此之外,还可以把只靠感觉的“别扭”略微有些牵强地用已读信息(指已经收到并读取但未回复的信息,下同)的件数及回复信息的时间来表示,或许会发现,这种“别扭”无须介意,只是耍点小脾气而已。

关键是要把发生的变化用数字表现出来。“这难道不是理由吗”,确立这种假设的分析就是“发现问题”。

既然问题已经明确了,思考该如何解决的分析就是“解决问题”。

有一种不用考虑解决问题的方法,那就是跟他(或她)分手。但如果想解决问题,就要分析解决方法。例如,设定一个刚开始交往时每天网聊的次数或发送的文字数的平均值,并将其作为今后努力的目标。考虑到已读信息件数减少、立即答复增加,可以将其目标分别设定为每天100次、超过2,000个字。据此,再进行下一步分析,思考如何达成该目标。

关键是要把解决问题的方法用数字表现出来。“这样做应该能很好地解决了”,做出这一假设的分析就是“解决问题”。

将解决方法转移到落实上来,虽说多少要花费些时间,但必然会得出结果。看看得出的结果与预想的结果差别有多大,对此进行回顾的分析就是“验证结果”

例如,通过一定的挽救措施,两人网上聊天的次数及短信的字数增加了多少、已读信息件数减少了多少、回复信息的时间缩短了多少,对这些予以确认之后,再搞清楚与当初预想的差异。出现差异并非坏事,思考为什么会出现差异才具有意义。在关系进展不顺利的时候,思考是解决方法错了,还是问题本身错了。

整个过程的关键是把预想的结果和得出的结果用数字表现出来。“是什么搞错了”,对这些进行验证的分析就是“验证结果”。

顺便提一下,刚才介绍的“只有叔叔阿姨在用Facebook”的分析,就是对“本来什么才是问题”进行探索的分析,这类分析就属于发现问题型。

图1-5 分析的三种类型

在这三种类型中,最重要的分析是哪一种呢?是“发现问题”。如果把应该解决的问题搞错了,随后展开的分析就没有任何意义了。因此,最初的发现问题非常重要。

我经常接受有关数据分析方面的咨询,其中的大多数都属于已经发现了问题却不知道该如何解决的。但实际上,仍有很多情况是问题本身搞错了。真正亟须解决的问题很难马上就找出来,所以,丰田汽车公司严格要求员工要“反复问五回为什么”!