
统计学应用的极致
从根本上来讲,大数据方法论的历史非常漫长。最早人们从自然科学、医学中慢慢知道统计学,明白统计学能提供非常重要的规律。比如说在公共卫生领域,研究传染病很难,因为发病快,病人马上就死了,很难像对待癌症那样,去研究它的病理,那么最后是怎么发现传染方式的呢?以霍乱为例,当时的科学家最后其实就是通过两张地图——霍乱病人的分布图和伦敦水井的分布图,发现规律认为霍乱的出现可能跟饮水有关。
又过了一段时间,物理学发展到量子力学,出现了海森堡测不准定理[1]。社会科学更是如此,从本质上讲,一切的社会现象都是统计现象,并不像实验室里的试验那样有明确的因果关系。所以从本质上来看,经济学供求定理等也是统计规律。统计学如此重要,可我们认知能力中最差的恰恰正是统计思维。
2002年诺贝尔经济学奖得主心理学家丹尼尔·卡尼曼曾指出,我们头脑中有两套思维,一套思维是本能的,比如我们的语言能力、模仿能力、第六感等都是与生俱来的。美国麻省理工学院的语言学家乔姆斯基也说过,小孩子为什么到3岁就能学会说话,而要到10多岁才能学会微积分呢?语言学得这么快,不是小孩“学”会的,而是婴儿在出生时大脑中就预装了一套系统。此外察言观色的能力也不用特意学或教,所以这是人类的第一套思维系统,也是能够让我们快速反应的系统。另外一套思维系统,是当我们做数学推理,尤其是统计分析时需要用到的有意识的推理系统。这套思维系统运转得很慢,因为所占“内存”太大。从这一角度来看,我们平时犯错误往往是因为仅使用本能思维,决策太快,而疏于使用第二套系统,进而导致统计判断方面出现问题。
大数据是一个新现象吗?当然是。但它的方法论的历史已经非常悠久了。现在大家突然热议大数据,主要是因为一方面数据越来越多,未来可能会出现瞬间计算的新时代;另一方面,能够被数据化的东西也越来越多,过去只有数字,而会计制度出来后,经济活动也开始可以通过记账被数据化。
文字、图像也可以被数字化,我们用iPad或Kindle阅读电子书,就是文字和图像数据化的例证。再讲一个故事,美国曾有一桩著名的医院丑闻:一名医生工作时偷懒,在印度找了两个在美国上过医学院的哥们,下班之后把拍的片子传到印度,然后自己回家睡觉。印度的两个人则替他把报告写好,等美国医生早上醒来,报告已从印度传了过来。为什么这名美国医生能够作弊成功呢?就是因为图像传输已完全实现数字化,而且越来越高清。
方位能实现数字化。如果你不知道自己在哪儿,没关系,打开手机上的地图或导航应用,它就会帮你定位,还能发给他人。社会关系也可以越来越数字化,你的朋友圈、脸谱主页、微信群都能够被当成数据进行分析。
现在能够变成数据的东西越来越多,计算和处理数据的能力也越来越强,一旦把统计学和现在大规模的数据融合在一起,将会颠覆很多我们原来的思维。