
看透你的沃尔玛和赌场
美国一家大型连锁商店里,有一个专柜卖婴幼儿产品。因为客户信息很多,商店发现当人怀孕之后,行为会出现改变。更多的孕妇们会选择没有香味的洗发水,在选择营养品口味上也和怀孕前不同。因此商店便根据客人购买行为的变化,预测其是否可能怀孕了,然后给潜在怀孕的客人寄去婴幼儿产品传单。一天,一个父亲很愤怒地找上门说:“我女儿才上高中,你们现在天天给她寄婴儿尿布、奶粉的广告是什么意思?鼓励未婚怀孕吗?”商场很快回应:“对不起,我们搞错了!”过了一个星期,这个爸爸又回来,说:“是我搞错了,我女儿已经向我坦白,她真怀孕了。”
大数据中还有一个沃尔玛的经典故事。这家超市最早发现了尿布和啤酒的销售是呈相关性的。一开始谁也不明白这两个东西怎么会相关?后来研究发现当家里有了小孩之后,买尿布的任务往往是让新爸爸去干的。虽然爸爸对孩子的出生贡献并不大,但他自己觉得很有成就感,所以买完尿布后会顺便买一瓶啤酒犒劳自己。因此沃尔玛索性把啤酒和尿布放在一块儿,啤酒的销售量一下子增加了。当然这个经典案例也很有争议,因为统计学里最基本的概念就是,相关关系不一定是因果关系。所以即使是很强的相关关系也很有可能是伪相关。但在大数据时代,起码原来找不到的相关关系现在能找到了。
为什么会有这些相关关系?怎么凭借这些相关性就能知道行为规律?一个更深层的概念是人和人是一样的。当把一个人特列出来,可能很有个性,但当人口样本数量足够大时,就会发现其实每个人都一样。
以赌场为例,去赌博前要在门口先办一张电子磁卡,而在办这张电子磁卡时,相关的个人信息已经被赌场获取了。例如第几次来、年龄、种族、职业等。赌场就此建立了一个庞大的数据库,拿到数据后开始建立相关性。
人跟人的确是不一样的,有的人到赌场输了10元就心疼得睡不着觉;有的人输几百万也面不改色心不跳。但不管是谁,都会有一个痛苦点。例如王大锤去赌场玩,在踏入赌场、办理好电子磁卡的那一刻起,他的个人信息已经被赌场收集:中国人、男性、35岁、土豪。赌场会通过数据库预测此人的痛苦点将在1万美元左右。当他输到9800美元的时候,奇迹发生了,旁边会突然出现一位年轻貌美的公关经理说:“先生玩得很累了吧?我们的赌场刚请了一位名厨,会做世界一流的法国大餐。恭喜您,您被选为幸运顾客。要不要带着家人去享受法国大餐,休息一下呢?”为什么服务这么好?因为他的最后一分钱已经被赌场榨完了。
为什么赌场能够精准预测客人的行为?因为不管是谁,当在同一家赌场里输的钱超过了痛苦点之后,都会觉得这个地方太背,从此再也不想踏进这家赌场一步,因为已经输得恶心了。从赌场的角度来看,最好的选择自然是当赌客快要达到痛苦点时,让他们住手。
这彻底颠覆了原来经济学教科书告诉我们的道理:因为消费者之间的信息会互相沟通,所以没有办法进行价格歧视。比如一件衣服到底卖什么价格,不同人的心里底价是不一样的,特别喜欢这件衣服的人花1万元也愿意买,不太喜欢的人5000元可能是他的价格极限。但是商家必须要统一标价,不能来一个顾客换一个价钱。尽管有很多消费者是懒惰的,不管多少钱,过去拿了就走。但是也有精明的消费者,为了买一把椅子,会把城市里的所有家私商城都跑个遍,最后找到最便宜的那把椅子。一个懒惰的消费者只要跟着精明的消费者,就能知道哪里的价格最低。商家是没有办法进行价格歧视的,更没有办法垄断信息。不过在互联网大数据的时代,一切都不一样了,商家很可能可以针对每一个顾客进行精准的价格歧视。
现在我们的很多行为都比较粗放,航空公司给我们办理里程卡,根据飞行公里数来累计里程,但其实不同顾客所飞行的不同里程对航空公司的利润贡献是不一样的。所以有一天某位顾客可能会收到一封信:“恭喜先生,您已经被我们选为幸运顾客,我们提前给您升级为白金卡顾客。”这说明这个顾客对航空公司的贡献已经够多了。有一天银行说:“恭喜您,您的额度又被提高了”,说明钱已经花得太多。
正因为在大数据规律面前,每个人的行为都跟别人一样,没有本质变化,所以商家会比消费者更了解消费者的行为。也许你正在想,工作了一年很辛苦,要不要去哪里度假?打开邮箱,航空公司、旅行社早已发来邮件。或者在你还不自觉的情况下,体检公司、医院已经开始建议你赶紧去做检查,并指出你可能患有的疾病。商家比你更了解你,以及你这样的人在特定情况下会出现的可能变化。
再谈一个循证医学的案例,我们熟悉的美剧《豪斯医生》,它的医学顾问就是有名的循证医学顾问。最初的医学按照病理学寻找治疗办法,但其实很多时候是瞎蒙。比如在某一发展中国家,医生因为不满报酬罢工,但人口死亡率却明显下降了,说明大部分人可能是被误诊治死的。循证医学很早就存在,但一直属于异端。在细菌还没有被发现的时候,就有一个医生发现,当主刀医生从停尸房回来后直接做接生手术,产妇的死亡率会明显提高。因此他建议医生从停尸房回来后用肥皂洗手。虽然这在我们现在看来是很正常的事情,但当时的人们没有细菌的概念,洗手跟死亡率有什么关系呢?那位医生就说:“我也不知道有什么关系,反正听我的就行,洗完手之后再去接生。”为什么现在医院里又开始推动循证医学,因为虽然不知道是怎么回事,但按照大数据显示的关系去做,效果很明显。
某种程度上,这是模仿航空公司的经验。飞行员的违规操作会引起事故从而导致整架飞机坠毁,因此一切都要严格按照操作手册行事。但医生在过去并没有执行得这么严格。按照循证医学,治病的第一件事不是去研究病理,而应该用过去的数据研究,在相同情况下该如何治疗。这导致专家和普通人之间的信息优势没有了。原来人们相信医生,因为医生知道的多,但现在每个人都可以到谷歌上查一下,了解自己得了什么病。其实在上文的品酒案例里头,我们就可以看到,品酒专家和门外汉之间的信息优势也没有了。谷歌有一个机器翻译团队,最开始翻译之后的文字根本看不懂,但是现在60%的内容都是通顺的。谷歌机器翻译团队里头有一个笑话,说只要团队里每离开一个语言学家,翻译质量就会提高。越是专家越搞不明白,但打破常规让数据说话,得到真理的速度反而更快。