Main 简单统计学:如何轻松识破一本正经的胡说八道(耶鲁大学统计学公开课帮你拆穿日常生活中的数字谎言。)

简单统计学:如何轻松识破一本正经的胡说八道(耶鲁大学统计学公开课帮你拆穿日常生活中的数字谎言。)

0 / 0
How much do you like this book?
What’s the quality of the file?
Download the book for quality assessment
What’s the quality of the downloaded files?
Year:
2019
Language:
chinese
ISBN 13:
9787210098416
ISBN:
4a86db58-94e1-49fd-8ddb-4b93eb703551
File:
MOBI , 3.72 MB
Download (mobi, 3.72 MB)

You may be interested in Powered by Rec2Me

 

Most frequently terms

 
0 comments
 

You can write a book review and share your experiences. Other readers will always be interested in your opinion of the books you've read. Whether you've loved the book or not, if you give your honest and detailed thoughts then people will find new books that are right for them.
1

行走,一堂哲学课

سال:
2015
زبان:
chinese
فائل:
MOBI , 876 KB
0 / 0
2

敢于不同:商业巨头白手起家的秘诀

سال:
2019
زبان:
chinese
فائل:
EPUB, 506 KB
0 / 0
简单统计学

[美]加里·史密斯 著

刘清山 译





版权信息



书名:简单统计学

作者:[美]加里·史密斯

译者:刘清山

书号:ISBN 978-7-210-09841-6

版权:后浪出版咨询(北京)有限责任公司





目录





序言

第 1 章 模式、模式、模式

混杂效应

选择性报告与谎报

易受欺骗的本性

无论文,不生存

统计显著性膜拜

第 2 章 不再神奇的超级畅销书

去最好的学校

投票人数越多越好?

一醉方休

放下遥控器

请原谅我的直白

只有弱者留下来

被损坏的飞机

畅销书的秘密

第 3 章 被误传的谋杀之都

马萨诸塞州谋杀之都

请在我家后院开一座采石场

第 4 章 新的经济学上帝

政府债务临界点

相关性等同于因果关系?

堕胎会减少犯罪吗?

是我的错

第 5 章 扬基队的门票真的划算吗?

我的天哪

虚惊一场

让他们吃蛋糕吧

有弹性的数轴

将恶作剧翻倍

学生谎言

扬基队的门票很划算

图像的制作艺术

第 6 章 美国有多少非裔职业运动员?

蒙提·霍尔问题

一个名叫佛罗里达的女孩儿

条件概率的混淆

假阳性问题

罕见病问题

达特茅斯三文鱼研究

第 7 章 辛普森悖论

某人的悖论

我要再来一杯咖啡

第 8 章 状态火热的雷·阿伦

小数定律

一项篮球研究

小沃尔特·雷·威廉姆斯

投掷马蹄铁

保龄球

第 9 章 胜者的诅咒

均值回归

西克里斯特的愚蠢

古老的谬误何曾消亡?

道指落榜生

冠军窒息

寻找学院院长和灵魂伴侣

第 10 章 如何转变运气?

第 11 章 德克萨斯神枪手

癌症聚集恐慌

第 12 章 终极拖延

死亡凹陷和尖峰

经过进一步研究

午夜的月饼

漫长的告别

第 13 章 黑色星期一

火箭科学

巴斯克维尔猎犬

五行噩运

花押决定论

第 14 章 点球成金

棒球迷信

如果你给我一个 D,我就会死(die)

糟糕的出生月份

名人堂的死亡之吻

第 15 章 特异功能真的存在吗?

超感知觉

霍迪尼的挑战

一个家庭对超自然现象的着迷

第 16 章 彩票是一种智商税

目之所及

我们都将为 IBM 工作

股票是一种不错的投资

跑赢大盘(或者说为什么我喜爱包装工队)

傻瓜四股

反向头肩

如何(不)中彩票

不会破裂的泡沫

南海泡沫

伯克希尔泡沫

真实股价

第 17 章 超级投资者

宽客

收敛交易

我只看数据

在推土机面前捡硬币

闪电崩盘

第 18 章 增长的极限

穷途末路

第 19 章 何时相信,何时怀疑

被模式诱惑

具有误导性的数据

变形的图像

缺乏思考的计算

寻找混杂因素

手气好

均值回归

平均定律

德克萨斯神枪手

当心经过修剪的数据

缺乏理论的数据仅仅是数据而已

缺乏数据的理论仅仅是理论而已

美好的出生日

出版后记





序言





我们生活在大数据时代。高性能计算机和全球网络的强大组合正在得到人们的赞美甚至推崇。专家不断告诉我们,他们发现了一种新的能力,可以对海量数据进行筛查并发现真相,这将为政府、商业、金融、医疗、法律以及我们的日常生活带来一场革命。我们可以做出更明智的决策,因为强大的计算机可以对数据进行分析,发现重要的结论。

也许事实的确如此,也许未必。有时,这些无所不在的数据和伟大光明正确的计算机会得出一些非常怪异的结论。例如,有人一本正经地宣称:





凌乱的房间会强化人们的种族主义倾向。





还未出生的小鸡胚胎会对计算机的随机事件生成器产生影响。





当政府负债相对国内生产总值的比率超过 90% 时,国家几乎一定会陷入衰退。





在过去 20 年美国犯罪率下降的原因中,合法堕胎的比例高达 50%。





如果每天饮用两杯咖啡,患上胰腺癌的风险将极度放大。





最成功的公司倾向于变得不那么成功,最不成功的公司倾向于变得更加成功,因此用不了多久,所有公司都会沦为普通的公司。





出现在《体育画报》和《麦登橄榄球》封面上的运动员会受到诅咒,他们可能会陷入平庸,或者受到伤病困扰。





生活在输电线附近的儿童具有更大的患癌风险。





人类有能力将死亡推迟到重大仪式过后。





亚裔美国人更容易在每月四号突发心脏病。





如果一个人的姓名首字母缩写拥有积极的含义(比如 ACE),那么他可以多活三到五年。





平均来说,教名(第一个名字)以字母 D 开头的棒球运动员的寿命比教名以字母 E 到 Z 开头的运动员短两年。





临终病人可以被几千英里以外传送过来的积极心理能量治愈。





当 NFC 冠军球队赢得超级碗(美国超级碗总决赛在国家联合会(NFC)和美国联合会(AFL)分别比赛产生; 的冠军之间举行——译者注)时,股市几乎一定会上涨。





如果你购买股息率最高、每股价格第二低的道琼斯股票,你就可以跑赢大盘。





这些说法显然是错误的。不过,许多与此类似的说法每天都会出现在报纸和杂志上。在如今的信息时代,我们用没完没了而又毫无意义的数据指导我们的思想和行动。不难看出为什么我们会反复得出错误的推论,制定糟糕的决策。即使能够得到比较充足的信息,我们也不会永远注意到数据的偏差性和无关性,或者科学研究的缺陷和误导性。我们倾向于相信计算机从不犯错,认为不管我们把什么样的垃圾扔进去,计算机都会吐出绝对真理。这种想法不仅存在于外行人的日常生活中,也存在于专业人员严肃认真的研究工作中。在流行刊物、电视、互联网、竞选活动、学术期刊、商业会议、法庭,政府听证会,此类现象屡见不鲜。

几十年前,数据非常稀少、计算机还没有出现时,研究人员需要努力收集优质数据并进行审慎的思考,然后花费几个小时甚至几天的时间从事艰苦的计算工作。现在,面对丰富的数据,研究人员通常不会花费太多的时间对优质数据和垃圾进行区分,或者对合理分析和垃圾科学进行区分。更糟糕的是,我们常常不假思索地认为,我们对大量数据的处理永远不会出错。我们匆匆忙忙地根据这些机器发出的梦呓制定决策——比如在衰退过程中增加税收,将我们一生的积蓄交给一些说得天花乱坠的财务分析师,根据最新的管理理念制定商业决策,用医疗骗术危害我们的健康——更糟糕的是,我们还会放弃心爱的咖啡。

罗纳德·科斯(Ronald Coase)曾经嘲讽道:“如果你对数据拷打足够长的时间,它一定会招供。”《简单统计学》一书考察了几十个扭曲的结论。只需片刻的思考,你就会发现这些结论的问题。有时,无耻之徒故意用这些说法来误导我们。有时,天真快乐的研究人员并没有意识到他们所制造的恶作剧。我写这本书的目的是帮助我们远离错误——包括外部错误和自己造成的错误。你将学到一些简单的指导准则,用于识别其他人或者你自己说出的不靠谱的观点。其他人用数据欺骗我们,我们也经常用数据欺骗自己。





第 1 章

模式、模式、模式





在我所生活的南加州,青少年对于足球的热情很高。这是一项经济而有趣的运动,各种身高和体型的男生和女生都可以参与其中。起初,我对足球一无所知。我只知道在每个周末,城市里的公园和操场上都会有许多身穿鲜艳队服的孩子追着足球跑来跑去,他们的家长则会站在一旁为他们欢呼。当我的儿子长到合适的年龄时,我们也成了这些家长中的一员。

2010 年世界杯时,我的儿子在南加州一家顶级足球俱乐部踢球。我是这家俱乐部的经理,也是足球的狂热爱好者,因此我们共同观看了我们能够看到的每一场世界杯比赛。决赛是在荷兰和西班牙之间进行的。这是两支巨星云集的队伍,但是它们所在的国家常常无法取得很好的成绩,这使它们的支持者非常失望。哪个国家最终能够赢得世界杯?我喜爱荷兰队,他们赢得了这届世界杯之前的 6 场比赛,进了 12 个球,只丢了 5 个球,而且淘汰了强大的巴西和乌拉圭。接着,我听说了章鱼保罗(Paul)的故事。人们将装有食物、贴有国旗的塑料盒子放在保罗面前,让它进行选择。通过这种方式,保罗正确预测出了 7 场世界杯比赛的获胜者。在决赛前,预言家保罗选择了西班牙,因此全世界似乎都认为西班牙将会成为胜利者。

到底发生了什么事情?一只黏糊糊的、缺乏智商的无脊椎动物怎么可能比我更加了解足球呢?我感到好笑,等待着无所不知的保罗在全世界面前丢脸。我失算了。荷兰队没有表现出应有的创造性和才华。在一场粗暴而蹩脚的比赛中,裁判亮出了 14 张黄牌——其中 9 张给了肮脏的荷兰人。凭借终场前 4 分钟的进球,西班牙队取得了胜利。每日海量书籍,大师课精彩分享微.信:dedao555

生活在水箱里的章鱼怎么可能预见到这种事情呢?保罗看过足球比赛吗?它有大脑吗?

实际上,章鱼是最聪明的无脊椎动物。不过,就像矬子里拔出来的将军一样,这并不能说明任何问题。尽管如此,保罗仍然进行了 8 次世界杯预测,而且无一失手。此外,保罗还在 2008 年欧洲足球锦标赛期间进行了 6 次预测,成功了 4 次。加上 2010 年世界杯,保罗一共进行了 14 次预测,成功了 12 次。在许多人看来,这足以从统计上证明保罗的超自然能力。不过,这些数据真的足够多吗?

如果进行 14 次公平的抛硬币实验,得到 12 次或者 12 次以上正面的可能性只有不到 1%。同样的道理,如果保罗仅仅是一个没有特殊运气的猜测者,每次正确预测的可能性为 50%,那么它多次预测成功的概率只有不到 1%,这个概率非常低,足以被视作具有“统计显著性”。由于保罗多次预测成功的可能性如此之低,因此我们可以合理地排除运气的成分。保罗用一次又一次的成功证明了它不仅仅是一个幸运的猜测者。它的确是“具有超能力的章鱼保罗”!

不过,这件事似乎有些蹊跷。章鱼真的有可能预测未来吗?保罗的表现可以引出统计研究领域的一些常见问题。保罗不是超能力者(真是令人惊喜),而是一个应当引以为戒的反面教材。当你下次听到某种荒诞的说法时,你应当保持警惕。





混杂效应




首先,让我们看一看保罗是如何进行预测的。在喂食的时候,人们会把两只正面粘有球队国旗的透明塑料盒子摆放在保罗面前。盒子里面放着相同的美味食物,比如贻贝或者牡蛎。保罗第一个打开的盒子就是它所预测的胜利者。

章鱼并不十分了解足球,但它们拥有出色的视力和良好的记忆力。有一次,新英格兰水族馆的一只章鱼对一名志愿者产生了反感。每当它看到这名志愿者时,它都会向她喷射海水。后来,这名志愿者离开了水族馆,上了一所大学。当她几个月以后回来时,章鱼仍然记得她,并且立即用海水淋湿了她的衣服。西雅图一家水族馆做了一项实验,一名志愿者为章鱼喂食,另一名穿着同样衣服的志愿者用木棍挑逗章鱼。一个星期以后,大多数章鱼都能将两个人区分开。当它们看到“好人”时,它们会向他靠近;当它们看到“坏人”时,它们会离开(有时还会向他喷射许多海水)。

“具有超能力的章鱼保罗”生活在德国的一家水族馆里。除了西班牙和荷兰的世界杯决赛,保罗只预测了德国队参加的比赛。在德国参加的 13 场比赛中,保罗 11 次选择了德国——而德国赢下了其中的 9 场比赛。保罗之所以选择德国,是因为它对德国的对手进行了详细的分析,还是因为它喜欢德国国旗?保罗几乎一定是色盲,不过实验表明,章鱼能够识别明暗度,而且喜欢横向形状。德国国旗有由三块鲜艳的水平条纹组成,塞尔维亚和西班牙的国旗也是如此,而保罗只选择过这三个国家。实际上,西班牙和德国的国旗非常相似,这也许可以解释为什么保罗在西班牙和德国之间的两次比赛中选了一次西班牙,并在世界杯决赛中选择了西班牙而不是荷兰。保罗只有一次没有选择德国或西班牙国旗,那是塞尔维亚和德国之间的一场比赛。

国旗显然是一个混杂因素,因为保罗选择的并不是最佳足球队,而是它最喜欢的国旗。说到底,“无所不知的保罗”只是一只缺乏智商的章鱼而已。




图 1.1 保罗最喜欢的国旗





选择性报告与谎报




对于保罗的成功,另一种解释是,许多人多次尝试过这种愚蠢的宠物把戏,用宠物来预测体育、彩票和股票领域的获胜者。

在 1000 个抛硬币的人之中,一定会有一些人连续抛出 10 次正面。同样的道理,在这些尝试宠物把戏的人之中,一定会有一些人取得成功。你觉得谁会得到报道呢?是选中获胜者的章鱼,还是无法做出成功预测的鸵鸟?

几年前,《达拉斯晨报》的一位体育专栏作家度过了极为倒霉的一个星期,他在选择国家橄榄球联盟(NFL)比赛的获胜球队时猜对了 1 次,猜错了 12 次,还有一场比赛是平局。他写道:“理论上说,如果让达拉斯动物园里的一只狒狒观看 14 场 NFL 比赛的赛程,让它为每场比赛选择一支球队,它可以至少选出 7 支获胜球队。”第二个星期,拉达斯动物园里的大猩猩“坎达大帝”(Kanda the Great)通过选择训练员手里的纸条进行了预测。结果,坎达猜对了 9 次,猜错了 4 次,击败了《达拉斯晨报》的所有 6 位体育专栏作家。媒体像发现食物的饿狼一样争相报道这个故事。不过,如果坎达的表现没有这么好,比如猜对 6 次,猜错 7 次,它还会被人报道吗?

明尼苏达州苹果谷市明尼苏达动物园的官员也不甘示弱,他们表示,一只叫做明迪(Mindy)的海豚成功预测出了 NFL 比赛的结果。他们制作了一些树脂玻璃片,每个玻璃片上写有不同球队的名称。他们将每场比赛对应的两块树脂玻璃片扔到明迪的游泳池里,被明迪交还给训练员的那块玻璃片被视作它的“预测”。训练员表示,明迪在 53 场比赛中猜对了 32 场。根据这种说法,明迪的成功率为 60%,这足以帮助人们借此赢得橄榄球比赛的赌博而获利。

有多少鸟儿、蜜蜂和野兽曾经尝试预测 NFL 比赛、并且由于预测失败而没有得到报道呢?我们并不知道这一点,而这正是问题的关键。如果数百只宠物曾经被迫进行毫无意义的预测,而且我们只知道其中得到报道的成功宠物,没有考虑到数百只没有得到报道的失败宠物,我们就会产生错误的想法。

这个问题不限于橄榄球领域。明尼阿波利斯的一名股票经纪人曾经吹嘘说,当他选择股票时,他会把《华尔街日报》铺在地板上,让它的金毛寻回犬把右前爪放在报纸上,然后选择它的第一个指甲碰到的股票。他认为这种说法可以吸引投资者的关注,这一事实说明他本人可能是有问题的——他的顾客可能也有问题。

另一个因素是,为了出风头,人们可能会捏造数据,以吸引公众的注意。明尼阿波利斯那个股票经纪人和他的狗每天早上都会得到公正的监督吗?过去,桥牌曾经是美国最流行的扑克游戏,当时有许多人向当地报纸表示,他们抽到了同一花色的十三张牌。一位喜欢数学的桥牌选手通过估计发现,出现这种情况的数量太过离谱。考虑到抽到这种牌的可能性,当时进行过的总局数远远不足以产生如此众多的“同花色局”。值得注意的是,报纸报道的这种相同花色通常是黑桃。显然,为了让自己的名字出现在报纸上,人们对自己的经历进行了润色。

在章鱼保罗获得全世界的关注以后,新加坡一个之前默默无闻的算命先生表示,他的助手、长尾小鹦鹉马尼(Mani)正确预测出了世界杯四分之一决赛的所有四支获胜球队。于是,马尼获得了全世界的关注。接着,它对后面的比赛进行了预测,认为在半决赛中乌拉圭将击败荷兰,西班牙将击败德国,在决赛中,西班牙将击败乌拉圭。在荷兰战胜乌拉圭以后,马尼改变了它对决赛的预测,选择了荷兰,这个结果当然又错了。不过,前来拜访这位算命先生的顾客从每天 10 个人增加到了每小时 10 个人——面对这个结果,你可能会产生疑问:这位主人的动机真的仅仅是娱乐吗?他最初提供的马尼对四分之一决赛的预测结果是真的吗?♣

保罗和马尼本应默默无闻,处于无人知晓的状态。为什么它们会声名鹊起、受到足球爱好者的认真对待,甚至受到他们的赞美和诅咒?真正有问题的不是它们,而是我们自己。





易受欺骗的本性




一个多世纪以前,夏洛克·福尔摩斯(Sherlock Holmes)向他饱受折磨的朋友华生(Watson)恳求道:“数据!数据!数据!我不能在没有黏土的情况下制造砖块。”今天,福尔摩斯的愿望已经得到了满足。强大的计算机可以对海量数据进行筛选。问题不再是我们没有足够的数据,而是我们眼前的数据对我们产生了误导。这不完全是我们的错。我们可以将责任归咎于我们的祖先。

某些性状的演化原理比较简单。如果生物的某些可遗传特点能够帮助它们生存和繁衍,那么同那些在其他方面相似,但是没有这些特点的个体相比,拥有这些特点的个体更容易将它们传给未来的后代。经过一代又一代的传递,这些可遗传的特点将成为群体的主流。

桦尺蠖著名的演化历程是一个简单而直观的例子。这种飞蛾大部分时间生活在树上,它们通常是浅色的,这种颜色可以帮助它们躲避鸟儿的捕食。1848 年,英国发现了第一只深色桦尺蠖。到了 1895 年,曼彻斯特 98% 的桦尺蠖都是深色的。到了 20 世纪 50 年代,情况再次出现了逆转。目前。深色飞蛾已经很少见了,而且可能很快就会灭绝。每日海量书籍,大师课精彩分享微.信:dedao555

进化论的解释是,深色飞蛾的出现与工业革命导致的污染相重合。煤灰和烟雾导致树木变黑,这使深色飞蛾获得了优势,因为它们可以更好地伪装自己,躲过捕食者的视线。由于深色飞蛾存活下来并繁衍后代的可能性得到了提高,因此它们开始成为基因池的统治者。后来,英国的空气清洁法律扭转了这一局面,因为浅色飞蛾可以更好地在没有污染的树上伪装自己。它们的生存优势使它们再次焕发了生机。

自然选择的其他例子更加微妙。例如,许多研究发现,男性和女性更喜欢具有对称面孔和身体的人。这不仅仅是一种文化因素——它适用于不同的社会,适用于婴儿,甚至适用于其他动物。在一项实验中,研究人员剪掉了一些雄性家燕的尾羽,使它们失去了对称性。其他雄性家燕则保留了对称的尾羽。当他们在这个基因池中放开雌性家燕时,这些雌性家燕选择了带有对称羽毛的雄性家燕。这种对于对称性的偏爱并不仅仅是一种肤浅的行为。缺乏对称性的潜在配偶显然存在某种基因缺陷,可能影响它的力量、健康和生育力。拥有对称性偏好的个体最终将成为基因池的统治者,而缺乏这种偏好的个体拥有强壮、健康和可育后代的可能性要低一些。

进化也是许多人对保罗和马尼信以为真的原因,尽管你可能不相信这一点。我们对于对称性的内在偏好,可以很好地说明我们的人类祖先是如何通过识别各种模式在这个残酷的世界上生存和繁衍的。乌云常常是降雨的前奏。灌木丛中的声音可能是捕食者发出的。毛发质量是繁殖力的象征。一些远古祖先可以通过模式识别更好地寻找食物和水源,发现危险,对可育伴侣产生吸引力,他们将这种能力传给了未来的后代。那些不太擅长模式识别,因而不太容易生存和繁衍的个体将基因传下来的可能性要小一些。通过无数代自然选择,我们形成了寻找模式并对其做出解释的内在倾向——乌云会带来降雨,捕食者会发出声音,繁殖力强的成年人拥有漂亮的毛发。

遗憾的是,这种适用于远古祖先的模式识别技能并不能很好地适应我们的现代生活,因为我们面对的数据非常复杂,不是很容易解释。我们解释眼前事物的内在愿望导致了两种认知错误。首先,我们很容易被模式以及解释模式的理论所引诱。其次,我们紧盯着支持这种理论的数据,忽视与之相矛盾的证据。我们相信这些故事,因为它们与我们观察到的模式相符。一旦我们接受了这些故事,我们就很难放弃它们了。

当你在双骰赌桌上不断摇出七点时,你认为自己将继续保持连胜势头,因为你希望如此。当你不断投出两点时,你认为自己转运的时候到了,因为你希望如此。我们并没有认真地考虑过,骰子既不会记忆过去,也不会关心未来。它们是没有生命的;它们所具有的意义完全是我们这些满怀希望的人类赋予它们的。如果连胜势头持续,或者连败势头终止,我们就会更加相信自己想象出来的理论是正确的。如果这种情况没有出现,我们就会制造一些借口,以便坚持自己荒谬的信仰。

当运动员穿上没有洗过的幸运袜子,当投资者购买热门股票,当人们投入大笔资金购买不良资产、相信它们一定会触底反弹时,他们的行为和上面如出一辙。我们渴望使不确定的世界变得更加确定,渴望控制我们无法控制的事物,渴望预测那些无法预测的现象。如果我们穿着这种袜子取得了良好的表现,那么这一定是袜子的功劳。如果其他人购买这只股票赚了钱,那么我们购买这只股票也可以赚钱。如果我们运气不好,那么我们一定会转运,不是吗?秩序比混乱更加令人舒适。

由于这些认知错误,我们很容易受到各种统计性骗局的蒙蔽。当人们用毫无意义的模式来证明政府政策的后果、营销计划的不凡影响、投资策略的成功或者保健品的效果时,我们很容易认为这些模式是有意义的。由于我们在内心深处希望理解这个世界,因此我们形成了这种声名狼藉的、很难摆脱的弱点。





无论文,不生存




即使是受教育程度很高、应当具有冷静头脑的科学家也很容易受到模式的诱惑。在残酷的学术研究领域,聪明好胜的科学家一直在追求名誉和资助,以维持他们的事业。这种必要的支持是由他们在同行评议期刊中发表的成果决定的。“无论文,不生存”是大学生活中的一个残酷现实。

有时,在巨大的压力面前,研究人员甚至会撒谎和作弊,以实现个人的职业发展。为了生存,他们需要得到能够发表的结果,但他们的实验结果并不符合预期,这使他们感到沮丧;此外,他们还会担心其他人抢先发表类似的结果。因此,这些研究人员有时会对实验数据做手脚。毕竟,如果你相信你的理论是正确的,那么编造出证明这种理论的数据又有什么关系呢?

英国医生安德鲁·韦克菲尔德(Andrew Wakefield)制造的疫苗恐慌就是这种欺骗的一个严重案例。1998 年,韦克菲尔德和其他人在久负盛名的英国医学期刊《柳叶刀》上发表了一篇论文,称 12 名正常儿童在接种麻疹、腮腺炎和风疹(MMR)的疫苗以后患上了自闭症。实际上,在发表这篇论文之前,韦克菲尔德已经在一场新闻发布会上公布了他的研究成果,并且呼吁停止接种麻腮风三联疫苗。

许多家长看到了这方面的新闻报道,对于之前的例行程序产生了疑虑。他们的孩子患上自闭症的可能性似乎比感染麻腮风的可能性更加令人担忧;毕竟,后者在英国几乎已经绝迹了。一百多万名家长拒绝让他们的孩子接种麻腮风疫苗。

虽然我住在美国,但我和我的妻子也读到了这些新闻故事,并且产生了忧虑情绪。我们在 1998 年、2000 年和 2003 年生下了 3 个儿子,并在 2006 年生下了 1 个女儿,因此我们需要决定是否为他们接种疫苗。我们进行了调研,同一些医生进行了交谈。所有医生都对韦克菲尔德的研究持怀疑态度。他们指出,没有任何证据表明自闭症正在变得更加流行;我们之所以听到更多的自闭症案例,是因为自闭症的定义近年来得到了拓宽,而且医生和家长对于自闭症症状的意识有所提高。另一方面,麻疹、腮腺炎和风疹是极具传染性的疾病,它们之所以在许多国家得到了有效的清除,恰恰是因为这些国家推行了常规免疫接种计划。如果我们的孩子不接种疫苗,不仅他们会面临危险,其他孩子也会陷入危险之中。此外,这项研究样本很小(只有 12 个孩子),而且作者似乎急于将其公之于众,这些都是很大的疑点。最终,我们决定为我们的孩子接种麻腮风疫苗。

不是只有我们遇到的医生产生了怀疑。一些人试图复制韦克菲尔德的结果,但他们并没有发现自闭症和麻腮风疫苗之间的任何关系。更糟糕的是,伦敦《星期日泰晤士报》记者布赖恩·迪尔(Brian Deer)在 2004 年进行了一项调查,在韦克菲尔德的研究中发现了一些可疑的反常之处。韦克菲尔德的研究似乎得到了一些律师的资助,这些律师希望接到针对医生和制药公司的利润丰厚的人身伤害诉讼。更加令人吃惊的是,韦克菲尔德本人显然正在计划推出一种替代性疫苗,他认为这种疫苗是安全的。韦克菲尔德的结论是否受到了这些利益冲突的影响?

韦克菲尔德声称自己并没有做出不道德的行为,但迪尔并没有停止挖掘。他发现了一些更加可恶的事情:韦克菲尔德论文中的数据与英国国民健康服务系统的官方医疗记录不符。在韦克菲尔德声称患上倒退型自闭症的 9 名儿童中,只有一个人被明确诊断出了这种疾病,还有 3 个人根本没有患病。韦克菲尔德声称 12 个孩子在接种麻腮风疫苗之前“是正常的”,但是其中 5 个人拥有发育问题的历史记录。

韦克菲尔德这篇论文的大多数共同作者很快撇清了自己与文章的关系。《柳叶刀》2010 年撤销了这篇论文,并表示,“论文中的说法显然是完全错误的,这是一件毫无疑问的事情。”《英国医学期刊》称韦克菲尔德的研究是“精心策划的骗局”,英国医学总会禁止韦克菲尔德在英国行医。遗憾的是,这个错误还是造成了一些损失。到目前为止,已经有数百名没有接种的儿童死于麻疹、腮腺炎和风疹,还有数千名儿童处于危险之中。2011 年,迪尔获得了英国新闻奖,因为他对韦克菲尔德的调查“很好地纠正了一个错误”。我们只能祈祷韦克菲尔德的真面目能够像他的虚假警报一样得到媒体的大量报道,希望家长能够再次允许他们的孩子接种疫苗。

疫苗是一种注射到人体中的病原体,因此人们对疫苗的担忧存在一定的合理性,尤其是与孩子的安全有关的疫苗。不过,那些不合理的结论呢?人为制造的数据能够使我们相信那些明显具有荒谬性的观点吗?

迪德里克·斯塔佩尔(Diederik Stapel)是一位极为多产、成功的荷兰社会心理学家,以设计全面细致的调查方案著称,这些方案通常以研究生或同事为调查对象。奇怪的是,作为一名高级研究员,他竟然亲自开展调查,而且很可能是在只有他能够进入的学校里进行的。另一件奇怪的事情是,斯塔佩尔常常知道同事的研究兴趣,并且声称他已经收集到了同事需要的数据;斯塔佩尔可以提供这些数据,条件是他需要被列为研究报告的共同作者。

斯塔佩尔是几百篇论文的作者或共同作者,他还在 2009 年获得了实验社会心理学会的职业轨迹奖。2010 年,他当上了蒂尔堡社会和行为科学学院的院长。斯塔佩尔的许多论文具有争议性,但是至少看上去比较合理。不过,另一些论文已经超出了看似合理的界限。在一篇论文中,斯塔佩尔声称,凌乱的房间会加剧人们的种族主义倾向。在另一篇论文中,斯塔佩尔认为吃肉——甚至仅仅是考虑吃肉——会使人变得更加自私。(是的,我没有开玩笑!)

斯塔佩尔的一些研究生对于这些稀奇古怪的理论产生了怀疑,他们想要查看实际数据,以了解这些数据是如何支持他的理论的。令人失望的是,斯塔佩尔拒绝向他们展示调查数据。他们把这件事报告给了心理系主任。很快,斯塔佩尔承认,他的许多调查结果要么进行了篡改,要么完全是编造的。他解释说:“我想以很快的速度做出许多成果。”

2011 年,斯塔佩尔被停职,随后被蒂尔堡大学解雇。2013 年,斯塔佩尔放弃了自己的博士学位,并且撤销了 50 多篇含有虚假数据的论文。他还同意从事 120 小时的社区服务,并且放弃与 18 个月薪水相当的利益。作为交换,荷兰检察官同意不对他滥用公共研究基金的行为提起刑事指控,因为这些政府拨款主要用于支付研究生的工资,而这些研究生并没有犯下任何错误。与此同时,我们在吃肉和弄乱房间时也可以减少几分愧疚感。

伪造数据的另一个例子涉及超感知觉(ESP)测试。早期超感知觉实验使用心理学家卡尔·齐纳公爵(Duke Karl Zener)设计的一副纸牌。这副纸牌共有 25 张牌,包括 5 种符号:圆圈、十字、波浪线、方块和星星。在洗过牌以后,“发送者”依次查看每张纸牌,“接收者”需要猜测纸牌上的符号。




图 1.2 五种齐纳纸牌



一些怀疑者指出,接收者可以偷看纸牌,或者从发送者的行为中寻找细微的线索,比如快速扫视、微笑或者挑眉,从而获得较高的分数。沃尔特·J.利维(Walter J. Levy)是超感知觉先驱 J. B.莱因(J. B. Rhine)创立的通灵学研究所主任。为了平息上述批评,利维用计算机和非人类对象做了一些实验。在一项实验中,他把包含小鸡胚胎的鸡蛋放在孵化器里,并用一个电灯为孵化器加热,电灯的开关由计算机随机事件生成器控制。随机事件生成器开灯的可能性是 50%。不过,利维表示,小鸡胚胎能够对计算机产生影响,使电灯打开的时间超过一半。

利维的一些同事对这些“具有心灵感应能力的小鸡”产生了怀疑(我倒希望这是真的),而且对于利维在实验期间对设备的过度关注感到困惑。他们对计算机进行了改动,使之能够将结果秘密记录下来。然后,他们躲在一个隐秘的地方,对实验进行了观察。他们的担忧得到了证实。秘密记录表明,电灯打开的时间只占总时间的一半。而且,他们看到利维对设备进行了干预,将电灯打开的时间提高到了 50% 以上。面对同事的质问,利维承认了自己的行为,并且辞去了职务。后来,他解释说,为了发表论文,他面临着很大的压力。





统计显著性膜拜




不过,我们最感兴趣的例子与虚假数据无关。这些例子涉及的做法更加微妙,更加常见。许多人对统计显著性非常关心。这是一种奇怪的宗教,它受到了研究人员近乎盲目地崇拜。假设我们想要通过检验了解,每天服用阿司匹林能否降低心脏病发作的风险。理想情况下,我们会对健康个体的两个随机样本进行比较。一个样本每天服用阿司匹林,另一个样本每天服用安慰剂——与阿司匹林具有类似外观、感觉和味道的惰性物质。这种检验应当是双盲检验:受试者和医生并不知道谁在哪个小组里。否则,病人报告“正确结果”(以及医生听到“正确结果”)的可能性也许会高于真实水平。

当研究结束时,统计学家就会介入进来。这里的统计问题是,在完全随机的情况下,两个小组的差异达到实际观测值的概率有多大。在大多数研究人员看来,小于 0.05 的概率具有“统计显著性”。如果数据中的模式仅凭运气出现的可能性不到 1/20,这种模式就会被视作具有统计说服力。章鱼保罗的数据具有统计显著性,因为它仅凭运气得到这种结果的可能性不到 1%。

在一项涉及 2.2 万名男性医生的阿司匹林研究的前五年,安慰剂组出现了 18 个致死性心脏病发作案例,阿司匹林组则只出现了 5 个同样的案例。在完全随机的情况下,这种巨大的差异发生的概率不到 1%。至于非致死性心脏病发作,安慰剂组有 171 个案例,阿司匹林组有 99 个案例。这种巨大的差异仅凭运气出现的可能性约为十万分之一。这些结果具有统计显著性,因此美国心脏学会目前建议心脏病发病风险较高的患者每天服用阿司匹林。

另一方面,没有发现统计显著性的结果有时比发现统计显著性的结果更加重要。1887 年,阿尔伯特·迈克耳孙(Albert Michelson)和爱德华·莫利(Edward Morley)测量了与地球运动方向平行和垂直的光速,希望找到二者之间的差异,以证明当时一种流行的理论。不过,他们并没有发现任何具有统计显著性的差异。他们的研究为爱因斯坦狭义相对论的提出和接纳奠定了基础。他们这项“失败”的研究为物理学革命做出了贡献。

再说一个更能说明问题的例子。我们将在后面的章节中讨论关节镜手术,这是一种针对膝骨关节炎的常规程序,每年会进行几十万次。最近的研究发现,这种手术带来的利益没有统计显著性,这一结论每年可以节省数百万美元资金,而且可以免去手术带来的不便和并发症风险。同许多发现罕见疾病疗法统计显著性的研究相比,这项没有在常见手术中发现统计显著性的研究显然具有更大的价值。

不过,一项针对心理学期刊的研究发现,在所有得到发表的检验结果中,97% 的结果具有统计显著性。当然,在研究人员进行的所有检验中,具有统计显著性的检验比例不会达到 97%。之所以出现上述结果,是因为编辑通常认为不具有统计显著性的检验没有发表的价值。

这个问题不限于学术领域。当商业或政府研究人员试图证明某个策略、计划或政策的价值时,他们往往觉得自己必须展示出具有统计显著性的经验性证据。不管是在哪里,研究人员都在追逐统计显著性,而这并不是一个难以寻觅的目标。在高速计算机和大量数据的帮助下,寻找统计显著性是一件很容易的事情。如果你观察得足够仔细,你甚至可以在随机数据表格中发现统计显著性。

寻找统计显著性的一种方法是对多种理论进行检验,然后只宣布具有统计显著性的结果。即使只考虑毫无价值的理论,也会有 1/20 的检验表现出统计显著性。在海量数据和高速计算机的帮助下,在生成“可发表结果”的巨大压力下,无数毫无价值的理论得到了检验。成千上万的研究人员对无数理论进行检验,将那些具有统计显著性的结果记录下来,并将其他结果扔到一边。对于社会公众来说,我们只能看到这些统计工作的冰山一角。我们只能看到具有统计显著性的结果,看不到不具有统计显著性的结果。如果我们知道这些得到公布的检验背后隐藏着数百项没有得到公布的检验,而且知道对毫无价值的理论进行的检验中平均有 1/20 的检验能够得到统计显著性,我们一定会抱着更加怀疑的态度看待这些得到公布的结果。

比如说,制药公司会对数千种实验性药物进行检验。即使在设计良好的无偏研究中,我们也会发现数百种毫无价值的药物表现出具有统计显著性的效果——而这又可以带来巨大的利润。制药商很喜欢对更多的新药进行检验。不过,他们并不喜欢对得到批准的疗法进行重新检验,以查看最初的结果是否仅仅是一种巧合,是否属于 1/20 碰巧具有统计显著性的毫无价值的疗法。

当得到批准的疗法接受重新检验时,结果常常令人失望,这是一件意料之中的事情。约翰·约安尼季斯(John Ioannidis)在希腊约阿尼纳大学、马萨诸塞州塔夫斯大学医学院以及加利福尼亚州斯坦福大学医学院任职。(想象一下,他需要飞行多少公里,放弃多少睡眠时间!)在整个职业生涯中,约安尼季斯一直在警告医生和公众不要轻易接受没有以令人信服的方式得到重复的医学检验结果。在一项研究中,他考察了从 1990 年到 2003 年的 45 项备受尊重的医学研究,这些研究自称证明了对于各种疾病的有效疗法。其中,只有 34 项实验被人用规模更大的样本进行了检验,以复制初始检验结果。在这 34 项研究中,只有 20 项研究证实了初始结果(59%)。在 7 种疗法中,重新检验得到的效果比最初的预测小得多;另外 7 种疗法的重新检验没有产生任何效果。总体而言,在 45 项研究中,只有 20 项研究得到了复制,而且这还是最受人尊重的研究!就在约安尼季斯发表这些令人不安的结果的同一年,他还写了另一篇文章,文章的标题很不讨好,叫做“为什么大多数得到发表的研究结果都是错误的”。

另一种获得统计显著性的方法是利用数据发现理论。统计检验的假设是,研究人员首先提出一种理论,然后收集数据,以检验这种理论,然后汇报结果——这种结果可能具有统计显著性,也可能不具有显著性。许多人颠倒了这种程序,他们仔细研究数据,以发现某种模式,然后编造出符合这种模式的理论。在数据中搜寻模式的过程令人愉快,而且激动人心,就像玩数独或者解决神秘谋杀案一样。这些人从各个角度考察数据,将数据分解成基于性别、年龄和种族的类别,丢掉妨碍模式的数据,寻找任何有趣的现象。当他们发现某种模式时,他们开始思考其中的原因。

当研究人员钻研数据、寻找模式时,他们会进行数百次显性或隐性检验。你可以站在他们的立场上进行考虑。首先,你将数据作为一个整体进行考察。然后,你分别查看男性和女性的数据。接着,你将儿童和成年人的数据区分开;然后将儿童、青少年和成年人的数据区分开;然后将儿童、青少年、成年人和老年人的数据区分开。接着,你尝试不同的年龄界限。你将老年人的范围设置为 65 岁以上。当这种做法失败时,你将这个数字调整为 55 岁、60 岁、70 岁或者 75 岁。最终,你总会发现某种模式。即使研究人员不对数据的每一种排列进行正式的统计检验,他们也可以进行非正式检验,即寻找看上去具有统计显著性的数据排列。如果我们知道研究人员在公布结果之前以一百种不同的方式对数据进行了考察,我们一定会抱着怀疑的态度看待这些结果。

这些做法——选择性报告和数据搜刮——被称为数据挖掘。通过数据挖掘发现的统计显著性只能体现出研究人员的耐心。在独立检验证实或拒绝结论之前,我们无法判断某种数据挖掘马拉松到底证明了某种实用理论的有效性还是研究人员坚定的毅力。不过,通常情况下,这类检验并不会被人验证。毕竟,你无法通过证实他人的研究而成为明星;所以,为什么不把时间用于发现新理论呢?因此,通过数据挖掘得出的理论看上去很安全,既不会受到检验,也不会受到质疑。

许多重要的科学理论的确是人们为了解释他们所发现的模式而提出来的。例如,在 19 世纪,大多数生物学家认为,亲代性状的平均值决定了后代性状。例如,孩子的身高是由父母身高的平均值决定的,同时也可能受到环境的影响。

奥地利修士格雷戈尔·孟德尔(Gregor Mendel)在 8 年时间里对几万株豌豆进行了细致的研究。他对一些不同性状进行了考察,认为当时的混合理论是说不通的。当他对绿色种子的植株和黄色种子的植株进行异花授粉时,后代的种子要么是绿色的,要么是黄色的,没有黄绿色的种子。当他对圆粒种子植株和皱粒种子植株进行异花授粉时,后代的种子要么是圆粒的,要么是皱粒的,没有处于两者之间的种子。为了解释这些实验结果,孟德尔提出了“孟德尔遗传定律”,这个优雅的概率模型解释了性状的代际传递以及偶尔发生的隔代传递。他构造出了一种与数据相符的理论,为现代遗传学奠定了基础。

不过,数据挖掘还导致了数千种胡诌理论。我们如何区分正确理论与胡诌之间的区别?有两种有效的良方:常识和新数据。如果某种理论听起来很可笑,那么在看到压倒性的证据之前,我们绝不应该轻信这种理论;即使看到了压倒性的证据,我们也应当保持怀疑的态度。不同寻常的说法需要不同寻常的证据。遗憾的是,在这个年代,常识是一种稀缺品,许多诚实的研究人员用严肃的语气提出了一些愚蠢的理论。你知道吗?有人认为入选名人堂会使棒球选手的寿命预期减少五年。还有人认为一些中国人由于出生在“火年”而死于心脏病。本书稍后会对这些例子进行介绍♣ 。

第二种良方是新数据。当你通过搜刮数据编造出了某种理论时,用同样的数据对这种理论进行检验是一种不明智的做法。既然你编造这种理论是为了迎合数据,那么这些数据当然会支持这种理论!应当使用没有被数据挖掘所污染的新数据对理论进行检验。

当你用新数据检验通过数据挖掘形成的理论时,得到的结果常常令人失望,这是意料之中的事情。用启发某种理论的数据对这种理论进行检验的做法显然具有误导性。如果某种理论对新数据的匹配程度不像原始数据那么好,这显然并不奇怪。

举个例子。我刚刚用左手小指弹开了桌子上的一枚 25 美分硬币,硬币落地时背面朝上。看到这一结果,我得出了一种理论:如果我用左手小指将桌子上的 25 美分硬币弹开,那么它在落地时总会背面朝上。毕竟,我的数据可以支持这种理论。这种理论显然愚蠢而毫无用处,但我们在后面几章将要详细考察的一些理论也是如此,这些理论虽然不那么容易被看穿,但它们与我的弹硬币理论具有相同的推导方式。如果死于癌症的孩子生活在输电线附近,那么输电线的电磁场(EMF)一定是导致癌症的元凶,不是吗?如果某种理论看上去比较合理,而你又不知道这种理论是通过观察数据得到的——比如观察地板上的硬币——那么你很容易不假思索地认为与数据相符的理论一定是正确的。毕竟,这种理论能够得到数据的证明!这是你应当抗拒的几种冲动之一。

幸运的是,我们能够抗拒这种冲动。我们能够克服我们的远古祖先在生存和繁衍的斗争中形成的偏好。我们可以摆脱数据的欺骗。


×如何轻松识破一本正经地胡说八道



我们通常倾向于寻找模式并且相信我们所观察到的模式是有意义的。如果棒球选手在穿上新袜子以后在比赛中表现出色,那么他不应该换袜子。如果股票市场在 NFC 球队赢得超级碗以后表现出色,那么你应该首先观看比赛,然后再去投资。如果篮球选手连续四次投篮命中,这说明他的状态很好,很有可能在下次投篮时命中。如果心脏病患者在 1600 公里以外的人发送治疗意念以后恢复正常,这说明远距离治疗是有效的。如果一项顾客满意度调查发现家里拥有三间浴室的人比家里拥有两间浴室的人更加热情,这说明前者才是企业的目标市场。如果一个国家在联邦债务很高时发生了衰退,这说明政府债务导致了衰退。在这本书中,我们将对几十个类似的例子进行反驳。



不要天真地认为模式就是证据。我们需要一个符合逻辑、具有说服力的解释,并且需要用新数据对这种解释进行检验。





第 2 章

不再神奇的超级畅销书





1791 年 12 月 26 日,查尔斯·巴贝奇(Charles Babbage)出生于伦敦。那是一个科技和社会流动性发生巨大变革的时代。巴贝奇对数学非常感兴趣,但他对数学和天文学表格中的人为计算错误感到非常沮丧。这些错误不仅仅是智力上的失败,它们还会带来严重的后果,包括致使船长将轮船驶入暗礁区或者其他危险地带。

当时,在高贵的英国人看来,关注法国数学家是一种不爱国的行为。不过,巴贝奇还是这样做了。他发现法国政府利用一种自动人工系统制作了一些数学表格。在这个系统中,高级数学家确定填充表格所需要的公式,初级数学家将这些公式简化成加减运算。例如,在计算 4×8 时,我们可以将其简化成加法:8+8+8+8=32。最底层的加减运算是由专业人员完成的,这些专业人员被称为“计算员”。

巴贝奇意识到,从理论上说,人们可以设计出以 100% 准确率进行加减运算的机器,从而消除人为错误。巴贝奇还知道两个德国人(威廉·席卡德和戈特弗里德·威廉·莱布尼茨)以及伟大的法国数学家布莱士·帕斯卡(Blaise Pascal)设计的计算机。帕斯卡的父亲是法国收税员,因此他在十几岁的时候设计了一台机械计算机,叫做“阿里特马提克”(又叫“帕斯卡利娜”),以便为他的父亲提供帮助。“阿里特马提克”是一个盒子,上面带有一些表盘,它们与盒子里隐藏的轮子相连。每个表盘上标有 0 到 9 十个数字。当个位表盘从 9 移动到 0 时,十位表盘就会向上移动一个刻度;当十位表盘从 9 移动到 0 时,百位表盘就会向上移动一个刻度;依此类推。“阿里特马提克”可以进行加减运算,但是表盘需要手工转动。

巴贝奇将两种思想(将复杂公式转化成简单计算以及简单计算的自动化)融合在一起,设计出了一台机械计算机,可以完美地执行所有计算任务。作为巴贝奇的第一项设计,这台由铜和铁制造、由蒸汽驱动的庞然大物高达 2.4 米,重达 15 吨,包含 2.5 万个不同部件,被称为“差分机”。这台“差分机”可以进行多达 20 个数位的运算,而且可以将结果打印成格式化表格。在对这项设计进行了 10 年的小修小补以后,巴贝奇开始规划一台更加强大的计算机,叫做“分析机”。这项设计包含 5 万多个部件,使用穿孔卡片输入指令和数据,可以存储多达一千个 50 位数字。“分析机”有一个高达 4.5 米、直径为 1.8 米的圆柱形“工厂”,可以执行一个 7.5 米长的“存储器”发送的指令。这个“存储器”相当于现代计算机的内存,“工厂”相当于现代 CPU。

巴贝奇的核心原则非常合理,与现代计算机的工作原理类似。不过,考虑到当时的技术水平,他所提出的机械设计极为庞大,而且他需要不断面对资金限制以及所需部件短缺的困扰。尽管如此,他的宏大视野和对细节的关注仍然使人感到震撼,因此他的大脑(发明了计算机的大脑)一直被保存到了今天,并被展示在英国皇家外科医师学院里。

1991 年,在巴贝奇诞辰 200 周年之际,伦敦科学博物馆根据巴贝奇最初的计划制作了几台计算机,包括第二代差分机。这台机器和他预想的一样精确,可以进行多达 31 个数位的计算。2011 年,有人开展了一个名为“第 28 号计划”的私人非营利项目,用于制造巴贝奇的分析机,希望用巴贝奇领先时代一百年的超前思维激发我们的灵感。项目预计将在 2021 年巴贝奇逝世 150 周年之前完工。

由于巴贝奇的思想比他的时代领先了一个世纪,因此许多人对他的想法感到困惑。他在自传中回忆道:


有两次,(国会成员)问我:“请问,巴贝奇先生,如果你把错误的数字输入到机器里,机器会输出正确答案吗?”……我不太理解引发这种问题的混乱思想。




即使是在计算机已经普及的今天,许多具有良好出发点的人仍然坚持着这种错误观念:由于计算机不会犯下运算错误,因此它们是绝对可靠的。哈佛校友杂志 2014 年的一篇文章声称:“只要能够对足够多的信息进行量化,现代统计方法一定能够得出比一个人或者一小部分人更加正确的结论。”我们可以认为这种说法由于过于拐弯抹角而失去了意义,也可以认为这种说法是完全错误的。

事实上,如果我们让计算机去做一些愚蠢的事情,它也会忠实地遵从我们的命令。有一句俗语叫做“输入垃圾,输出垃圾”。也就是说,不管计算机多么强大,输出的价值仅仅取决于输入的质量。这种说法的另一个版本叫做“输入垃圾,输出福音”,它意味着人们往往过度相信计算机生成的结果,不会对输入进行审慎的思考。如果计算机的计算以不良数据为基础,那么它不会输出福音,只会输出垃圾。

遗憾的是,许许多多的人盲目崇拜基于误导性数据的计算。下面是几个例子。





去最好的学校




《纽约时报》华盛顿分部主任戴维·莱昂哈特(David Leonhardt)关于经济主题的作品获得了包括普利策奖在内的多个奖项。2009 年,他为《纽约时报》撰写了一篇专栏文章,对《穿越终点线》一书作了介绍。此书是由两位前大学校长威廉·鲍文(William Bowen)和迈克尔·麦克弗森(Michael McPherson)以及一位博士研究生共同撰写的,其中后一位作者负责的很可能是分析 68 所大学 20 万学生数据的繁重工作。这本书的核心观点是,美国在“说服学生上大学”方面表现不错,但在“培养学生从大学毕业”方面则表现得不太理想。半数大学生无法毕业。

他们发现的第一个“罪魁祸首”是匹配不足:一些学生本来可以去毕业率较高的大学,但他们却选择了毕业率较低的大学。鲍文教授告诉莱昂哈特:“许多来自贫困家庭的学生本来有更好的选择,但他们并没有就读适合自己的学校,这使我感到极为震惊。”总体而言,在学分积点高于 3.5、大学入学考试成绩高于 1200 分的低收入准大学生中,大约有一半的人并没有选择更好的学校。每日海量书籍,大师课精彩分享微.信:dedao555

例如,90% 的密歇根大学学生可以在 6 年内毕业。在东密歇根大学,这个比例只有 40%。许多成绩足以进入密歇根大学的学生选择了东密歇根大学。要想从经济上解决这种匹配不足的问题,我们可以提高东密歇根大学的学费,或者降低密歇根大学的学费,以激励学生选择毕业率更高的学校。

实际情况并没有这么简单。这些数据都是垃圾,结论也不是什么福音。如果让这些所谓的“匹配不足”的学生就读密歇根大学,他们的毕业率可能会变得更低。研究人员认为这些学生是随机分配到密歇根大学或东密歇根大学的,就像医生被随机分配阿司匹林或安慰剂一样。不过,大学决策并不是科学实验。

当数据涉及人们的选择时(比如当人们选择上大学、结婚或者要孩子时),就会出现“自选择偏差”。在这种情况下,对于做出不同选择的人进行比较的做法是靠不住的。例如,我们常常听人说,大学毕业生的工资高于高中毕业生,似乎人们观察到的工资差异可以衡量上大学的财务回报。不过,大学毕业生之所以工资比较高,部分原因在于他们比不上大学的人更聪明,更有抱负。实际上,做出不同选择的人本身可能就是不同的。

类似地,上述“匹配不足”的观点也存在自选择偏差。学生不仅会选择上大学,他们还会选择上哪所大学。许多学生之所以选择东密歇根大学,而不是密歇根大学,也许是因为他们觉得自己很难从密歇根大学毕业。这可能是正确的选择。毕竟,他们比我们更了解自己的情况。虽然东密歇根大学的总体毕业率较低,但我们无法从数据中判断出是否每个能够上密歇根大学但选择了东密歇根大学的学生都能毕业。

在我们通过观察人们的行为而收集的“观测性数据”中,自选择偏差非常普遍。人们可以选择自己的行为,因此他们的选择也许反映了自身的特点。要想避免这种自选择偏差,可以进行对照实验,即将人们随机分配到不同的小组里,然后告诉他们应该怎样做。不过,研究人员很少有权力仅仅由于自己需要实验数据而强迫我们去做自己不想做的事情,这对我们所有人来说都是一件幸运的事情。

要想进行有效的“匹配不足”研究,我们可以将那些同时被密歇根大学和东密歇根大学录取的学生随机分配到某一所大学里。然后,我们可以对两个小组的毕业率进行比较。实际上,在 20 世纪 60 年代,有人曾在密歇根州伊普西兰提市做过类似的事情,尽管这听起来有些不可思议。当时,在一项实验性学前教育计划中,人们根据抛硬币的结果决定是否允许家庭社会经济地位不高的黑人孩子进入学前班。这项研究发现,上过学前班的学生高中毕业和找到工作的可能性较高,被逮捕的可能性较低。这项实验证明了学前教育的价值,尽管它对输掉硬币游戏的孩子来说似乎有些残酷。

巧合的是,东密歇根大学就在伊普西兰提市。更加巧合的是,2012 年,东密歇根大学错误地向 7700 名学生(学生总数的三分之一)发送了电子邮件,称他们遭到了学校的开除。校长为这个“不可原谅的错误”道了歉。如果这些学生真的被开除,学校的毕业率将会变得更低。

莱昂哈特《纽约时报》专栏的一位读者发表了一条评论,认为教育质量比毕业率更加重要。(否则,我们可以抛弃论文、考试和出勤等令人讨厌的要求,直接向所有学生发放文凭,将毕业率提升至 100%。)莱昂哈特回复道:“大学毕业生的平均工资比大学辍学生高出 54%,所以学位看上去显然具有经济意义。”这又是一种自选择偏差!选择上大学并通过努力学习获得学位的学生显然与大学辍学生存在系统性差异。





投票人数越多越好?




美国只有大约一半的合格选民在总统选举中投票。为了提高这个百分比,一个有趣的建议是将不投票的人的名字张贴在当地报纸或者互联网上,以便使他们感到羞愧。2014 年,《纽约时报》提出了一个更加激进的解决方案:


惩罚和监禁是导致人们不再参与政治(比如投票或政治实践)的两个原因……一份针对美国城市最边缘群体的大规模调查发现,在曾被警察拦截和盘问的群体中,投票概率降低了 8%;在曾被逮捕的群体中,投票概率降低了 16%;在被定罪的群体中,投票概率降低了 18%;在曾经遭到拘留或监禁的群体中,投票概率降低了 22%。




这段文字显然暗示了这样一条信息:如果减少逮捕和定罪,投票率将得到极大的提高。

在解雇警察之前,别忘了,这些数据都是观测性数据。也许,遭到盘问、逮捕和定罪的人并不是从人群中随机选择的。也许,他们曾经犯下罪行。也许,不投票的人更有可能犯罪,减少逮捕和定罪并不会提高投票率。





一醉方休




饮酒是一个长期困扰许多大学的问题,而且常常是辍学的一个驱动因素。即使校园内部禁酒,一些学生也会令人遗憾地在周围街区由于醉酒而遭到逮捕。学生为自己被逮捕而苦恼,教授为学生不学习而苦恼,家长为大学没有监督和保护自己的儿女而苦恼。

“代替父母”原则意味着大学在法律上拥有保护学生、不让他们做出错误决定的权力和职责。这个原则的应用经历了许多波折。不过,许多大学完全有理由感到担忧。一些学生和家长曾经控告学校没能尽到家长的义务。逮捕和死亡事件对入学申请也会产生负面影响,而入学申请又是大学的生命线。

1984 年,弗吉尼亚理工学院心理学教授 E.斯科特·盖勒(E. Scott Geller)在美国心理学协会的年度会议上发表了一篇研究论文,介绍了他在弗吉尼亚理工学院附近的三家酒吧里观察到的现象。(这比待在科学实验室里要有趣得多!)他发现,平均而言,以桶为单位要啤酒的人喝下的啤酒是以杯或瓶为单位要啤酒的人的两倍以上。他的结论是:“如果我们禁止使用啤酒桶,饮酒问题将会得到重大改善。”这一结论在全国范围内得到了发表。

盖勒发表过超过 350 篇研究论文,并且凭借将行为科学运用到现实生活中的出色表现获得了大学校友杰出研究奖和校友服务奖。不过,上面这项研究不在他做过的那些优秀研究的范围之内。根据常识,我们知道,这项研究中存在自选择偏差,因为以桶为单位要啤酒的人一定是想一醉方休,而且他们通常能够实现这个目标。他们也许面临着某种将花过钱的啤酒喝完的心理压力,但即使换成酒杯或酒瓶,豪饮者也不会改变自己大量饮酒的意愿。

在漫长而多产的职业生涯中,盖勒对大学饮酒问题进行了许多研究,在进行上述酒吧研究的 27 年以后,在 2011 年美国心理学协会会议上,他承认了一个显而易见的事实:许多大学生“想要一醉方休……我们在多项研究中指出,他们的意图会影响他们的行为。如果他们想要喝醉,那么你很难阻止这件事的发生。”





放下遥控器




电视频道如此众多,精彩节目却寥寥无几。照本宣科的真人秀;由缺乏才能的选手参与的才艺竞赛;某博士告诉人们(可能是演员)他们很优秀;某鉴定专家告诉人们(可能是演员)他们很愚蠢;喜剧节目不断出现令人讨厌的背景笑声。也许,看电视时关掉声音会让人减少几分痛苦?

美国最受尊重的广播和电视新闻工作者爱德华·R.默罗(Edward R. Murrow)曾说过:“电视的主要用途是欺骗和孤立我们,转移我们的注意力,逗我们开心。”这是 1958 年的事情,那是所谓的“电视黄金时代”。时至今日,情况并没有任何好转。

科学家很早就知道,看电视会使人的脑电波从敏捷而符合逻辑的贝塔波转变成放松而发散的阿尔法波。加里·拉尔森(Gary Larson)制作了一集优秀的动画片,名为《电视机产生之前的日子》,展示了一家人懒洋洋地躺在地板和沙发上、盯着一面空白墙壁的情景。

不管你观看的是空白的墙壁还是闪闪发光的“灯箱”,这种无须动脑的注视(常常伴随着心不在焉的吃喝)都会为你带来危害。2011 年,一群研究人员报告说,在澳大利亚,每天用 6 个小时看电视的人比从不看电视的人平均早死 5 年。简单计算一下,你会发现,在 25 岁以后,每看一个小时电视,寿命预期就会减少 22 分钟。你不仅在茫然的凝视中浪费了一个小时,而且额外失去了 22 分钟的生命。考虑到人们一生中看电视的习惯,研究人员得出的结论是,如果以法律形式禁止看电视,人们的寿命预期可以提高两年左右。

和之前一样,问题在于,这些数据是具有自选择偏差的观测性数据。也许,同那些拥有更加有趣的事情去做,而且自身健康状况足以支持他们这样做的人相比,选择整天看电视的人更加安静,更加抑郁,或者健康状况不是很理想。要想进行有效的实验,我们应该选择两个小组,禁止一组看电视,强迫另一组每天看 6 个小时电视。如果我被随机分到禁止看电视的小组,我会感到难过的。





请原谅我的直白




在灾难性的滑铁卢战役之前的早餐上,拿破仑宣布:“威灵顿是差劲的将军,英国士兵是一群乌合之众;我们将在午饭之前解决战斗。”对许多人来说,这个故事再一次证明了法国人令人讨厌而又毫无根据的傲慢。不过,美国运通和法国旅游局的一项研究发现,大多数过去两年对法国进行过一次以上休闲旅游的美国人并不认为法国人不友好。他们究竟是如何得到这个结论的呢?

下面是一种方法。假设一名研究员受雇证明法国是一个休闲旅行的好去处。这名研究员可以进行一项简单的调查,调查内容如下:


1. 过去两年你对法国进行过几次商务旅行?



2. 过去两年你对法国进行过几次休闲(非商务)旅行?



3. 你是否认为法国人不友好?




假设大多数只对法国进行过一次商务旅行的人认为法国人不友好。这也是他们从不自愿前往法国的原因。研究员将这些人的回答扔到一边。

假设大多数从未去过法国的人认为法国人不友好。这也是他们从不前往法国的原因。研究员将这些人的回答扔到一边。

假设大多数只对法国进行过一次休闲旅行的人认为法国人不友好。这也是他们从不再次前往法国的原因。研究员将这些人的回答扔到一边。

假设大多数对法国进行过不止一次休闲旅行的人不认为法国人不友好。太好了!这正是研究员想要的回答。法国旅游局可以根据这些回答进行广告宣传:大多数过去两年对法国进行过不止一次休闲旅行的美国人不认为法国人不友好。

从字面上看,这种说法是正确的,但它具有欺骗性。这种说法存在自选择偏差,因为选择重返法国的人几乎一定在上次旅行时玩得很开心。不过,这种说法向人们提供了错误的暗示:大多数曾经去过法国的人希望再次前往法国。

这种偏差隐藏在所有顾客满意度调查中。一家航空公司曾经打出这样的广告:在经常从纽约前往芝加哥的商业旅行者中,84% 的人更喜欢这家航空公司,而不是另一家航空公司。这个广告令人困惑的地方在于,在从纽约飞往芝加哥的旅行者中,只有 8% 的人选择这家航空公司。如果 84% 的旅行者更喜欢这家公司,为什么选择这家公司的旅客只有 8% 呢?

答案是,84% 这个数字所依据的调查对象是该公司从纽约飞往芝加哥的一架航班上的乘客。选择这家航空公司的旅行者更喜欢这家公司,这没有什么好奇怪的。真正奇怪的是,还有 16% 的旅客更喜欢另一家航空公司。不过,我们很难想象航空公司会打出这样的广告:“在乘坐我公司飞机的旅客中,16% 的人感到后悔。”





只有弱者留下来




自选择偏差并不是观测性数据的唯一潜在问题。20 世纪 70 年代,一项集体诉讼认为密西西比州戈斯市“佐治亚-太平洋锯木厂”在初始工作分配和晋升方面歧视黑人。该厂 50% 的劳动力是黑人,但大多数黑人员工进入工厂时从事的是级别最低的工作类型(“公用事业”),而且从未获得晋升。

在审讯中,工厂经理承认,电工长是工厂里唯一需要事先具备一定技能的工作岗位。其他所有岗位需要的技能都可以在工作中学习。公司的管理层也证实,雇用和晋升决策具有主观性,没有任何书面程序或具体标准。关于高级工作岗位黑人相对较少的原因,工厂经理的核心观点是:“同承担责任、付出额外的辛苦、延长工作时间相比,黑人更喜欢从事不需要太多技能的工作。每日海量书籍,大师课精彩分享微.信:dedao555”

美国上诉法院第五巡回法庭并没有被这种具有侮辱性的观点说服。他们引用了美国最高法院在“黑泽尔伍德校区诉美国案”中的观点:“在可以证明总体统计性差异的时候,这种差异本身可以……构成歧视模式或实践的初步证据。”他们还补充说:“‘差异性对待’案件通常要求提供歧视动机的证据,而作为一种便捷的歧视机制,公司官员缺乏标准的主观决策的证据可以满足这种要求。”

法庭的结论当然是正确的,但其统计性证据的某个部分却存在一个被所有人忽视的微妙缺陷。法庭展示了 6 年前进入公司入门级公用事业岗位并且领取相同工资的 11 名员工 1976 年的工资。1976 年,5 名白人员工的平均工资是 3.88 美元,6 名黑人员工的平均工资则只有 2.99 美元。这似乎是工资歧视的明显证据。不过,事情并没有这么简单。

这些数据属于回溯性数据。也就是说,这项研究选择了一群员工,然后回顾他们的情况,而不是考察他们未来的情况。在前瞻性研究中,研究人员选择一个样本,然后监督它在一段时间里的变化。例如,你可以每年对 1000 个人进行医学检查,以查看饮食与心脏病之间是否存在关联。你也可以每年对 1000 家公司进行观测,以查看分红政策与股票表现之间是否存在关联。相反,在回溯性研究中,研究人员选择一个样本,然后考察它的历史,比如考察 1000 名老年女性的医疗记录或者 1000 家公司过去的表现。

回溯性研究往往存在幸存者偏差。也就是说,当我们选择现在的样本并回顾过去时,我们只能看到幸存者。老年人的历史医疗记录中排除了没有活到老年的个体。公司财务历史记录中排除了已经破产的公司。

对 1970 年入职的员工 1976 年的工资进行比较的做法是一种回溯性研究,因为它只考察了 1976 年仍然留在公司的员工,排除了 1970 年入职后自愿或被迫离开公司的人。假设公司在 1970 年以完全相同的工资雇用了 10 个白人和 10 个黑人,而且每个群体里有一半的人工作效率很高,一半的人工作效率不高。进一步说,假设在这 6 年时间里,在所有种族群体之中,效率很高的员工的工资提高了 30%,效率不高的员工的工资提高了 10%。如果所有 20 名员工 1976 年仍然留在公司里,白人和黑人的平均工资将会持平。不过,如果效率不高的白人员工被解雇,留下来的白人的平均工资将高于黑人的平均工资。如果效率很高的黑人员工离开公司,以追求更好的工作,那么白人的平均工资也将高于黑人的平均工资。我们并不知道这些事情是否真的发生过。关键问题是,回溯性研究无法完整地描述 1970 年入职的所有员工的情况。

许多观测性研究存在幸存者偏差。例如,健康维护组织在一项调查中发现,超过 90% 的成员对该组织感到满意。这里存在两种幸存者偏差,它们都在推高调查的满意度:一些人由于不满意而退出了这项计划,还有一些人离开了人世。

红狮酒店曾经打出占据整整一个版面的广告:“在曾经入住红狮的商务旅行者中,98% 的旅行者还会再次选择我们。”原来,该公司对酒店里的顾客进行了一项调查,其中 98% 的人表示“他们在旅行时通常会选择红狮酒店”。显然,只住过一次红狮酒店的人并没有被这项调查包括在内。

下面是一个更加微妙的例子。有人对纽约市兽医院接收的从高层公寓楼坠落的 115 只猫咪进行了调查,发现从 9 层以及上楼层坠落的猫咪的死亡率为 5%,从不足 9 层的楼层坠落的猫咪的死亡率为 10%。根据医生的推测,这是因为从较高楼层坠落的猫咪能够将身体伸展开,形成一种降落伞效应。还有其他解释吗?

这个例子存在幸存者偏差,因为坠落后死亡的猫咪不会被送到医院。而且,许多猫主会放弃那些从高层坠落后奄奄一息的猫咪,而从较低楼层坠落的猫咪的主人往往更加乐观,更愿意花钱带它们去医院。





被损坏的飞机




二战期间,英国皇家空军(RAF)计划在飞机上安装厚钢板,以帮助它们抵抗德国战斗机和陆基高射炮的攻击。这些防护板极为沉重,无法用来覆盖整个飞机,因此英国皇家空军开始对结束轰炸任务的飞机进行调查,以收集飞机上子弹孔和弹片孔的位置数据。图 2.1 是一张示意图。如图所示,大多数弹孔位于机翼和飞机尾部,驾驶舱、发动机和油箱的弹孔则非常稀少——这说明防护板应当安装在机翼和飞机尾部。你同意这种观点吗?




图 2.1 哪些部位需要加强防护?



逃到美国的匈牙利犹太人亚伯拉罕·瓦尔德(Abraham Wald)敏锐地意识到,这些数据存在幸存者偏差。返航飞机的驾驶舱和油箱之所以很少出现弹孔,是因为这些部位被击中的飞机无法存活下来并返回英国。返航飞机在机翼上出现弹孔的可能性更大,因为这些弹孔的伤害很小。瓦尔德的建议与最初的结论完全相反:他们应当加固没有弹孔的位置,而不是弹孔最多的位置。

这个办法发挥了作用。被击落的飞机数量大幅减少,安全返航并且可以重新投入战斗的飞机数量大幅增加。瓦尔德清晰的思路为战争的胜利做出了贡献。





畅销书的秘密




在撰写畅销书《从优秀到卓越》之前,吉姆·柯林斯(Jim Collins)及其研究团队花了 5 年时间,考察了 1435 家公司 40 年的历史,发现了股价表现优于平均水平的 11 家公司:





雅培

金佰利

必能宝



电路城

克罗格

沃尔格林



房利美

纽柯

富国银行



吉列

菲利普·莫里斯




柯林斯对 11 家大公司进行了一番详细检查,发现了一些共同特点,并为每个特点起了一个吸引眼球的名字,比如第五级领导者——具有谦逊的个人品质和职业驱动力、能够将公司打造成卓越企业的领导者。

柯林斯将他的工作描述成“寻找适用于一家组织的永恒而普遍的答案”。通过研究,他找到了他所寻找的宝藏:“只要认真使用我们所发现的思想框架,几乎任何组织都可以极大提高自身的境界和表现,甚至成为一家卓越的组织。”那些想要相信他的读者的确相信了他。《从优秀到卓越》的销量突破了 400 万部,而且进入了一些史上最佳管理类书籍的排行榜之中。

当然,问题在于,这是一项存在幸存者偏差的回溯性研究。下面是正确的研究方法。首先,选择这个 40 年时间段开始时存在的一组公司。它们可以是标普 500 指数中的所有公司,纽约股票交易所的所有上市公司,或者其他某个名单上的公司。重点是,这份名单应当始于 40 年前。接着,使用看上去合理的标准预测出表现优于其他公司的 11 家公司。这些标准必须具有客观性,不能参考这些公司未来 40 年的表现。先去查看哪些公司表现出色,然后再去预测哪些公司表现出色的做法是不公平的,也是没有意义的。这不是预测,只是回顾。

在选定 11 家公司以后,我们可以比较它们与其他公司在接下来 40 年时间里的表现。如果柯林斯是这样做的,那么 11 家公司中的某些公司无疑会令人失望。一些公司可能会破产。一些公司可能不会被他选中。这就是世界的残酷性。不过,这也将是一种公平的比较。

柯林斯并没有这样做。他在 40 年时间段结束时选择了 11 家成功的公司,以确保它们不会令人失望。柯林斯曾写道,他“直接根据数据进行了经验性推断,得出了所有概念”。他觉得他在宣扬自己的研究具有专业性,没有偏差;这些内容不是他编造出来的;他的一切观点都是通过数据推导出来的。

实际上,柯林斯承认了他对一些公司的表现优于其他公司的原因一无所知。他告诉人们,他对“根据数据推导理论”的危险性浑然不觉。为了支持这种理论在统计上的合法性,柯林斯找到了科罗拉多大学的两位教授。一位教授说:“你的框架中的概念随机出现的概率几乎为零。”另一位教授说得更加具体,他说道:“这 11 家公司的员工表现出了你所发现的主要特点,而它们的直接比较对象并不具备这些特点。那么,随机找到这样 11 家公司的概率是多少呢?”根据他的计算,这个概率不到一千七百万分之一。柯林斯的结论是:“找到 11 个恰好具有我们所寻找的‘从优秀到卓越’模式的随机事件的可能性几乎为零。我们可以充满信心地得出结论:我们所找到的特点与从优秀到卓越的转变存在紧密的联系。”

我不知道这个一千七百万分之一的概率是如何计算出来的(我联系了这位教授,他说他不记得了),但我至少知道它是不正确的。这位教授的计算假定这五个特点是在查看数据之前确定的。事实并非如此,因此这种计算没有任何意义。正确的概率不是一千七百万分之一,而是 1。没错,是 100%。

假设我抓到了五张扑克牌:黑桃 3、黑桃 8、方片 8、红桃 Q、黑桃 A。这不是很神奇吗?抓到这把牌的可能性大约是三百万分之一,但它竟然出现在我的眼前!如果我在抓牌之前正确预测出了这五张牌,那才是一件神奇的事情。不过,如果我在抓到这把牌以后再去预测,那就一点也不神奇了。在我看到这把牌以后,拥有这五张牌的概率是 1,不是三百万分之一。

如果我们回顾历史上的任何一组公司,不管是最优秀的公司还是最糟糕的公司,我们总能发现一些共同特点。瞧,柯林斯选择的 11 家公司的名字里都有一个字母 i 或 r,有几家公司既有 i 又有 r。从优秀到卓越的关键是确保公司名称中有一个 i 或 r 吗?当然不是。

先选择公司、然后寻找共同特点的做法既不令人意外,也不令人感兴趣。真正有趣的问题是,这些共同特点是否能够预测哪些公司将在未来取得成功。

对于上面 11 家公司来说,答案是否定的。房利美的股价从 2001 年的每股 80 美元以上变成了 2008 年的每股不到 1 美元。电路城在 2009 年破产。在《从优秀到卓越》出版以后,其他 9 家公司在股市上的表现非常平庸。从图书出版到 2012 年,五只股票的表现优于股市整体水平,六只股票的表现不如股市整体水平。

20 年前,另一部关于企业的畅销书做了一件非常类似的事情,这件事也存在完全相同的问题。这种循环现象给我们带来的真正教训是,写作这些书籍的作者和购买这些书籍的数百万读者没有意识到书中的本质缺陷。

世界顶级咨询公司之一麦肯锡公司要求两名默默无闻的咨询师汤姆·彼得斯(Tom Peters)和罗伯特·沃特曼(Robert Waterman)对几家成功的公司进行研究。彼得斯和沃特曼与麦肯锡的其他咨询师进行了交谈,列出了 43 家拥有良好声望和雄厚资金的公司。接着,他们与经理们进行交谈,并且阅读杂志上的故事,以寻找共同的主题。根据这项相当随意的研究,他们写出了一部极具影响力、极为成功的书籍《追求卓越》。此书列出了彼得斯和沃特曼在 43 家优秀公司中发现的 8 个共同因素,比如偏爱行动和接近顾客。这也是一项回溯性研究。我们无法知道“偏爱行动”(不管这种说法的含义是什么)的公司是否比其他公司更加成功,或者过去表现出色的公司能否在未来表现出色。

在这 43 家公司中,35 家公司拥有公开交易的股票。在这本书出版以后,15 家公司的表现优于股市的整体水平,20 家公司的表现不及股市的整体水平。柯林斯、彼得斯和沃特曼并没有提供任何证据证明他们所描述的特点是这些公司过去取得成功的原因。要想做到这一点,他们需要提供这些特点的理论证据,在不知道公司拥有或没有这些特点的情况下选择公司,然后根据某种事先确定的衡量标准监督它们的表现。这些作者并没有开展这样的工作。

对成功的企业、婚姻和人生进行回溯性研究的所有书籍都存在这个问题,包括成功企业、持久婚姻、活到百岁的方法/秘密/诀窍等。这类书籍存在固有的幸存者偏差。如果我们觉得自己知道成功的任何秘密,一个有效的检验方法是找到拥有这些特点的企业或个人,然后查看他们未来 10 年、20 年或 50 年的表现。否则,我们仅仅是在考察过去,而不是在预测未来。


×如何轻松识破一本正经地胡说八道



我们会观察人们的工作、游戏和生活,而且我们会自然而然地根据我们看到的现象得出结论。我们的结论可能会失真,因为这些人所做的事情是他们自己选择的。我们观察到的特点可能并非源于活动,而是反映了选择这种活动的人的个性。



如果有人告诉我们,参与竞争性体育运动的孩子非常自信,我们不应该认为竞争性体育运动可以增强自信。也许,自信的孩子喜欢参与竞争性运动。如果有人告诉我们,华尔街的工作人员很有进取心,我们不应该认为华尔街可以培养进取心。也许,华尔街容易吸引具有进取心的人。如果获得普利策奖的新闻工作者和获得大学卓越奖项的人都会受到自选择偏差的欺骗,那么我们所有人都需要保持警惕。



我们会自然而然地根据我们看到的现象得出结论——工人的工资、受损的飞机、成功的公司。我们还应当考虑到我们没有看到的事情——离职的员工、没有返航的飞机、失败的公司。我们没有看到的数据可能和我们看到的数据一样重要,甚至更加重要。为避免幸存者偏差,应当从过去开始并向未来展望。查看 20 年前受雇的人员、出发参与轰炸任务的飞机、40 年前处于经营状态的公司——然后查看接下来发生了什么。





第 3 章

被误传的谋杀之都





我有一个朋友,名叫史蒂夫(Steve),他从加州理工学院退学,参加了陆军游骑兵。这是美国士兵中的一个精英群体,专门执行高危近战任务。游骑兵的信条中有这样一句话:“我的国家希望我比其他士兵走得更远、更快,战斗得更加英勇。”

史蒂夫的部队专门执行空降突击任务,他的膝盖在数百次跳伞经历中受到了很大伤害。一次,他的团队遭到伏击,被困在越南的几块稻田里。他们无法站起来作战或者奔跑,因此他们尽量压低身子,等待直升机过来将敌人驱离。幸运的是,一个绰号为“狂野比尔”的狙击手正驻扎在有利位置,以应对这种情况。比尔位于稻田的 300 米开外,但他经常可以命中三倍于这个距离的目标。当敌军士兵探头查看他们的藏身之处时,“狂野比尔”将他们一个一个地放倒。等到直升机赶到时,一部分敌军士兵已经死去,其余士兵全都逃走了。另一次,“狂野比尔”在一百米开外射杀了一名坐在汽车里的敌军将领。子弹威力极大,击穿了汽车的防弹挡风玻璃,穿过司机,击中了坐在后排的将军。

史蒂夫带着一对受伤的膝盖和一系列令人震惊的故事离开了游骑兵。在美国,他过着和平而活跃的生活。他参加体育运动,并且教人们进行水肺潜水。最终,他那对患有骨关节炎的膝盖使他放慢了脚步。骨关节炎是一种退行性疾病。面对无法进行大量运动的黯淡前景,史蒂夫感到非常沮丧。一位医生告诉他:“你的年纪大了,不适合参加体育运动了。”这使史蒂夫感到很难过。

史蒂夫的情况并不是个例。几十年来,当我们站立、走路、奔跑、跳跃和舞蹈时,我们的膝关节一直在支撑我们超重的身体。因此,它们很容易撕裂,扭伤,出现一些浮游软骨。最常见的疗法是医院每年进行数十万次的关节镜手术。这种手术需要切出两个小型刀口,一个用于导入小型光导纤维摄像机,一个用于导入实施手术的小型仪器。外科医生需要移除碎片,然后对余下的结构进行修复、清洁、平整和修理。当这项耗资 5 000 美元的手术结束后,疼痛就会消失。至少,医生是这样说的。

史蒂夫接受了关节镜手术,并对结果大加赞赏。他反复告诉我,我应当接受这项手术,以修复我那娇嫩的膝盖。不过,我对此持怀疑态度。几十年来,人们并没有将关节镜手术与其他疗法进行比较。医生进行手术,患者表示他们感觉病情出现了好转。除此以外,我们还需要知道什么呢?首先,我们需要知道,他们的膝盖是否真的得到了改善?也许,患者之所以表示病情出现了好转,是因为他们认为自己应当感觉到病情的好转。永远不要低估暗示的力量。

为了避免接受一项没有必要的手术,我对这个问题进行了进一步的考察。要想判断手术是否有效,真正的科学方法是进行一项对照实验,对一部分随机选择的患者进行关节镜手术,并且不对其他患者进行这项手术。不过,有一个困难似乎无法化解:患者知道自己是否做过手术,这将影响他们对于自身感觉的反馈结果。

为了解决这个问题,在 20 世纪 90 年代,一项涉及 180 名退伍军人的对照实验设计了一个周密的策略。医生为对照组的患者切出两个浅浅的刀口,并且做出模仿关节镜手术的动作。这些患者并不知道他们是实验的一部分。在接下来的两年时间里独立评估老兵状况的医生同样不知道这项实验。研究的结论是,同接受假手术的对照组相比,真正接受关节镜手术的患者在任何时刻都没有感受到更少的疼痛,或者表现出更好的功能。显然,病人声称的疼痛缓解完全来自安慰剂效应(人们相信医学的力量,希望看到治疗方法带来积极的效果,即使这种治疗方法没有任何医学价值)。

这项研究 2002 年发表在《新英格兰医学期刊》上。6 年后,发表在同一份期刊上的另一项研究证明,对于膝骨关节炎患者来说,同只接受药物和物理治疗的对照组相比,接受关节镜膝盖手术、药物治疗和物理治疗的患者在疼痛、僵硬度和物理功能方面并没有表现得更好。现在,许多医生建议病人放弃这项手术。我的医生是一位运动医学专家,他向我提出了同样的建议。我相信他的观点。

胃冷冻是一种治疗胃溃疡的奇特疗法,目前已经丧失了信誉。这种疗法也经历了一个与治疗膝盖问题非常类似的过程。胃溃疡有时会使人感到极为痛苦。过去,人们常常通过物理切除胃酸来源的方法治疗这种疾病。一位具有发散性思维的医生想,既然他们可以用冰块减少踝关节扭伤和其他外伤的疼痛,那么他们也许可以用冰块使病人的胃部失去知觉,从而减少疼痛。不过,让病人吞下几十个冰块的方法不仅会使病人感到很难受,而且缺乏效率,因为你无法保证冰块与溃疡部位的持续接触。

人们提出了解决方案:将气球插入到溃疡患者的胃部,然后通过气球泵入过冷液体。这显然比手术更加便宜,更加安全,尽管它的效果可能不像手术那样持久。20 世纪 50 年代的实验表明,这种古怪的想法实际上是有效果的,因为患者报告说,他们的胃酸分泌量出现了减少,胃部疼痛得到了缓解。这些结果发表在很有声望的《美国医学协会期刊》上。在此后的几年时间里,人们一直在用胃冷冻疗法缓解溃疡患者的疼痛。

和治疗膝盖问题的关节镜手术一样,胃冷冻疗法缺乏相应的对照组,因此我们无法知道这种疗法是否真的有效果。在被问及胃部疼痛时,患者可能倾向于给出他们所认为的正确答案。

和之前一样,我们需要一项对照实验,将过冷液体泵入一组随机选择的患者体内,将与体温相当的液体泵入另一组患者体内。当然,我们不能把我们所使用的液体种类告诉患者。

当人们最终结束这项实验时,得到的结果令人吃惊。在接受胃冷冻治疗的患者中,34% 的患者表示病情出现了好转;在接受与体温相当的液体的患者中,这个比例是 38%。又是安慰剂效应!随后的研究表明,胃冷冻没有任何真正的效果,医生从此不再将冰冷的气球塞进人们的喉咙。

正像这些例子表明的那样,设计良好的实证研究通常涉及比较。不过,正像下一个例子说明的那样,比较并不总是公平而有效的。有时,人们会对苹果和李子干进行比较。





马萨诸塞州谋杀之都




如果道琼斯工业平均指数一天下降 100 点,这个数字是多还是少呢?要想正确看待这种变化,我们可以计算下跌百分比。如果道指当天开盘时是 1000 点,那么 100 点的下跌对应于 10% 的比例(令人恐慌)。如果道指当天开盘时是 10000 点,那么 100 点的下跌对应于 1% 的比例(令人不快)。股票价格的百分比变化是一种有用的信息。不过,一些百分比变化也会具有误导性,比如当人们将某种小型事物的百分比变化与某种大型事物的百分比变化进行比较时。

韦尔弗里特是马萨诸塞州的一座小镇,以牡蛎、艺术家和宁静著称。不过,波士顿一份报纸报道说,韦尔弗里特当年的谋杀率是马萨诸塞州之最,每 10 万名居民中就有 40 起谋杀案——这个数字是波士顿的两倍多,后者每 10 万名居民中只有 17 起谋杀案。这篇报道使人感到非常吃惊。一名困惑的记者对这件谋杀统计谜案进行了研究,发现韦尔弗里特的所有警察都没有听说过这座小镇发生的谋杀案,包括一位在韦尔弗里特生活了 50 年的警察。每日海量书籍,大师课精彩分享微.信:dedao555

不过,一名被控在 30 公里外犯下谋杀案的男子在韦尔弗里特警察局自首,这个案件被错误地统计成了发生在韦尔弗里特的谋杀案。韦尔弗里特只有 2491 名居民,因此一项被错误统计的案件变成了每十万名居民中的 40 起谋杀案。相比之下,波士顿发生了 98 起谋杀案,相当于每十万名居民中发生 17 起谋杀案。

这个谋杀之谜显示了当基数很小时一个统计意外所产生的巨大影响。在波士顿,一项错误记录的谋杀案对谋杀率的影响很小。在韦尔弗里特,一项错误记录的谋杀案可以将一个以牡蛎和艺术家著称的小村庄与底特律画上等号。对于基数较小的情形,一种处理方法是使用许多年的数据,以获得更大的基数。在过去 50 年时间里,韦尔弗里特只有一起被错误记录的谋杀案,或者说没有谋杀案——两种说法都可以证明,这的确是一个和平的小镇。所以,不要担心,把牡蛎递给我吧。





请在我家后院开一座采石场




蒂梅丘拉是一个南加州社区,与洛杉矶、圣迭戈和奥兰治县之间的距离大致相等。虽然蒂梅丘拉位于内陆山谷之中,但它距离太平洋只有 20 公里。每天,海风通过一个山间空隙带来凉爽的空气,使蒂梅丘拉山谷形成了温和的地中海气候。

由于拥有怡人的气候、乐观进取的精神以及支持商业的态度,蒂梅丘拉的人口从 1980 年的不到 2000 人增长到了 2010 年的 10 万人以上,家庭年收入中值超过 8 万美元。这个小镇还拥有 52 万平方米的体育设施,包括 10 个棒球场(5 个带有照明设施),两个带有照明设施的橄榄球/足球场,一个游泳池以及体育馆和社区中心。

晴朗的白天和凉爽的夜晚不仅可以吸引人口,而且适合生产葡萄酒。蒂梅丘拉山谷目前拥有 30 多家酿酒厂。这里还有数百家古董商店、特色商店和餐厅,9 个高尔夫球场,以及加州最大的赌场。这里有热气球比赛、汽车展览、爵士音乐节以及电影节。在不到 30 年的时间里,这个很小的小镇已经升级成了一个绝佳旅游目的地,每月有 7 万人入住蒂梅丘拉酒店,1/6 的当地居民从事旅游业。

2005 年,美国最大的矿业和建筑公司申请在蒂梅丘拉附近建造采石场的许可证——实际上,这是一个超级采石场,面积相当于 17 个足球场,深度与帝国大厦的高度相同。这个采石场每天将动用 4500 公斤炸药,以便将岩石从山上分离出来,然后将其粉碎成石子和沙土(叫做“骨料”),用作混凝土、沥青以及其他建筑材料。除了粉碎设施,他们还将建造两个沥青厂、一个混凝土厂以及一个碎石回收厂。采矿和加工每天持续 20 小时,每周进行 6 天,每年将生产 500 万吨骨料。装货和运输每天持续 20 小时,每周进行 7 天,每天将有 1600 辆卡车进出该地。

根据计划,这个采石场位于海风将凉爽空气吹入蒂梅丘拉山谷时经过的山间空隙。因此,居民担心这个超级采石场将会影响城市的经济和房产价值。如果海风将灰尘、噪音、刺鼻的味道以及其他污染物带进这个美丽的城市,旅游业者和房屋所有者该怎么办呢?

不必担心,矿业公司说。该公司请当地一位优秀经济学家准备了一份经济分析报告。报告称,这个采石场每年将为居民带来 1.72 亿美元的好处,而且不会带来任何成本。矿业公司的真实身份是圣诞老人,他将为那些仍然相信圣诞老人的人带来上亿美元的礼物。

如果事实真如该公司所说,那么各个城市将会为采石场的选址展开激烈的争夺。他们将不会为了吸引专业体育团队而向他们提供税收优惠、低息贷款和基础设施。相反,他们将会把这些激励政策提供给矿业公司。“这是 1 亿美元。请在我们城市开矿吧。”

不过,他们并没有这样做。

就连该公司雇用的经济学家也承认这一点:“骨料开采作业几乎总会遇到反对声音。”为什么人们要反对没有任何附加条件的上亿美元利益呢?是他们太幼稚,还是受雇咨询师的估计存在严重误导性?你觉得呢?让我们研究一下这位咨询师对收益和成本的估计,看看我们能够发现什么。

关于经济收益的计算出现在几张电子表格之中,这些表格充满了令人头疼的细节,比如碎石价格和去除水中细颗粒物所需要的絮凝剂用量。所有这些细节形成了一种看似严格的经济分析,同时掩盖了一个事实:在电子表格最后得到的 1.72 亿美元中,有 1.50 亿美元并不是当地收益,而是公司的年利润。没错,由于公司销售的是蒂梅丘拉的“土地”,因此这位经济学家将 1.50 亿美元的公司利润统计成了当地居民的收益。实际上,除了看到一家公司变富所带来的某种间接快感,这种利润不会为当地带来任何利益。

剩余 2200 万美元的预期利益来自新采石场的 99 个工作岗位,其中大部分是将骨料运往建筑工地的卡车司机。这里同样存在问题。计划中的蒂梅丘拉采石场位于里弗赛德县靠近圣迭戈边境的位置。公司预计,蒂梅丘拉采石场生产的骨料 60% 将被运往圣迭戈县,这将减少圣迭戈对更加遥远的里弗赛德县采石场的骨料需求。

该公司的咨询师表示,骨料总产量不会发生变化。一位咨询师是这样说的:“新采石场所做的事情仅仅是替代原有采石场的供应。新的采石场不能也不会导致更多骨料被开采、运输和使用。”

在这里,咨询师的观点是正确的。骨料总产量是由需求决定的——也就是正在建设的住宅、商店和道路的数量。新的采石场只能改变骨料的生产地点。如果蒂梅丘拉的产量是 500 万吨,这将意味着里弗赛德县其他地区的采石场减产 500 万吨。该公司自身的说法暗示了产量或工作岗位不会增加,只会从现有采石场转移到新的采石场。

因此,公司声称为当地居民带来的 1.72 亿美元利益完全是空中楼阁——它只是建筑公司的 1.50 亿美元利润以及 99 个从现有采石场转移到新采石场的工作岗位而已。“该公司不会带来的”不是成本,而是利益!

那么。经济学家所说的“没有任何成本”呢?蒂梅丘拉居民对房产价值的担心是杞人忧天吗?另一位咨询师声称,在 70 公里外的科罗纳市,矿山生产与房产价值之间出现了“直接的正相关”。城市领导人显然应当欢迎超级矿场选择他们这座美好的城市——因为城市房产价值将受到“超级影响”。

这种说法令人无法容忍。当任何两样事物随时间增长时,它们之间可能没有任何因果关系,但它们仍然具有统计相关性。表 3.1 显示了美国的啤酒销量和已婚人口的数量。二者的相关性达到了惊人的 0.99。面对这种强烈的相关性,我们能否认为饮酒会导致婚姻?或者倒过来,我们能否认为婚姻会导致饮酒?




图 3.1 饮酒与婚姻



当然,一定会有一些已婚人士同意这种结论。不过,正确的解释是,当人口随时间增长时,啤酒消费量也会增长。类似地,婚姻、婴儿、汽车、鞋子、大学入学率、心脏病以及其他许多事物也会增长。穿鞋会导致婴儿数量增长吗?开车会导致心脏病吗?这些事物的增长源自人口的增长,它们之间不一定存在任何关系。

矿山生产和房产价值也是同样的道理。二者都在随时间增长,它们之间不一定存在因果关系。公司出钱要求咨询师证明一些事情。当咨询师发现某种表面上的证据时,他们就会死死抓住这种证据不放。

我们都会做这样的事情。这种事情极为常见,甚至拥有一个名称:证实性偏差。我们认为自己能够预测橄榄球比赛、选举或者股票选择的结果。我们高估了自己的预测能力。如果我们的预测是正确的,这将证实我们的确是聪明人。如果我们预测失败,这仅仅是运气不好而已——裁判不公、投票率不高、其他投资者不理性。

当然,咨询师通常会受雇寻找某些事情的证据,这些事情可能连他们自己都不相信。真的有人认为采石场会提高附近住宅的价值吗?这种说法甚至无法通过表情测试。你可以将这种荒谬的说法讲给你的朋友听,看看你能否忍住笑声。

不过,只要价格合适,一些人愿意寻找能够证明荒谬观点的证据,然后装模作样地向人们证明这种观点。在寻找令人信服的证据时,他们常常会找到巧合的相关性,而那些随着时间和人口的增长而增长的数据往往具有巧合的相关性。

这正是矿业公司所做的事情。他们甚至用周围城镇具有误导性的统计数据支持自己的观点。另一位咨询师(他们雇用了许多咨询师)指出,加州科罗纳市的采石场已经存在了几十年,那里的房价与(目前)没有采石场的蒂梅丘拉具有几乎相同的增长率。因此,采石场不会抑制房产价值。

考虑这种观点背后的逻辑。如果牛排和土豆的价格具有相同的增长率,这是否意味着牛排的价格和土豆一样?假设两幢相同的住宅位于具有同等吸引力的位置,二者相距八公里。两幢住宅的市场价值相等,而且每年稳定地增长 3%。1980 年,一幢住宅旁边开了一家采石场,其价值立即下跌了 20%。之后,两幢住宅的价值仍然每年增长 3%,二者的市场价值始终维持着 20% 的差距,如图 3.2 所示。




图 3.2 住在采石场旁边



正如矿业公司所说,靠近矿山的住宅与八公里外的住宅具有相同的价格增长率。这种平行的变化能否告诉我们采石场对附近住宅的价值具有积极影响、消极影响或者没有影响?答案是否定的。要想回答这个问题,唯一的方法是查看哪幢住宅拥有更高的价格。

每一个优秀的魔术师都知道,要想骗过观众,关键在于转移观众的注意力。这位咨询师希望通过谈论房价的变化使我们忘记真正的问题:靠近采石场的住宅是否拥有更低的价格?答案当然是肯定的。

我们很少能够找到两幢完全相同的房子,一幢靠近采石场,一幢远离采石场。不过,我们可以使用一个包含各种住宅特点的统计模型,包括建筑面积、浴室数量、与便利设施(比如好学校)的距离、与扰民设施(比如矿山)的距离。利用许多住宅的数据——有的住宅面积是 180 平方米,有的是 240 平方米;有的住宅有两间浴室,有的有三间浴室;有的住宅靠近矿山,有的远离矿山——我们可以估计出增加 10 平方米面积的价值,增加一间浴室的价值,距离矿山远近的价值。

2006 年,一份针对俄亥俄数千幢住宅的研究做了同样的工作。研究结果显示距离采石场 1.6 公里的住宅价值下降了 15%,距离采石场 3.2 公里的住宅价值下降了 9%——如果你说服矿业公司将采石场开在你家后院,你的住宅价值并不会因此而提高。

在这个强烈支持商业的社区里,两家支持商业的机构——蒂梅丘拉山谷旅游局与商会——听取了矿业公司的报告,但是并没有被说服。这两个团体强烈反对建造采石场。

公司花了七年时间和数百万美元资金,试图使他们的采石场获得批准。不过,在阅读了几千页分析报告、听取了相关市民和双方专家几十个小时的证词以后,里弗赛德县计划委员会和行政管理委员会拒绝了这项采石场提案。他们显然并不相信圣诞老人。


×如何轻松识破一本正经地胡说八道



比较是实证研究的生命线。在与某种替代方案进行比较之前,我们无法确定某种药物、疗法、政策或策略的有效性。不过,请当心肤浅的比较,包括对于大数和小数百分比变化的比较,对于除了随时间增长以外没有其他共同点的事物的比较,以及对于无关数据的比较。这些比较就像苹果和李子干之间的比较一样。





第 4 章

新的经济学上帝





计算机可以迅速而正确地完成计算任务,但它不会考虑这些计算的意义和合理性。计算机只会做人们要求它去做的事情。

有时,错误的问题会导致错误的答案。如果我想知道 169 的平方根,实际却让计算机计算 196 的平方根。计算机会告诉我,答案是 14。对于我所提出的问题来说,这个答案是正确的。对于我想提出的问题来说,这个答案是错误的。这类错误被称为“计算误差”,但它们实际上是人为误差。遗憾的是,一些计算误差具有极为严重的后果。

1998 年,美国宇航局发射了一艘名为“火星气候探测者”的宇宙飞船。宇航局的计划是,当探测者号接近火星时,它将被发送到距离火星 160 多公里的轨道上。在那里,它将安全地记录天气数据。不过,这项耗资 3 亿美元的太空任务最终失败了,因为陆基软件以磅(“1 磅约为 0.45 千克——译者注”)每秒为单位测量推力,探测者号使用的则是公制单位牛顿,但是工程师忘记了单位转换。当探测者号接近火星时,发动机开始点火,试图将宇宙飞船送到围绕火星的轨道上。不过,由于这种计算错误,探测者号被推进到了距离火星 60 公里的地方,在大气中烧毁了。三亿美元打了水漂,而这仅仅是因为一个打印错误。

2012 年,发生了一个完全不同的、更为昂贵的错误。摩根大通英国分部在“伦敦鲸”崩溃事件中损失了 50 到 100 亿美元。“伦敦鲸”指的是押下巨大赌注的那个交易员。当时,由于一个愚蠢的错误,银行的风险被严重低估。在衡量风险时,人们需要计算一个简单的平均值;例如,6 和 10 的平均值是(6+10)/2=8。程序员忘记了除以观测值数量的步骤;因此,平均值被错误地计算成了 6+10=16。结果,计算出来的风险值比实际风险小得多。摩根大通认为伦敦鲸的交易相对安全,但是这些交易事实上非常危险,并且最终酿成了灾难。

人们不仅会为计算机提供错误的指令,有时还会提供错误的数据。美国国会联合经济委员会曾报告说,美国最富有的 0.5% 家庭拥有国家 35% 的财富。同 20 年前的 25% 相比,这是一种令人震惊的增长。政客们发表了演讲(真是稀奇)。报纸用耸人听闻的标题报道了这个故事。联合经济委员会主席、威斯康星州民主党人戴维·奥贝(David Obey)表示:“这说明富人变得更加富有”。他还指出,之前的最高纪录是 1929 年的 32%。奥贝总结道:“这项研究彻底驳斥了‘美国需要为富人提供更多激励’的观点。”杰出的经济学家约翰·肯尼思·加尔布雷斯(John Kenneth Galbraith)发出了不祥的警告:20 世纪 20 年代财富的过度集中是导致大萧条的原因之一。普通人买不起商品,公司请不起工人生产人们买不起的商品。纽约社会研究新学院经济学教授戴维·M.戈登(David M. Gordon)警告说,“美国的民主制度已经到了最危险的时刻,这是过去 50 年不曾有过的事情——可能也是共和国成立以来不曾有过的事情。”

华盛顿的一些怀疑者对计算过程进行了检查,发现这种增长几乎完全来自一项错误记录:某个家庭的 200 万美元财富被写成了 2 亿美元。在调查比例接近 50% 的少数富人中,这一错误明显提高了平均财富水平。修正后的数据显示,最富有的 0.5% 家庭拥有美国财富的 26.9%,而不是 35%。

在这个错误被发现以后,奥贝发布了一份奇怪而虚伪的声明:“我们很高兴地得知,财富在超级富豪手中集中程度的增长不像最初表现得那么大。”其他经济学家对之前的声明闪烁其词,但是拒绝放弃他们的结论。

这个错误得到了及时纠正,没有对经济政策造成任何影响。不过,另一件差错的纠正则没有这么迅速。





政府债务临界点




2010 年,两位哈佛教授卡门·莱因哈特(Carmen Reinhart)和肯·罗戈夫(Ken Rogoff)发表了一篇论文,认为当联邦政府债务相对于国内生产总值(GDP)的比例超过 90% 时,国家的经济增长就会受到拖累。在这种情况下,国家需要花费 90% 的产值偿还政府的债务。

这听上去很合理,但是经不起推敲。政府并没有在短期内偿还债务的迫切理由。当我们购买住宅时,抵押贷款比我们的年收入大得多。那又怎样呢?真正重要的问题是我们的收入是否足以支付月供,而不是我们的收入是否足以立即付清贷款。政府也是一样的道理。而且,政府的负担要轻一些,因为它们可以在必要时开动印钞机。此外,90% 这个比例有什么特别之处吗?为什么不是 80% 或者 100% 呢?你无法找到一个可信的理由证明 90% 这个神奇的数字是经济增长和衰退之间的分界线。

不过,这些教授的确认为 90% 的债务与 GDP 之比是一个临界点,如果超过这个比率,国家将陷入衰退。而且,人们接受了这种观点,因为这毕竟是哈佛大学教授的结论。表 4.1 列出了两位教授最有说服力的证据。莱因哈特和罗戈夫研究了 20 个发达国家(澳大利亚、奥地利、比利时、加拿大、丹麦、芬兰、法国、德国、希腊、爱尔兰、意大利、日本、荷兰、新西兰、挪威、葡萄牙、西班牙、瑞典、英国和美国)。他们计算了每个国家每年债务与 GDP 的比率(以百分数表示)以及扣除通胀因素后的 GDP 增长率。根据债务与 GDP 的比率,这些数据被分成了四个类别。





表 4.1 1946~2009 年 20 个发达经济体的债务和 GDP 增长 政府债务与 GDP 的比率



30% 以下

30% 到 60%

60% 到 90%

90% 及以上



平均 GDP 增长率

4.1

2.8

2.8

-0.1




表 4.1 显示,债务与 GDP 之比的增长会降低经济增长率。如果这个比率超过 90%,经济将陷入衰退之中,GDP 将会下降,经济总量将会萎缩。莱因哈特和罗戈夫的结论是,“至少,这意味着传统债务管理问题应当成为公共政策的首要关注点。”

作为支持紧缩的强有力证据,这项结论获得了全球的关注。许多国家的财政强硬派用罗戈夫和莱因哈特的研究来证明政府应当减少开支,提高税收,以平衡预算,甚至获得盈余。这样,政府债务才能得到偿还。

在美国,共和党 2013 年的财政预算指出:


经济学家肯·罗戈夫和卡门·莱因哈特完成的一项著名研究证实了这个常识性结论。这项研究发现了决定性的现实证据,证明超过 GDP90% 的总债务(指政府欠下的所有债务,包括政府信托基金持有的债务)对经济增长具有重要的负面影响。




谁能对常识和决定性现实证据提出异议呢?

在这种宣传的影响下,2013 年,《华盛顿邮报》的一篇社论发出了不祥的警告:“债务与 GDP 之比可能会持续攀升——并且危险地维持在被经济学家们视作威胁持续经济增长的 90% 关口。”在这里,两位经济学家的一项研究似乎被《华盛顿邮报》描述成了所有经济学家的普遍意见。

事实上,许多经济学家从不认为存在一个 90% 临界点。大多数经济学家的共识是,当一个国家的经济仍然没有从 2007 年 12 月开始的大萧条中恢复过来时,为了减少政府债务而削减开支和提高税收的做法反而是错误的。许多人对罗戈夫和莱因哈特的研究感到极为怀疑,但是他们很难找到任何严重的错误。

一个问题是,美国债务与 GDP 的比例只在四年时间里超过 90%。美国经济在这四年里出现了萎缩,但那是非常特殊的年份:1946~1949 年,正好是二战结束以后。政府债务之所以异常偏高,是因为政府为了支持战争而大量借贷。战后的衰退是由政府军事开支的下降引起的,不是由战争期间积累的债务导致的。显然,我们不应该认为这四年证明了政府债务会导致衰退。相反,这四年实际上证明了财政强硬派倡导的大幅削减政府开支的做法会导致衰退。

不过,世界各地的财政强硬派都在使用莱因哈特和罗戈夫的研究支持英国保守党领导人戴维·卡梅伦(David Cameron)所说的“紧缩时代”。一些欧洲政府试图通过削减开支和提高税收来减少财政赤字。欧洲平均失业率从 2011 年的 10% 上升到了 2012 年的 11% 和 2013 年的 12%。就连频繁倡导紧缩的国际货币基金组织(IMF)也承认,欧洲紧缩措施的危害性大大超出了预期。

我们无法知道莱因哈特和罗戈夫的论文导致了多少产值损失,使多少人失去了工作。经济学家有时会进行这样一种游戏:指出自己希望成为哪一篇著名论文的作者。如果让我选择不希望由自己完成的论文,莱因哈特和罗戈夫的这篇论文将是我的首选之一。

事实证明,莱因哈特和罗戈夫的研究从一开始就存在严重缺陷。马萨诸塞大学安姆斯特分校研究生托马斯·赫恩登(Thomas Herndon)2012 年选修了一门由迈克尔·阿什(Michael Ash)和罗伯特·波林(Robert Pollin)教授的研究生统计课程,他的一项课程作业是复制一篇著名的研究论文。赫恩登选择了莱因哈特和罗戈夫的论文。他付出了大量努力,但他无法复制他们的结果。他认为自己在某个地方出了差错,但他无法找到这个错误。

赫恩登的教授之前见过类似的情况,通常是因为学生出了差错。这也是该练习的目的之一——让学生学习仔细而正确地从事严肃的工作。这一次,情况有所不同。就连教授也无法发现这篇著名论文中的错误。

赫恩登认为知名教授不太可能花时间帮助一个小小的研究生,但他还是放弃了独自理清这项研究的努力,开始联系莱因哈特和罗戈夫。果然,他们对他最初的请求置之不理。不过,他一次又一次地发出请求。毕竟,要想通过这门课程,他必须弄清自己在哪里出了问题。

莱因哈特和罗戈夫最终向赫恩登提供了他们的数据以及计算时使用的电子表格。赫恩登很快发现了问题。实际上,这些数据存在一系列问题,包括粗心的错误和可疑的程序:


电子表格中的一个错误


20 个国家的原始数据以反向字母顺序出现在一张电子表格的 30 至 49 行。不过,当莱因哈特和罗戈夫编写带有电子表格编码的计算公式时,他们没有使用 30 至 49 行,而是使用了 30 至 44 行,因此他们忽略了五个国家(澳大利亚、奥地利、比利时、加拿大和丹麦)。其中,三个国家(奥地利、比利时和加拿大)拥有债务与 GDP 之比大于 90% 的时间段;在这些年份里,三个国家的增长率都是正值。这三个与论文结论相反的例子都被排除在了莱因哈特和罗戈夫的计算之外。


选择性忽略某些数据


在电子表格中,莱因哈特和罗戈夫的计算还忽略了其他一些数据。在许多情况下,这是因为一些国家在一些年份里缺少数据。不过,1946~1950 年的澳大利亚、1946~1950 年的加拿大以及 1946~949 年的新西兰是有数据的。奇怪的是,这些数据并没有被包含在计算之中。

新西兰的数据尤其重要,因为被忽略的四年是债务与 GDP 之比超过 90% 的五年中的四年(1951 年是第五年)。在这五年里,新西兰的 GDP 增长率分别是 7.7%、11.9%、-9.9%、10.8% 和-7.6%,平均增长率是 2.6%。莱因哈特和罗戈夫排除了前四年的数据,称新西兰高债务年份的平均增长率是-7.6%。


不同寻常的平均


莱因哈特和罗戈夫写道,表 4.1 中的计算基于“1186 个年度观测值,每个类别中包含大量观测值,包括 96 个超出 90% 的观测值。”你可能认为 90% 类别中的-0.1% 平均增长率是对 96 个年度观测值直接取平均得到的。事实并非如此。

莱因哈特和罗戈夫计算了每个国家的平均增长率,然后计算这些国家增长率的平均值。例如,英国有 19 年债务与 GDP 之比超过 90%,在这 19 年里,其平均 GDP 增长率为 2.4%;由于新西兰被忽略了四年,因此它只有一年债务与 GDP 之比超过 90%,在这一年,其 GDP 增长率是-7.6%。根据 20 个年度观测值,这两个国家的平均增长率是 1.9%。不过,莱因哈特和罗戈夫计算了 2.6% 和-7.6% 的平均值,得到了-2.5% 的平均增长率。

我们不知道莱因哈特和罗戈夫是无意中犯了一个错误,还是故意选择了这种不同寻常的计算方法,为一个国家一年的数据和另一个国家 19 年的数据赋予了相同的权重。不过,我们至少知道这个错误支持了他们的观点。

表 4.2 显示了这些问题的效果。10 个国家经历过债务与 GDP 之比超过 90% 的年份。在 9 个国家,平均增长率是正值。唯一的例外是战后的美国,而且这个例外与研究的主题无关。

表格的前两列显示了实际高债务年份以及莱因哈特和罗戈夫在计算中包含的年份。莱因哈特和罗戈夫忽略了前三个国家以及新西兰四个年份的数据。所有这些被忽略数据的平均增长率都是正值。

后面两列显示了平均增长率,其中“正确”一列包括了被莱因哈特和罗戈夫忽略的三个国家以及新西兰的四个年份。





表 4.2:莱因哈特和罗戈夫(RR)忽略的结果 年份数量

GDP 增长



正确

RR

正确

RR



澳大利亚 1946~1950

5

0

3.8



比利时 1947,1984~2005,2008~2009

25

0

2.6



加拿大 1946~1950

5

0

3.0



希腊 1991~2009

19

19

2.9

2.9



爱尔兰 1983~1989

7

7

2.4

2.4



意大利 1993~2001,2009

10

10

1.0

1.0



日本 1999~2009

11

11

0.7

0.7



新西兰 1946~1949,1951

5

1

2.6

-7.6



英国 1946~1964

19

19

2.4

2.4



美国 1946~1949

4

4

-2.0

-2.0




总体而言,通过忽略数据以及为所有国家赋予相同的权重,莱因哈特和罗戈夫计算出的高债务年份平均 GDP 增长率为-0.1%。如果将失踪的数据包含进来,并且考虑到高债务年份的数量,正确的平均值为 2.2%。赫恩登、阿什和波林的结论是:“与‘莱因哈特和罗戈夫’的观点相反,公共债务与 GDP 之比超过 90% 时的平均 GDP 增长率与公共债务与 GDP 之比较低时的平均 GDP 增长率并没有明显的区别。”

表 4.1 所显示的莱因哈特和罗戈夫的计算结果讲述了一个清晰而令人信服的故事:过高的债务将不可避免地降低增长速度;如果超过 90% 的临界点,国家将会陷入衰退。除了计算中的各种错误,这些总结性的统计量还隐藏了数据中存在的巨大波动性。债务与增长之间并不存在简单而紧密的关系。

图 4.1 显示了论文所依据的数据,图中 90% 的阈值处有一条竖线;根据研究的观点,超过这条竖线的高债务将使一个国家陷入衰退。我们可以看到,债务与增长之间并没有任何令人信服的关系。许多高债务年份也是高增长年份。许多低债务年份也是低增长年份。这些数据本身证明了 90% 这一比例没有任何特殊之处。




图 4.1 债务等同于衰退?





相关性等同于因果关系?




财政紧缩的支持者认为,莱因哈特和罗戈夫的研究不仅证明了提高政府债务将会降低经济增长速度,而且提出了一个严厉的警告:如果政府债务水平超过 GDP 的 90%,可能会导致经济衰退。每日海量书籍,大师课精彩分享微.信:dedao555

也许,这种因果关系应该倒过来:经济衰退将导致债务比率上升。首先,有一个简单的算术性观点:GDP 的下降将直接提高债务与 GDP 的比率。假设债务是 85,GDP 是 100,那么债务与 GDP 之比为 85%:

债务/GDP=85/100=0.85

如果 GDP 下降到 90,债务与 GDP 之比将提升至 94%:

债务/GDP=85/90=0.94

不是债务与 GDP 之比上升导致 GDP 下降,而是 GDP 下降导致债务与 GDP 之比上升。

不过,这还没完。在经济衰退期间,政府税收将会下降,政府在失业保险、食品券以及其他安全保障上的开支将会增长。这两个因素都会推高政府债务。因此,经济衰退不仅会使债务与 GDP 之比的分母变小,而且会使分子变大。

如果经济增长与债务/GDP 之间存在统计相关性,这种相关性可能主要(甚至完全)来自经济对债务比率的影响,而不是反方向的影响。不是高债务比率降低了增长速度,而是增长速度的降低提高了债务比率。

马萨诸塞大学安姆斯特分校的另一位教授阿林德拉吉特·杜比(Arindrajit Dube)也对这个问题进行了研究。根据莱因哈特-罗戈夫的数据,杜比发现,债务与 GDP 之比与过去经济增长之间的相关性高于它与未来经济增长之间的相关性——这恰恰印证了“经济增长导致债务与 GDP 的比率发生变化”这一观点。





堕胎会减少犯罪吗?




30 年前,数学理论家是经济学的上帝。对现实世界一无所知几乎是一种荣誉的象征。当杰拉德·德布鲁(Gerard Debreu)1983 年获得诺贝尔奖时,记者想让他对罗纳德·里根(Ronald Reagan)的经济政策说点什么。德布鲁坚决拒绝发表任何言论。一些人怀疑他不知道或者不关心这种事情。

时代发生了改变。经济学理论家由于脱离现实的假设和明显的错误结论而受到了攻击。与数据打交道的经验主义者成了新的经济学上帝。这个时代的标志之一是芝加哥经济学家史蒂文·莱维特(Steven Levitt)和《纽约时报》记者史蒂文·都伯纳(Steven Dubner)合著的畅销书《魔鬼经济学:一位草莽经济学家探索一切事物不为人知的一面》。

书名的选择完全是为了增加销量,具有很大的误导性。这本书与魔鬼没有任何关系,莱维特也不是草莽经济学家。而且,这本书并没有探索一切事物不为人知的一面。实际上,莱维特是典型的正统经济学家。他在哈佛大学获得了学士学位,在麻省理工学院获得了博士学位。他目前是芝加哥大学教授。2003 年,美国经济学会向莱维特颁发了约翰·贝茨·克拉克奖章。这个奖章用于奖励美国四十岁以下最优秀的经济学家,而且常常是诺贝尔奖的前瞻。莱维特是经济学的经验主义上帝之一。

莱维特善于以仔细而巧妙的方法利用数据解决有趣的问题,比如竞选经费对选举结果的影响,监禁对犯罪率的影响,教育激励对教师作弊行为的影响。他的结论往往会引起争议:竞选经费的规模并没有太大的影响;每个由于诉讼案件过多而被放走的囚犯都会导致每年增加 15 起犯罪案件。根据学生的考试成绩奖励教师的做法会极大地增加由教师辅助的作弊现象。莱维特曾写道:“我们最喜欢做的事情就是在数据中发现其他人看不到的东西。”

不过,上帝也会犯错误。

莱维特与约翰·多诺霍(John Donohue)合写的一篇论文认为,美国的合法堕胎降低了总体犯罪率。这篇论文也许是莱维特最著名的论文。文章指出,如果没有合法堕胎,那么由于社会经济环境以及/或者家长的忽视,那些“没有必要”但仍然被生下来的孩子将会产生犯罪倾向(尤其是暴力犯罪)。

这是一种有趣的理论,甚至有可能是正确的。问题是,由于存在众多的遗传和环境因素,因此我们很难弄清每个因素的重要性。莱维特说,他喜欢将结果从数据中梳理出来。听起来,他似乎在炫耀一种宝贵的技能。不过,这似乎也意味着他喜欢搜刮数据,而这可能是一种危险的做法。

下面是莱维特所依据的数据。1970 年,堕胎在美国五个州实现合法化。1973 年 1 月 22 日,由于“罗诉韦德案”,堕胎在全国范围内实现合法化。图 4.2 显示,在“罗诉韦德案”18 年以后,美国的谋杀率在 1991 年达到峰值。随后,谋杀率开始下降,这意味着堕胎的确导致了犯罪人口的减少。在考察每个州的各项数据以后,多诺霍和莱维特总结道:“对于最近犯罪现象的减少,合法堕胎似乎起到了 50% 的作用。”

这种争议性说法受到了来自各个角度的批评。一些人认为,谋杀率之所以在 20 世纪 80 年代上升并在 90 年代下降,是因为敌对贩卖可卡因团伙之间的地盘争夺战出现了起伏。另一种理论是,20 世纪 90 年代的犯罪率之所以下降,是因为孩子们由于接触含铅汽油和油漆而中毒的机会变少了。




图 4.2 每 10 万人的谋杀案数量



此外,一些研究人员指出,对于自身行为对未来造成的后果有着清醒认识的女性可能更倾向于选择堕胎,而她们也是能够培养出守法孩子的优秀母亲。而且,合法堕胎的规定可能会增加性活动和非婚生子女,而在单亲家庭里长大的孩子可能更容易犯罪。这些观点意味着合法堕胎反而有可能提高犯罪率。

让我们观察一些数据。图 4.3 显示了 14~17 岁的犯罪率。“罗诉韦德案”所导致的首批合法堕胎行为扼杀了将在 1973 年年末出生的孩子。这些没有必要出生的孩子将在 1987 年年末达到 14 岁,并将在 1991 年年末达到 18 岁。因此,首批受到“罗诉韦德案”影响的群体将在 1987 年年末和 1991 年年末之间达到 14~17 岁。图 4.3 显示,犯罪率在这些年份持续上升,并在 1993 年达到峰值。1993 年的犯罪率是 1984 年的三倍。不过,1993 年的那批人出生时堕胎是合法而方便的,而 1984 年的那批人出生时堕胎是非法而困难的。




图 4.3 14 ~ 17 岁的谋杀率



图 4.4 显示了 18~24 岁以及 25~34 岁的犯罪率。首批受到“罗诉韦德案”影响的 18~24 岁群体的谋杀率出现了下降,但首批受到“罗诉韦德案”影响的 25~34 岁群体的谋杀率出现了上升。

所以,“罗诉韦德案”后 18~24 岁群体的谋杀率出现了下降,但 14~17 岁和 25~34 岁群体的谋杀率出现了上升。这些数据与“罗诉韦德案”降低了谋杀率的理论并不一致。图 4.3 和图 4.4 真正能够证明的是谋杀率在 20 世纪 90 年代早期达到峰值:14~17 岁群体以及 18~24 岁群体为 1993 年,25~34 岁群体为 1991 年。35 岁以上群体(图中没有显示)的谋杀率在 1990 年达到峰值。换一种说法,35 岁以上群体的谋杀率在 1990 年达到峰值,25~34 岁群体在 1991 年达到峰值,这些人都是在“罗诉韦德案”之前出生的。18~24 岁群体的谋杀率在 1993 年达到峰值,其中一些人在“罗诉韦德案”之前出生,一些人在其之后出生。最后,14~17 岁群体的谋杀率在 1993 年达到峰值,这些人都是在“罗诉韦德案”发生几年以后出生的。




图 4.4 18 ~ 24 岁以及 25 ~ 34 岁的谋杀率



真相是,所有年龄群体的谋杀率都在 20 世纪 90 年代早期达到峰值。不管怎样解释,合法堕胎都不会是其中的原因。





是我的错




那么,多诺霍和莱维特是如何得出“合法堕胎减少犯罪”这一结论的呢?波士顿联邦储备银行的两位经济学家克里斯多夫·富特(Christopher Foote)和克里斯多夫·戈茨(Christopher Goetz)对多诺霍和莱维特的研究进行了仔细检查,发现了三个问题。首先,多诺霍和莱维特使用了逮捕日期,但是逮捕与犯罪之间可能间隔了一年以上的时间。其次,多诺霍和莱维特考虑的是犯罪总数量,而不是犯罪率(调整了人口规模因素后的犯罪数量)。较少的人口自然可能犯下较少的罪行,而合法堕胎本身就会降低人口数量。

第三个问题是“程序错误”,也就是一个简单的人为错误。多诺霍和莱维特声称,他们利用某种统计程序处理各州内部不同年份之间的变化,但他们并没有这样做。在修正这些错误以后,富特和戈茨得到的结论是,堕胎很可能会提高暴力犯罪率,同时对财产犯罪率没有影响。

莱维特承认了这个程序错误,并表示:“这使我个人感到非常尴尬,因为我一直为自己对数据的仔细处理而感到自豪。”不过,这不是莱维特第一次感到如此尴尬。之前一篇关于“提高警力对犯罪的影响”的论文也出现了一个程序错误,对此他发表了这样的致歉声明:“我需要承认这些错误,这使我个人感到极为尴尬。”在这两次事故中,莱维特很有风度地承认了错误(他还有别的选择吗?),但他仍然认为其他证据可以支持他的结论,只是结论的效果可能比他最初预想的要小一些。也许他说得没错,但是人们很难忘记这些尴尬的时刻。


×如何轻松识破一本正经地胡说八道



具有争议性的论断之所以具有争议性,是因为它们违反直觉——这是一个很好的怀疑理由。当你听到这样的说法时,不要轻易认为自己是错误的。具有争议性的论断很可能应当被丢弃。考虑数据是否存在问题,比如自选择偏差。考虑因果关系是否应该颠倒过来。哦,对了,还要考虑出现错误的可能性(比如人们让计算机计算 196 的平方根,而不是 169 的平方根。即使是最优秀、最诚实的研究人员也是人),而人总会犯错误。



莱因哈特和罗戈夫具有全球影响力的研究以及《魔鬼经济学》的巨大成功给我们带来的具有讽刺意义的教训是,数据并不比思想更加重要。我们常常会被数据欺骗。





第 5 章

扬基队的门票真的划算吗?





图像可以帮助我们解释数据,做出推断,发现倾向、模式、趋势和关系。一张图片的价值不仅有可能胜过千言万语,而且有可能胜过一千个数字。不过,从本质上说,图像具有描述性——图片的目的是讲故事。和其他故事一样,愚笨的人可能会毁掉一个包袱,不诚实的人可能会撒谎。

图像可能会有意无意地扭曲或破坏数据。





我的天哪




在一次例行会议上,一家互联网公司的分析团队向总裁展示了图 5.1 中的收入图像。图中的数据是公司过去 7 个季度的收入。老实说,这张图非常无聊。

总裁看了一会儿,说:“那么,为什么这张图的收入这么平坦,而我上周向董事会展示的那张图的收入那么糟糕呢?”分析团队感到很吃惊。他们并没有见过另一张图,只好耸了耸肩。显然,他们无法回答这个问题。

总裁将制作上一张图的那个财务人员叫了过来,让他把那张图(图 5.2)分发给大家。当分析人员看到这张图时,他们立刻笑了起来,因为这张图的纵轴上并没有零点。

总裁没有笑。她说,董事会一直在盘问她,让她解释为何收入下降得如此剧烈。她一次又一次地辩解说:“不是这样的!”董事会成员则一次又一次地将手指向这张显示收入崩塌的该死图表。

图 5.1 和图 5.2 使用了完全相同的数据。不过,图 5.1 的纵轴包含零点,图 5.2 的纵轴则不含零点。图 5.1 掩盖了数据中的任何模式,我们无法判断利润达到峰值的时间。另一方面,图 5.1 正确地向我们传达了“最近的下探很轻微”这一信息。




图 5.1 收入是平的





图 5.2 收入急剧下降



图 5.2 忽略了零点,放大了数据的波动性,使我们能够发现原本非常模糊的变化。不过,当零点被忽略时,图像将不再准确指示变化的量级。要想知道变化幅度,我们需要查看具体数据。图 5.2 中的曲线高度下降了 40%,但实际收入只下降了 2%。




图 5.3 神秘的数轴



图 5.3 显示的图像具有更低的透明度,因为纵轴上并没有数字。罗纳德·里根总统曾在电视上用这样的图像对年收入 2 万美元的家庭根据他的议案以及众议院筹款委员会拟定的计划分别需要支付的税金进行比较。纵轴显然忽略了零点,而且并没有显示任何数字,只有一个巨大的美元符号。由于纵轴没有数字,因此我们无法衡量两条线之间差距的幅度。实际上,1986 年的差距相当于 9% 的税收减少,即从 2385 美元下降到 2168 美元。由于纵轴忽略了零点,因此这个 9% 的差距被放大成了标有“他们的议案”那条曲线高度的 90%。又由于纵轴上没有数字,因此读者无法发觉这种具有误导性的放大♣。

事后,白宫发言人戴维·格根(David Gergen)告诉记者:“我们尝试了带有数字的图像,发现它们在电视上很难看清,因此我们去掉了数字。我们只是想要传达一种思想。”是的,没错。





虚惊一场




1976 年,美国国家科学基金会(NSF)制作了一张图(图 5.4)。显然,这张图意味着颁发给美国公民的诺贝尔科学奖(化学、物理、医学)的数量出现了令人震惊的下降。我们的教育系统出了什么问题?我们的人才是否正在枯竭?




图 5.4 美国诺贝尔科学奖数量的急剧下降?



等一下。看看时间轴。前七个时间段都是 10 年,但是第八个时间段 1971~1974 年只有 4 年。由于四年颁发的诺贝尔奖数量少于 10 年颁发的数量,因此美国国家科学基金会制造了一种幻觉,使人误以为美国人获得的科学奖数量出现了下降。




图 5.5 美国诺贝尔科学奖持续增加



图 5.5 使用了完整的 10 年期数据。如图所示,美国公民最终在 20 世纪 70 年代获得了比 60 年代更多的诺贝尔奖。当然,这个趋势无法永远持续下去,除非诺贝尔奖的总数量得到提升。不过,在 20 世纪 70 年代,美国获得了超过一半的诺贝尔科学奖,优于 20 世纪 80 年代、90 年代以及 21 世纪前 10 年的表现。





让他们吃蛋糕吧①




新保守主义者戴维·弗鲁姆(David Frum)在《纽约时报》上发表了一篇文章《欢迎,新富人》。图 5.6 是文章中一张图片的更新版。如图所示,在 1980 年到 1990 年之间,年收入超过 10 万美元的家庭数量出现了急剧增长。弗鲁姆写道:“这个星球的历史上从未出现过如此庞大的富人群体。”这听上去是不是有点夸张?




图 5.6 年收入超过 10 万美元的家庭数量



你注意到这张图的奇怪之处了吗?前四个条柱之间都是相隔五年,但是第四个条柱和第五个条柱之间却隔了 10 年(1980 和 1990)。如果调整条柱之间的间隔,插入 1985 年的条柱,这种增长就会变得更加平缓,不会在 1980 年和 1990 年之间出现突兀的上涨。

而且,1990 年的 10 万美元并不等同于 1965 年的 10 万美元。在这段时间里,物价上涨了大约三倍,因此 1990 年的 10 万美元大概相当于 1965 年的 2.5 万美元。考虑到通胀因素,我们应当对 1965 年年收入 2.5 万美元的家庭数量与 1990 年年收入 10 万美元的家庭数量进行比较。我们还应当考虑到 1965 年和 1990 年之间的人口增长。当总人口增加时,拥有高收入的人口数量自然有可能增加。每日海量书籍,大师课精彩分享微.信:dedao555

图 5.7 修正了所有这些问题,显示了扣除通胀因素后年收入超过 10 万美元的家庭百分比,并且插入了 1985 年的数据。此外,图中还包含了 1995 年和 2000 年的数据,以提供更多历史背景。根据调整后的数据,20 世纪 80 年代没有什么奇特之处。真正值得注意的是互联网泡沫所在的 90 年代后期。




图 5.7 扣除通胀因素后年收入超过 10 万美元的家庭百分比





有弹性的数轴




图 5.8 是《华盛顿邮报》一张图表的更新版本。根据这张图,美国医疗成本从 1940 年到 2010 年出现了稳定的增长。(1940 年的成本被调整成了单位 1。)




图 5.8 医疗成本稳步上升



这张直线图上装饰着心形图案。也许,这是为了显示医生的确非常关心病人,或者暗示丘比特那支笔直的箭射穿了十一颗心。或者,这种毫无必要的装饰也许是为了转移人们对横轴的注意力。在横轴上的十个等距区间中,第一个区间表示 1940 年到 1975 年之间的三十五年,第二个区间表示 1975 年到 1982 年之间的七年,其余区间表示三年或者四年。这些令人困惑的区间显然是为了使曲线看上去更加平直。直线在视觉上也许更具吸引力,但它会歪曲数据。要想让图像准确显示数据,每条数轴上的单位必须具有一致性。同样的 1 厘米不能时而代表 35 年,时而代表七年,时而代表三年。如果图中的区间变来变去,数据一定会遭到扭曲。




图 5.9 更好的医疗成本图



图 5.9 使用了一致的区间。如图所示,医疗成本并没有沿着直线增长。

为什么成本在 1970 年以后加速增长?也许是因为始于 1965 年的医疗保险开始增长。也许是因为价格整体上出现了增长(这些图像应当扣除医疗成本的通胀因素)。我们无法根据这些数据本身做出判断。不过,我们至少知道,图表中间隔的变化会扭曲数据。





将恶作剧翻倍




1786 年,拥有多项才能的苏格兰人威廉·普莱费尔(William Playfair)出版了包含 44 张图表的《商业和政治图表集》,这是历史上用图像表示数据的一个标志性事件。“普莱费尔”的字面意义是“公平行事”,尽管这个人并不总是能够诚实地运用自己的才能。在这份图表集中,有 43 张图表显示了工资、物价以及其他数据随时间的变化。这种目前已经司空见惯的工具在当时是一件极为新奇的事物,因此普莱费尔不得不做出解释:“这种方法使一些人感到震惊,他们觉得这是一种荒谬的做法,因为几何测量与金钱和时间之间没有任何关系;但是这里却用几何工具来表示金钱和时间。”




图 5.10 普莱费尔跨越 250 年的工资和物价图像



普莱费尔最著名的一张图发表于 1821 年,显示了从 1565 年到 1821 年“优秀技工”的周薪(图表下方的曲线)和小麦价格(黑色条柱)。普莱费尔写道:“值得注意的最主要的现象是,历史上,小麦相对于技工劳动的价格从未像现在这样便宜。”虽然普莱费尔得出了正确的结论,即工资增长超过了小麦价格的增长,但他的图表似乎显示出了相反的结论。

我将使用 1975 年到 2010 年美国家庭收入中值与消费者物价指数(CPI)的数据来说明普莱费尔的图表为何具有误导性。将这些数据放在一张图表上是一件很有挑战性的工作,因为收入的范围是 1.2 万到 5 万美元,而消费者物价指数的范围则是 54 到 218。一种解决方案(也就是普莱费尔的解决方案)是使用两个纵轴,一个表示收入,另一个表示消费者物价指数。图 5.11 似乎清晰表明,家庭收入的增长远远超出了消费者物价指数的增长。现在的美国人在经济上显然比过去富裕得多。




图 5.11 收入增长远超物价



图 5.11 真正说明的问题是,如果你将数轴放大一倍,你就可以将恶作剧放大一倍。通过使用两个纵轴并忽略一个或两个纵轴的零点,你可以创建一家“统计美容院”,开启许多美容可能性。图 5.12 显示了完全相同的数据,但是图中物价的增长似乎远远超过了收入的增长!这个把戏的关键在于调整数轴上显示的数字。如果在数轴上选择范围较小的数字,数据的起伏就会被放大,如果在数轴上选择范围较大的数字,数据的起伏就会被抚平。图 5.11 使用了范围较小的收入数轴和范围较大的 CPI 数轴,因此收入的增长看上去超过了物价的增长。图 5.12 采用了相反的做法,使用了范围较大的收入数轴和范围较小的 CPI 数轴,因此物价的增长看上去超过了收入的增长。




图 5.12 物价增长远超收入



这个问题没有适用于所有情况的解决方案。在上面的例子中,一个很好的办法是用物价数据校正收入数据,得到一组扣除通胀因素后的收入数据。扣除通胀因素后,过去 35 年的家庭收入中值出现了一定的增长(收入增长速度稍快于物价),但是这个过程中也存在一些由于经济衰退而导致的下挫。





学生谎言




一所中等规模的大学有一份校刊,叫做《学生生活》。在校园里,人们亲切地称之为“学生谎言”。这份校刊制作了一张图(图 5.13)。在这张图上,我们可以明显看出,在 20 世纪 90 年代,该校的就读成本(学费加上住宿和餐饮费用)迅速上涨,而学校在《美国新闻》上的排名却急剧下降。




图 5.13 扣除通胀因素后的收入



图中的问题实在是太多了。从哪儿说起呢?图 5.14 有两个纵轴,一个用于表示成本,一个用于表示排名。两个纵轴都忽略了零点,以放大成本和排名的变化。不仅零点被省略,整个数轴和相关数字都被擦掉了,因此我们无法衡量 20 世纪 90 年代这些变化的大小。这张图所依据的数据显示,成本从 1990 年的 2 万美元增长到了 2000 年的 3.6 万美元,每年大约增长 6%,这个数字不算小,但它与同类大学的增长速度相当。




图 5.14 花费越多,收获越少



《美国新闻》的排名从 17 变成了 13,这是一种很大的变化。不过,等一下。在大学排名中,第一名才是最好的学校!从 17 变成 13 实际上是一种进步。

因此,成本的年增长率为 6%,与同类大学基本持平,《美国新闻》排名则出现了很大的进步,这与图 5.14 讲述的令人震惊的故事完全不同。在此之前,《伊萨卡时报》头版曾经贴出一张关于康奈尔大学学费和排名的类似图表,它比图 5.14 更加复杂,而且更加古怪。除了图 5.14 中的问题,《伊萨卡时报》的图表还省略了横轴,因为它比较的是康奈尔大学在两个不同时间段的学费和排名!学费使用的是 1965~1999 年(35 年)的数据,学校排名使用的则是 1988~1999 年(12 年)的数据。





扬基队的门票很划算




纽约扬基队是棒球领域最具传奇色彩的球队。截止 2013 年,在 108 次世界职业棒球大赛中,扬基队获得了 40 次参赛资格,赢得了 27 次冠军。排名第二的圣路易斯红雀队只获得了 11 次冠军,被远远甩在了后面。43 名扬基队队员进入了名人堂,包括贝比·鲁斯(Babe Ruth)、卢·贾里格(Lou Gehrig)、乔·狄马乔(Joe DiMaggio)和米基·曼特尔(Mickey Mantle)。扬基队也是职业体育界最受人鄙视的球队之一,部分原因在于,人们认为这支球队利用高薪挖走了小城市不太富裕的球员,通过金钱手段获得了成功。一些棒球迷自豪地戴着扬基棒球队的帽子,其他一些棒球迷则故意炫耀 T 恤上的“扬基糟糕透顶”字样。

扬基体育场 1923 年启用,其成本相当于今天的 3000 多万美元,拥有前所未有的 5.8 万个席位。贝比·鲁斯是 20 世纪 20 年代最受欢迎的棒球选手,他在扬基体育场的首场比赛中击出了全垒打。观看鲁斯全垒打的观众购买的门票被用于支付体育场的开销,这使它获得了“鲁斯建造的建筑”这一外号。86 年后,2009 年,扬基队搬到了街对面新的扬基体育场,该体育场的建设成本超过 20 亿美元。在新体育场的建造过程中,许多球迷担心扬基队会逐步提高已经很贵的票价,以支付体育场的费用。

扬基队用体育场包厢座位价格的历史数据制作了一张图(图 5.14)。这张图显示,从 1995 年到 2010 年,门票价格并没有加速上涨,反而趋于平缓,这与人们的感受相反。

你注意到图 5.15 的异常之处了吗?不知为什么,图中的时间被放在了纵轴上。我们平时习惯于看到时间出现在横轴上的图像,因此我们很难第一眼看清图 5.14 的含义。图 5.16 显示了同样的数据,只是将时间放在了正常的位置,即横轴上。这种数轴转换使结论发生了逆转。1994 年以后,扬基队的票价增速不仅没有下降,反而出现了上升。1967 年到 1994 年的年增长率为 6%,1994 年到 2010 年的年增长率为 21%。你还觉得这很划算吗?




图 5.15 扬基队门票价格增速放缓





图 5.16 扬基队门票价格加速上涨





图像的制作艺术




《时代》杂志的第一位图像专员是一位艺术学校毕业生,他的目标是“将统计数据表现为某种视觉思想,而不是一堆沉闷的数字。”数字本身并不沉闷。它们可以说明问题,引人注目,甚至令人愉快。当我们认为图像的艺术性比知识性更加重要时,我们就会遇到麻烦。


越大越好?


当吉米·卡特总统(President Jimmy Carter)1979 年任命保罗·沃尔克(Paul Volcker)担任美联储主席时,美国的通货膨胀率已经超过了 13%。在一场针对通货膨胀的全面战争中,美联储将利率提高到了前所未有的水平。在被问及这些货币紧缩政策是否会导致经济衰退时,沃尔克回答道:“是的,而且越快越好。”在另一场谈话中,沃尔克表示,“当最后的圆锯停止转动时”,他才会感到满意。这句话的意思是,他希望将利率提到足够高的水平,以堵住借贷源头,使建筑行业停产。

1981 年,住房抵押贷款利率达到了 18%,其他大多数贷款的利率还要更高。随着利率的上涨,家庭和企业减少了借贷以及对汽车、住房和办公楼的购买。失去工作的建筑工人迅速减少了食品、服装和娱乐开支,这给整个经济带来了一种传导效应。面对昂贵的贷款和下降的收入,农场主将拖拉机开进了华盛顿特区中心,封锁了美联储大楼。失业率从 1979 年的 5.8% 上升到了 1982 年的 10% 以上,这也是大萧条以来的最高水平。不过,美联储的焦土政策将通货膨胀率从 1979 年的超过 13% 降低到了 1982 年的 4% 以下。

图 5.17 比较了三位美国总统任期结束时一张百元钞票的购买力。根据定义,在杰拉尔德·福特(Gerald Ford)任期结束时,一张百元钞票的价值为 100 美元。到 1981 年吉米·卡特任期结束时,一张百元钞票只值 67 美元——因为它只能买下四年前用 67 美元买下的东西。到罗纳德·里根任期结束时,一张百元钞票只值 49 美元。




图 5.17 100 美元的价值在不断下降!



这些不断缩水的百元钞票似乎表明,吉米·卡特任职期间钞票价值的下降相对温和,里根任职期间钞票价值的降幅则要大得多——这个结论很奇怪,因为卡特是 20 世纪 70 年代后期严重通货膨胀期间的总统,而里根在 1981 年 1 月才担任总统,当时通货膨胀正在消退。100 美元、67 美元和 49 美元这三个数据显然意味着同里根的任期相比,卡特任期内的美元价值下降得更厉害,但是上面这张图却讲述了一个完全不同的故事。哪个故事才是正确的呢?

图 5.17 的一个问题是,卡特担任了 4 年总统,里根则担任了 8 年总统。虽然这张图考虑到了年份因素,但是这种任期长度的差别并不明显,因为横轴上并没有年份——实际上,图中并没有画出横轴。另一个问题是,由于纵轴的省略,我们无法判断图中是否包含零点。

更糟糕的是,图中没有使用简单的条柱,而是使用了形象的百元钞票。里根任期结束时的物价是福特任期结束时的两倍,百元钞票的价值减少了一半。如果将里根那张钞票的高度减半,同时不改变宽度,图片就会出现失真,就像哈哈镜一样。为避免图片被压扁,里根那张百元钞票的宽度和高度同时被减半——这导致了另一种失真。现在,里根那张钞票的面积是福特那张钞票的四分之一,因此这张百元钞票的价值看上去减少了四分之三。

这是几个数字比一张图片更加有用的例子之一。卡特任职期间,物价的年增长率是 10.7%,里根任职期间,物价的年增长率是 3.7%——这与用意良好但聪明过度的图 5.17 所传达的错误信息完全不同。


视觉幻象


美洲原住民部落在南加州经营着多家赌场。有一个部落雇用了一位咨询师,让他根据这些赌场与潜在客户的车程对它们的位置进行评估。这是一个复杂的问题,因为你需要考虑客户的居住位置以及他们可以选择的其他赌场。如果一家赌场与一些潜在客户相距 20 公里,那么 60 公里以外另一家赌场对这些客户的吸引力就会受到影响。

咨询师提出了一个专门用于估计“区位价值”的模型。他没有对这个模型做出解释,而是用一张图(图 5.18)展示了模型的结果。这张图没有显示太多信息,是图表垃圾的一个优秀案例。图片、线条、墨水和斑点可以使图像变得更加生动,但它们常常会创造出缺乏吸引力的图表垃圾,使眼睛更加疲劳,使读者更加困惑。




图 5.18 缺乏帮助作用的图像



图像应当显示出无法在表格中明确显示出来的模式,图 5.18 并没有做到这一点。图中的条柱显然表明了这 12 家赌场的区位价值;我之所以使用“显然”一词,是因为纵轴上并没有任何标注。我们并不知道这些数字意味着什么,或者它们是如何计算的。它们是美元吗?是百分比吗?是家庭数量吗?12 个条柱被排列成了钟形曲线,但是作者并没有解释为什么要把丘马什赌场放在最前面,为什么要把金橡子放在最后面。条柱像钟形曲线一样先上升后下降的模式并没有揭示出任何有用的信息。更加明智的做法是把这些条柱按照从高到低的顺序排列。

此外,横轴上并没有任何标注。相反,我们需要在图像和图例之间来回切换,而条柱样式的相似性使这种切换变得乏味而困难。条柱的样式会使人分心,三维外观也没有任何帮助作用。最后,即使我们破译了条柱的含义,我们也不容易将条柱高度与纵轴上的数值相对应。

同表 5.1 这样的简单表格相比,上面这张柱状图并没有表现出更大的价值。有时,简洁就是美。





表 5.1 有时,一张简单的表格胜过一张凌乱的图表 赌场

区位价值



佩昌加赌场

181



莫伦戈赌场度假村

162



帕拉赌场

153



索波波赌场

145



瓦利维尤赌场

118



波马赌场

115



别哈斯赌场和赛马俱乐部

94



阿瓜连卡特

91



卡维拉溪赌场

69



奥古斯丁赌场

68



金橡子

50



丘马什赌场

38




计算机也会生成文本垃圾——将大小、样式和字体不匹配的文字粘贴在一起形成的像勒索信一样的打印文档。文字处理程序中拥有多种样式选项,但这并不意味着我们必须在一份文档中使用所有样式。我曾收到一份两页纸的时事通讯,上面使用了 32 种不同字体,这还不包括粗体、斜体和不同文字大小所形成的变化。阅读这样的文本是一种痛苦。图表垃圾和文本垃圾都是垃圾,是毫无价值的凌乱,它们无法为人们带来清晰的信息,反而分散了人们的注意力,使人感到困惑。快把垃圾扔掉!


×如何轻松识破一本正经地胡说八道



图像可以揭示某种模式,比如收入随时间的变化以及收入与支出的相互关系。图像也会扭曲数据,误导读者。



当心将数轴上的零点忽略掉的图像。这种忽略可以将图像放大,显示出之前由于分辨率问题而无法发觉的模式。不过,这种做法也会放大数据的波动性,可能产生误导效果。最糟糕的是数轴上没有数字的图像,因为我们无法判断数据的波动性得到了怎样的放大。



当心没有调整人口和物价增长因素的数据。不要被那些将时间放在纵轴上的图像欺骗,尽管我们并不经常见到这样的图像。也不要被间隔不一致的图像欺骗——比如同样的 1 厘米时而表示五年间隔,时而表示十年间隔。



图像不应当仅仅成为一种装饰,为那些缺乏耐心的人带来乐趣。有用的图像可以准确而一致地展示数据,帮助我们理解数据。相反,图表垃圾会分散我们的注意力,使我们感到困惑和烦躁。有些图表垃圾的制作者本意是好的,但是方法不当。有些图表垃圾则是故弄玄虚。




① 传说,当玛丽·安托瓦内特王后听说农民没有面包吃时,她说,让他们吃蛋糕吧。——译者注





第 6 章

美国有多少非裔职业运动员?





伟大的法国数学家皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace)曾经评论道,“概率只不过是以计算形式体现出来的常识而已”。我们应当对缺乏思考的计算保持警惕。计算是一件相对容易的工作。更有难度的问题是这种计算是否有道理。





蒙提·霍尔问题




统计难题和悖论是一种具有挑战性的趣味头脑体操。它们也可以说明先思考后计算的价值。蒙提·霍尔问题是一个很好的例子。在电视节目《一锤定音》中,你可以在三扇门之中做出选择。其中,一扇门后面是一项大奖,另外两扇门后面是山羊。在你选择一扇门以后,主持人蒙提·霍尔(Monty Hall)每次都会向你展示你没有选择的一扇门后面的山羊,并且询问你是否想要换一扇门。

大多数人认为,既然还剩下两扇门,那么这两扇门的机会是均等的。不过,请动用一下你的常识。你已经知道你没有选择的两扇门中的一扇门后面是山羊了。“他提醒你这两扇门中的一扇门后面有一只山羊”与“他通过向你展示一只山羊来证明这一点”有区别吗?关于你所选择的那扇门,你并没有获得任何有用的信息。选择这扇门获胜的可能性仍然是三分之一;因此,选择最后一扇门获胜的概率上升到了三分之二。你应当做出转换。

表 6.1 展示了 300 场游戏的结果,其中第一扇门是你最初的选择。在奖品位于第一扇门后面的 100 场游戏中,主持人一半的时候展示第二扇门,一半的时候展示第三扇门。当奖品在第二扇门或者第三扇门后面时,主持人必须展示另一扇门。

第二扇门被展示了 150 次;第三扇门被展示了 150 次。不管主持人展示的是第二扇门还是第三扇门,奖品位于第一扇门后面的次数都是三分之一。





表 6.1 蒙提·霍尔问题 第一扇门有奖品

第二扇门有奖品

第三扇门有奖品

总计



第二扇门被打开

50

0

100

150



第三扇门被打开

50

100

0

150



总计

100

100

100

300




对于这个难题,另一种思考方法是假设你在选择第一扇门以后昏了过去。你既没有看到蒙提打开一扇门,也没有听到他询问你是否换一扇门。显然,你获胜的可能性仍然是三分之一。

怀疑者有时会被一百万扇门的极端情况说服。假设你不断进行这项游戏。每一次,蒙提向你展示剩余那些门之中某一扇门后面的山羊。你认为你能够在一半的游戏中获得大奖吗?

凭借“最高智商”入选吉尼斯世界纪录名人堂的玛莉莲·沃斯·莎凡(Marilyn vos Savant)在联合专栏“问问玛莉莲”中讨论了蒙提·霍尔问题,在全国范围内引发了人们的愤怒抗议。玛莉莲给出了正确答案,随后收到了一万多封信,许多信件来自大学教授,大多数信件认为她说错了。乔治梅森大学的一位数学教授极为愤怒:


你搞砸了!让我给你解释一下吧:如果一扇门被证明没有奖品,这种信息会把剩余两个选项的概率变成 1/2。没有任何理由能够使二者之间出现差异。作为一名数学教授,我对公众缺乏数学技能的现象感到深深的忧虑。请帮帮忙,承认你的错误,并在未来的工作中多加注意。




玛莉莲坚持了自己的答案,并且邀请人们在家中进行这项游戏。数万名学生在全国各地的课堂上进行了实验。新墨西哥州洛斯阿拉莫斯国家实验室进行了计算机模拟。渐渐地,舆论发生了转变。玛莉莲是正确的。那位乔治梅森大学的教授表示,“我向她写了另一封信,并在信中告诉她,在收回自己愚蠢的言论之后,我向你低头认错。我发誓,为了赎罪,我将回复所有写信谴责我的人。作为一名教授,我感到极为尴尬。”

关于这段故事,《纽约时报》发表了一篇文章,包括对蒙提·霍尔本人的采访。霍尔曾在数千场《一锤定音》电视节目的结尾主持这项游戏的某个版本。霍尔知道选手最初的选择仍然有三分之一的正确概率,他还知道打开一扇门的做法会使选手认为自己的机会提高到了一半。他将这种做法称为“亨利·詹姆斯处理”或者“旋转的螺丝”。当选手形成“五五开”的思维模式时,霍尔可以为他们提供数千美元转换或不转换的奖励,以便从心理上将他们推向一边或另一边。霍尔还注意到,他不需要按照玛莉莲的规则行动。如果选手最初选择的门后面是山羊,霍尔可以直接打开这扇门,不向选手提供转换机会。霍尔与《纽约时报》撰稿人进行了十场游戏,撰稿人每次都选择了山羊。





一个名叫佛罗里达的女孩儿




另一个悖论是,一个名叫史密斯(Smith)的男人正在和他的女儿散步。史密斯说,他们家还有一个孩子。这个不在身边的孩子是女孩儿的概率是多少?乍一看,这个概率似乎是 1/2。不过,一些专家认为这个回答很天真。这些专家说,正确答案是 1/3。他们还说,如果我们发现和史密斯在一起的女孩儿是他的第一个孩子,那么这个概率就会从 1/3 变成 1/2。这是怎么回事呢?

这个悖论具有许多不同的形式,包括男孩儿、女孩儿、熊、鹰,而且曾经出现在许多不同的场合,包括马丁·加德纳(Martin Gardner)1959 年在《科学美国人》上的一篇专栏文章、约翰·保罗(John Paulos)1988 年的作品《数学盲》以及列纳德·蒙洛迪诺(Leonard Mlodinow)2008 年的作品《醉汉的脚步》。这个问题所依据的传统假设是,在所有二孩家庭中,1/4 家庭有两个男孩儿(BB),1/4 家庭有两个女孩儿(GG),一半家庭拥有一个男孩儿和一个女孩儿(男孩儿先出生的情况记作 BG,女孩儿先出生的情况记作 GB)。这些假设与现实并不完全相符,但是这个题目讨论的是逻辑,而不是数据。

“专家”的观点是,当我们知道史密斯的一个孩子是女性时,只剩下了三种可能性:BG、GB 和 GG。因此,两个女孩儿(GG)的概率是 1/3,一个男孩儿和一个女孩儿(BG 或 GB)的概率是 2/3。这种说法听起来很有道理。不过,在你接受这种观点之前,考虑下面的说法。如果这种逻辑是正确的,那么它也适用于史密斯和男孩儿在一起散步的情况。在这种情况下,我们可以排除 GG 的可能性,认为史密斯拥有一个男孩儿和一个女孩儿的概率是 2/3。

如果这种观点是正确的,那么和史密斯在一起散步的孩子是女孩儿还是男孩儿并不重要!因为在这两种情况下,他拥有一个男孩儿和一个女孩儿的概率都是 2/3。因此,我们不需要知道和史密斯在一起的孩子的性别。这个孩子可以藏在史密斯身后,具有某种模糊的性别,或者在公园里和其他几十个孩子一起玩耍。不管是哪一种情况,史密斯拥有一个男孩儿和一个女孩儿的概率都是 2/3。这种说法显然是错误的,因为在所有二孩家庭中,只有一半的家庭拥有一个男孩儿和一个女孩儿。常识一定是正确的,专家的推理一定存在缺陷。

回过头来,考虑史密斯与一个孩子在一起散步的各种可能性。表 6.2 显示了在 BB、BG、GB 和 GG 之间均匀分配的 400 个家庭。在史密斯有两个男孩儿的 100 种情况中(BB),他总是和一个男孩儿散步。在史密斯有两个女孩儿的 100 种情况中(GG),他总是和一个女孩儿散步。在他拥有一儿一女的情况中(BG 或 GB),一个合理的假设是,他与男孩儿或女孩儿散步的概率相等。





表 6.2 史密斯的另一个孩子是男孩儿或女孩儿的概率相等 BB

BG

GB

GG

总计



和女孩儿散步

0

50

50

100

200



和男孩儿散步

100

50

50

0

200



总计

100

100

100

100

400




现在观察第一行,即史密斯和女孩儿散步的 200 种情况。在 100 种情况中(GG),不在场的孩子是女孩儿,在另外 100 种情况中(BG 或 GB),不在场的孩子是男孩儿。在第二行里(史密斯和男孩儿散步的 200 种情况),在 100 种情况中(BB),不在场的孩子是男孩儿,在另外 100 种情况中(BG 或 GB),不在场的孩子是女孩儿。不管和史密斯散步的孩子是女孩儿还是男孩儿,他的另一个孩子是男孩儿或者女孩儿的概率都是相等的。专家错了,常识是正确的。

专家们根据错误的逻辑继续说道,如果我们知道和史密斯散步的女孩儿比另一个孩子年长,那么另一个孩子是女性的概率就会从 1/3 提升到 1/2。专家的理由是,在我们知道陪伴史密斯的女儿是他的第一个孩子以后,我们可以排除 BB 和 BG 的情况,只留下 GB 和 GG 的情况。因此,两个女儿的概率从 1/2 提升到了 1/2。不过,让我们用常识考虑一下这种逻辑的推论。如果知道女儿年长可以将两个女儿的概率从 1/3 提升到 1/2,那么知道女儿年幼也可以将两个女儿的概率从 1/3 提升到 1/2。不过,这个女孩儿一定不是年长就是年幼。根据专家的说法,在这两种情况下,两个女儿的概率都会从 1/3 提升到 1/2。因此,即使我们不知道这个女孩儿年长还是年幼,我们也知道两个女儿的概率是 1/2!常识仍然是正确的,专家仍然是错误的。

最近,蒙洛迪诺改进了二孩悖论,认为如果这个女孩儿宣布自己拥有一个独特的名字,比如佛罗里达,那么这种做法也会将两个女孩儿的概率从 1/3 提升到 1/2。他的理由仍然与直觉相反,而且最终被证明是不正确的。如果蒙洛迪诺的说法是正确的,它将适用于每一个名字,因为每个名字都是独特的。(如果教名不够独特,可以使用教名和中间名,或者使用教名、中间名和出生日期。)如果这种说法适用于每一个名字,那么这个名字是什么并不重要,我们是否知道这个名字也不重要。这里没有悖论,只有受到歪曲的逻辑。

2010 年,在两年一度纪念马丁·加德纳的“加德纳集会”上,加里·福希(Gary Foshee)提出了这个问题的另一个版本。他走上讲台,说道:“我有两个孩子。一个是男孩儿,出生在星期二。我有两个男孩儿的概率是多少?”停了一会儿,福希继续说道:“你能想到的第一件事情是,‘这和星期二有什么关系?’实际上,二者之间存在密切的关系。”然后,福希走下了讲台。他的发言在会场和互联网上引发了一场热烈的讨论。

我的回答是,这和星期二的确没有任何关系。如果星期二能够改变这个概率,那么星期三、星期四或者一周里的其他任何一天也能以同样的方式改变这个概率。不过,这个孩子一定会出生在一周里的某一天。因此,如果福希的说法是正确的,我们可以在不知道这一天是星期几的情况下改变这个概率。福希是错误的。这一天是星期几并不重要。





条件概率的混淆




我有一个缺乏耐心的亲戚——让我们叫他鲍勃(Bob)吧。一次,鲍勃走进一家大卖场,准备购买一部智能手机。手机的款式实在是太多了!他请一位店员帮忙。面对店员说出的令人难以理解的话语,鲍勃的沮丧感不断加深。蓝牙、地理标记、兆像素、HDML、IOS、LCD、RAM、ROM,等等。最终,鲍勃留下一句“你嗑药了吧”,然后转身离去。

在开车回家的路上,鲍勃想到了一个好主意。企业应当通过药检筛选求职者,监督员工。奥运会有药检,自行车运动有药检,赛狗运动也有药检,为什么不能把药检运用到某种重要的事情上,比如服务顾客呢?

鲍勃做了一些调查,发现针对吸食大麻的简单尿检拥有 95% 的准确率。这当然已经足够好了!既然 95% 的准确率在统计检验中是一个足够好的准确率,那么它当然也可以用于排除瘾君子。每日海量书籍,大师课精彩分享微.信:dedao555

不过,如果将鲍勃的想法付诸实践,美国的失业率可能会急剧上升,而且这并不是因为我们是一个毒品之国。鲍勃犯了一个很常见的错误,他混淆了两种条件概率。

几年前,一位黑人大学教授询问一群黑人退伍军人:美国有多少非裔职业运动员?退伍军人给出的猜测在 5 万人到 50 万人之间。正确答案是 1200 人。美国的黑人律师是这个数字的 12 倍,黑人医生是这个数字的 15 倍。没有一个退伍军人相信他的话,但他的说法是正确的。

这一现象的深层次问题是,人们将不同的条件概率混淆在了一起。我们看到黑人在职业运动员中占有很大的比例,因此下意识地认为很大一部分黑人都是职业运动员。如果我们将话题从种族转变成性别,这个错误就会更加明显。美职篮的所有球员都是男性,但是男性之中在美职篮打球的群体只占很小的一个比例。

当年,许多(也许是大多数)非裔美国孩子希望成为下一个迈克尔·乔丹(Michael Jordan)或者魔术师约翰逊(Magic Johnson)。今天,他们希望成为勒布朗·詹姆斯(LeBron James)或者凯文·杜兰特(Kevin Durant)。遗憾的是,他们几乎一定无法成功。拥有梦想和抱负是好的,但是认清现实更加重要。学术和体育运动都很重要,学者兼运动员应当受到尊重。不过,同运动员相比,学者更有可能得到一份好工作。

2012 年,俄亥俄州立大学三线四分卫发布了一条推文:“我们是来打橄榄球的,为什么我们还要上课,我们不是来打学校的,上课是没有意义的。”好吧,几年以后,我们再来看看情况如何。





假阳性问题




毒品检测领域也存在同样的混淆问题。95% 的大麻检测准确率意味着在使用大麻的人之中,95% 的人会检测出阳性。那么,问题来了:在检测出阳性的人之中,大麻使用者的比例是多少?

如果对员工进行毒品检测,会产生两类错误。如果检测错误地发现毒品痕迹,这种错误叫做假阳性;如果检测没能发现毒品痕迹,这种错误叫做假阴性。为了说明假阳性可能产生多大的问题,考虑一项针对 1 万名员工的检测,其中 500 名员工(5%)使用了大麻,9500 名员工(95%)没有使用大麻。进一步说,假设检测的准确率是 95%:95% 的大麻使用者会得到阳性检测结果,95% 不使用大麻的人会得到阴性检测结果。

表 6.3 显示,在使用大麻的 500 人中,475 人(95%)得到了阳性检测结果,25 人(5%)没有得到阳性结果。在不使用大麻的 9500 人中,475 人(5%)得到了阳性检测结果,9025 人(95%)没有得到阳性结果。到目前为止,情况还算不错。





表 6.3 假阳性问题 检测呈阳性

检测呈阴性

总计



大麻使用者

475

25

500



非大麻使用者

475

9025

9500



总计

950

9050

10000




不过,表 6.3 还显示,在 950 个阳性检测结果中,475 个结果是假阳性。高达 50% 的阳性员工没有使用大麻。这就是我们需要谨慎对待条件概率的原因。虽然 95% 的大麻使用者会检测出阳性结果,但是只有 50% 的阳性结果来自大麻使用者。

在 1997 年的“钱德勒诉米勒案”中,美国最高法院以 8 比 1 的表决结果裁定佐治亚州要求某些州政府岗位申请者接受毒品检测的法律,违反了第四修正案反对不合理调查的规定。法院认为,在具体个体没有受到犯罪怀疑但某种特殊需要优先于隐私权的一些要求“严密保护”的情况下,调查是被允许的——比如航班飞行员的毒品检测。不过,法院认为,州级当选官员使用毒品的可能性不会危害公共安全。(你可以在这里吐槽了。)





罕见病问题




假阳性问题也存在于针对疾病的医学检测之中。和大麻检测类似,即使针对疾病的检测拥有很高的准确率,得到阳性检测结果的许多人(甚至大多数人)仍然有可能不是这种疾病的患者。

下面的例子很能说明问题。一百位医生被问到了这样一个虚拟问题:


在一次常规检查中,你在一位女性患者的乳房上发现了一个肿块。根据你的经验,在 100 个这样的肿块里,只有 1 个肿块是恶性的。不过,为了安全起见,你要求患者接受乳房 X 光检查。如果肿块是恶性的,那么 X 光检查将其诊断为恶性的概率是 0.80;如果肿块是良性的,那么 X 光检查将其诊断为良性的概率是 0.90。在这个例子中,X 光检查认为肿块是恶性的。根据这个 X 光检查结果,你认为这个肿块是恶性肿块的概率是多少?




在 100 位接受调查的医生中,95 位医生给出了 0.75 左右的概率。不过,正确的概率是这个数字的十分之一:0.075!

表 6.4 显示了 1000 名患者的情况。在 10 个病例中(1000 人的 1%),肿块是恶性的。在 8 个恶性病例中(80%),检测给出了正确的阳性结果。在 990 个良性病例中,检测给出正确阴性结果的病例为 891 个(90%)。





表 6.4 乳房 X 光检测的假阳性 检测呈阳性

检测呈阴性

总计



恶性

8

2

10



良性

99

891

990



总计

107

893

1000




观察第一行数据。在 10 名拥有恶性肿瘤的病人中,检测给出阳性结果的次数是 80%:8/10=0.80。不过,观察第一列数据。在得到阳性检测结果的 107 名患者中,只有 7.5% 的患者拥有恶性肿瘤:8/107=0.075。尽管 10 个恶性肿瘤中的 80% 得到了正确诊断,这些阳性检测结果仍然远远少于假阳性结果——990 个良性肿瘤中被错误诊断的 10%。正像这里展示的那样,有时大数中的小比例大于小数中的大比例。

条件概率很容易得到错误解读,而这些医生显然犯了这个错误。开展这项调查的研究人员指出,


犯错误的医师常常表示,他们认为病人在得到阳性 X 光结果的情况下患癌的概率……与癌症患者得到阳性 X 光结果的概率大致相等……后一种概率是临床研究计划中测量到的概率,是医生熟悉的概率;前一种概率则是制定临床决策时需要使用的概率。看起来,许多甚至大多数医师并没有分清这两种概率。




显然,大多数医生混淆了下列条件性说法。如果肿块是恶性的,检测结果呈阳性的概率是多少?(答案:80%。)如果检测结果呈阳性,肿块是恶性肿块的概率是多少?(答案:7.5%。)这些医生对医学数据的错误解读可能导致灾难性后果。





达特茅斯三文鱼研究




当检测数量很多时,假阳性是不可避免的。例如,假设一个看上去很健康的女性接受体检,包括多项可能指示健康问题的风险因素独立检测(比如胆固醇和高血压)。在每项检测中,如果读数超出 95% 健康女性的读数范围,结果就会被标为“异常”。在每一项检测中,假阳性的概率是 5%。对于十项检测,假阳性的概率是 40%。对于一百项检测,假阳性结果的概率为 99% 以上。随着检测数量的增长,假阳性的概率将接近 100%。

下面的例子涉及一项包含大量检测的标准神经科学实验。实验人员将志愿者放进磁共振成像仪,向他展示各种图像,并且提出关于这些图像的问题。这种实验不是用植入大脑的电极跟踪大脑活动,而是用功能磁共振成像(fMRI)测量含氧和脱氧血液流过大脑时产生的磁干扰。检测过后,研究人员观察超过 13 万立体像素(三维数据),以查看大脑的哪些部位受到了图像和问题的刺激。

功能磁共振成像的测量包含许多噪声,包括来自环境以及来自大脑不同部位脂肪组织密度差异的各种磁信号。有时,立体像素会忽略大脑活动(假阴性)。有时,立体像素会错误地指示大脑活动(假阳性)。

一个名叫克雷格·贝内特(Craig Bennett)的学生,在达特茅斯实验室以一种独特的方式开展了这项实验。他用磁共振成像仪研究一条三文鱼在依次看到 15 张照片时的大脑活动。下面是实验报告的一部分:

对象。参与功能磁共振成像研究的一条成熟的大西洋三文鱼(大西洋鲑)。这条三文鱼长约 45 厘米,重约 1.7 公斤,在扫描时处于无生命状态。

任务。对相关三文鱼执行的任务包括完成一个需要动用大脑的开放式任务。实验向三文鱼展示了一系列照片,照片上描述了社会情境中具有特定情绪效价的人类个体。实验要求三文鱼确定照片中的个体正在经历的情绪。

设计。刺激以区组设计的形式呈现,每张照片展示 10 秒,然后休息 12 秒。共有 15 张照片得到展示。总扫描时间为 5.5 分钟。

分析。实验用一般线性模型(GLM)的普通最小二乘估计对三文鱼立体像素数据进行了处理,用方脉冲函数与标准血液动力反应的卷积模拟血液动力反应的预测指标,并且添加了一个 128 秒的时域高通滤波器,以校正低频漂移。实验没有使用自相关校正。

分析部分听上去很专业,不是吗?不过,你是否在对象部分注意到这条三文鱼“在扫描时处于无生命状态”?没错,克雷格在当地市场买了一条死三文鱼,放进磁共振成像仪,向它展示照片,然后向它提出问题。不过,由于立体像素数量众多,因此出现了一些假阳性,可以被解释成三文鱼对照片和问题的反应。只是这条三文鱼已经没有了生命。




图 6.1 三文鱼的功能磁共振成像检测结果



根据这项实验,贝内特和他的教授艾比盖尔·贝尔德(Abigail Baird)提出了一个有力的观点:功能磁共振成像研究需要考虑到假阳性问题。多达 40% 的已发表论文并没有做到这一点。

这项死三文鱼研究获得了超过大多数功能磁共振成像研究的曝光度,甚至获得了搞笑诺贝尔奖——哈佛大学每年都会举办一个非常欢乐的颁奖仪式,以奖励“首先使人发笑,然后使人思考的成就”。


×如何轻松识破一本正经地胡说八道



蒙提·霍尔问题是一个绝妙的悖论,因为我们的直觉是错误的,而且可以通过运用常识得到改进。二孩悖论则是另一种类型的精彩悖论。在这个悖论中,我们的直觉是正确的,而且可以通过使用常识得到证实。



不要仅仅进行计算。运用常识思考你所回答的问题是否正确,假设是否合理,结果是否可信。如果一种统计观点不合理,应对其进行仔细思考;你可能会发现,这种观点是在胡说八道。



假阳性问题与条件概率的混淆有关。在某些情况下(比如存在某种疾病),一项检测很有可能显示阳性结果,但阳性检测结果并不能认定疾病的存在。它可能是假阳性。对于罕见疾病(比如恶性肿瘤)或者存在大量读数的情形(比如死三文鱼磁共振成像),假阳性现象更为常见。





第 7 章

辛普森悖论





霍乱是一种以腹泻和呕吐为标志的肠道疾病,常常会导致死亡。霍乱最初仅仅存在于印度次大陆。不过,19 世纪陆地和海洋贸易路线的发展将这种疾病传播到了世界各地,导致数千万人死亡。

1832 年,霍乱袭击伦敦,导致 6500 人死亡。当时的医疗机构认为,霍乱和其他疾病一样,是由呼吸“瘴气”(有毒气体)引起的。腐烂的垃圾、街道上的人畜粪便以及受到污染的泰晤士河散发出来的臭味使伦敦臭气熏天。在潮湿多雾的夜晚,空气尤其令人讨厌。许多人惧怕“夜晚的空气”,他们躲在门窗紧闭的室内。如果不得不外出,他们也会挡住面部。在缺乏像样的卫生服务、味道难闻的贫困街区,霍乱更加常见,这一现象支持了瘴气理论。

瘴气理论无法得到明确证明,因为这个问题存在其他一些需要考虑的混杂因素。例如,整体来看,贫困街区居民的年龄高于其他街区。一些人吃着不同的食物,从事着不同的行业,缺少甚至没有暖气。真正发挥作用的是其中的一个因素还是所有因素呢?

有时,科学家可以在受控条件下进行实验,使混杂因素保持恒定,以分离出一个因素的影响。如果其他所有相关因素维持恒定,那么观测到的结果显然是由变化的因素导致的。不过,这种理想的对照实验常常是不现实或不道德的,因此研究人员必须根据观察到的现象得出结论,而无法对其进行控制。霍乱问题即是如此。医生当然无法强制性地随机选择一部分人呼吸有毒气体,同时随机选择另一部分人在空气清洁的环境下生活和工作。不过,当时出现了一个自然形成的实验,彻底揭示了这种疾病的原因。

几个世纪以来,伦敦和其他大城市的住宅用地下粪坑收集人体废物。专业人员会定期将粪坑清空,并用运货马车将废物运走。这些废物被称为“夜间土壤”,因为夜间的城市街道行人稀少,专业人员会选择在这个时候将其运走。通常,这些废物被运往附近的农场,以充当肥料。

1848 年,一部法律要求伦敦市民停止使用粪坑,将他们的住宅与遍布整个伦敦的新建污水管道相连。这部法律减少了粪坑和“夜间土壤”运输所导致的恶臭和危险,但它也制造了另一个问题。污水管道将未经处理的污水排入泰晤士河,而这条河流是许多伦敦市民的直接或间接饮用水来源。

1849 年,36 岁的医生约翰·斯诺(John Snow)发表了一篇论文《论霍乱的传播模式》,认为霍乱不是由呼吸污浊空气导致的,而是由“患病人体排出的、通过被污水污染的饮用水传播的一种毒物”导致的。我们并不知道斯诺是如何提出这种理论的。也许,他认为呼吸糟糕的空气应当影响肺部,但霍乱影响的却是肠道,这意味着它与人们的饮食有关。斯诺还发现,在 1848 年禁止粪坑的法律颁布后不久,伦敦就发生了 1848~1849 年的霍乱大流行。当然,这种推理是一种被称为“前后即因果”的逻辑谬论。一个事件紧随另一个事件发生并不意味着后面的事件是由前面的事件导致的。

弗洛伦斯·南丁格尔(Florence Nightingale)和其他顶级公共卫生权威认为斯诺的想法过于天真,缺乏依据。瘴气理论已经根深蒂固,很难被一个年轻医生的奇异猜测所推翻。斯诺无法固定包括瘴气在内的所有潜在混杂因素,强迫一些人饮用被污染的水,强迫另一些人饮用干净的水,以检验他的理论。不过,在 1854 年,当另一场流行霍乱袭击伦敦时,斯诺想出了检验这种理论的两种不同的方法。

多年来,萨瑟克和沃克斯豪尔水务公司与兰贝斯公司一直在通过不同的管道将泰晤士河同一受污染区域的水源输送到伦敦的相同街区。在 1848~1849 年霍乱流行期间,两家水务公司的客户拥有相同的死亡率。在 1848 年禁止粪坑的法律颁布后,英国微生物学家亚瑟·哈索尔(Authur Hassall)对伦敦水源与污水系统之间的关系进行了详细而充分的研究。他所得到的令人震惊的结果,1850 年发表在英国著名医学期刊《柳叶刀》以及一部名为《对伦敦和郊区居民水源的一项显微镜研究》的书籍中,他写道:


我已经证明,泰晤士河水中始终可以检测到与污水相连的各种动植物物质,包括一些粪便;而且,同样的物质存在于一些公司向公众提供的水源之中;这条证据链是完整而具有决定性的;因此,我们反复发现,肉类的肌纤维以及被食用的蔬菜组织的更多无法破坏的部位从抽水马桶进入污水管道,从污水管道进入泰晤士河,从泰晤士河进入水务公司的蓄水池,从蓄水池重新回到公众家中。



因此,毫无疑问,根据目前的伦敦供水系统,这座城市的一部分居民不得不以某种形式消费自己的排泄物,并为这种特权支付账单。




在哈索尔详细而令人担忧的结论的影响下,1852 年的《大都会水法》规定,从 1855 年 8 月 31 日起,伦敦水务公司不得从泰晤士河严重污染的区域采水。兰贝斯公司已经获得了上游 35 公里处的土地,并在 1852 年做出了改变,开始从没有受到伦敦污水影响的泰晤士河区域采水。萨瑟克和沃克斯豪尔公司直到 1855 年才开始搬迁。

斯诺意识到,这是对他的理论进行检验的绝佳时机。相邻住宅的居民恰巧由不同的水务公司提供服务,这一事实自然而然地控制住了各种潜在混杂因素。斯诺写道:


同时,这项实验也具有最大的规模。不同性别、各个年龄段和职业、各种阶层和地位、从上流人士到穷人的 30 多万市民毫无选择地被划分成了两个群体,而且在大多数情况下,他们对此并不知情;一个群体的供水系统包含伦敦污水,其中含有可能来自霍乱病人的任何物质,另一个群体的供水系统中基本没有这种杂质。




斯诺考察了 1854 年霍乱流行前 7 个星期的所有病人死亡记录,并且确定了由这两家水务公司提供水源的家庭。他发现,萨瑟克和沃克斯豪尔公司每一万户家庭的死亡数字是另一家公司的将近 9 倍:





表 7.1(伦敦各地区霍乱致死人数对比) 家庭数量

霍乱死亡数量

每一万户家庭的死亡数量



萨瑟克和沃克斯豪尔公司

40046

1263

315



兰贝斯公司

26107

98

37



伦敦其他地区

256423

1422

59




这些数据令人信服地证明了饮用被污染的水与霍乱发病之间的关系。

斯诺还发现了支持这种理论的其他有力证据。1854 年的流行霍乱对索霍区的影响尤其强烈,在 10 天之内导致 500 多人丧生。斯诺就住在索霍区附近。3/4 的居民逃离了这个地区,显然是想躲开这里的瘴气。不过,斯诺并没有离开,他想对自己的理论进行调查。




图 7.1 布罗德大街水泵附近的霍乱死者,用住址前的横线表示。



当时,整个伦敦市有几十口公共水井,人们可以在这里打水喝,或者将水带回家。索霍区还没有与伦敦污水系统相连接,斯诺怀疑索霍的粪坑正在污染从公共水井打上来的水。斯诺画了一张图,显示了 13 个公共水泵的位置以及 578 个霍乱受害者的住所。他很快发现,许多受害者生活在布罗德大街的一个水泵附近。这个水泵位于布罗德大街和剑桥大街的十字路口。图中的叠加线显示了霍乱受害者的住址,这些受害者显然集中于水泵附近,很可能是因为他们喝了这里的井水。

斯诺亲自走访了生活在其他公共水泵附近的霍乱受害者的家庭,发现他们常常在工作、购物或上学路上经过布罗德大街的水泵时饮用这里的井水。斯诺还发现,一些家庭之所以使用布罗德大街的水泵,是因为这里的水味道比较好。

另外,许多生活在布罗德大街水泵附近但不喝井水的人并没有受到霍乱的影响,这给瘴气理论以沉重一击。这个街区的人们呼吸着相同的空气,但是只有用布罗德大街的水泵喝水的人才会死于霍乱。

圣詹姆斯教区负责管理布罗德大街水井的监护委员会急于采取措施结束这场流行霍乱。斯诺说服他们取走了水泵把手,以阻止人们饮用这里的井水。霍乱很快停止了。不过,在霍乱停止以后,人们重新安上了水泵把手。瘴气理论过于根深蒂固,很难被一位年轻的医生推翻。

后来,人们发现了布罗德大街水泵传播霍乱的原因。最初,这里曾经是一座住宅,一个患上霍乱的婴儿的尿布曾被丢进住宅的粪坑里。当房屋被烧毁、街道被拓宽时,房子里的粪坑遭到了遗弃。人们在距离粪坑 0.9 米的地方挖了这口水井。后来,粪坑发生了渗漏,污染了布罗德大街的水井。

1858 年,斯诺患上了中风,不幸病故。他没能看到自己的理论被人接受,没能看到流行霍乱的终结。1859 年,伦敦开始建设一个现代污水系统。具有讽刺意义的是,这项措施的目的是将污水管线布置在地下,以免其散发气味,从而减少瘴气。这种做法无意中带来了一个好处,那就是污水不再污染人们的供水系统。1866 年,另一场流行霍乱袭击伦敦,但是与新的污水系统相连接的城镇区域并没有受到影响。当这个系统彻底完工时,伦敦终于安全了。

现代科学家最终证明了斯诺的理论。霍乱是通过摄取被粪便物质污染的饮食传播的。所有发达国家的城市都建设了有效的污水处理系统和清洁供水系统,消灭了流行霍乱。今天,约翰·斯诺以其在研究重要公共卫生问题时对数据的独创性使用得到了认可和纪念。他被视为研究疾病模式、原因和影响的流行病学之父。

混杂因素常常出现在使用观测性数据的研究中,因为人们无法通过现实的方法使这些因素维持恒定。不过,大自然有时会为研究人员提供便利条件。在霍乱研究中,斯诺非常幸运地研究了伦敦市相邻住宅由不同水务公司服务的区域,从而减少了社会经济因素的混杂效应。斯诺指出,生活在相邻住宅的家庭可能来自相同的社会经济阶层。如果斯诺需要对不同水务公司服务的不同街区或城市进行比较,这种条件就无法成立了。

有时,为了处理混杂因素,可以对观测性数据进行细分。在研究吸烟对健康的影响时,性别可能是一个混杂因素。一项得到良好设计的研究可能会分别分析男性和女性的数据,以控制性别因素。在研究收入对生育的影响时,年龄和宗教信仰可能成为混杂因素。一项得到良好设计的研究可能会把数据分成具有相同年龄和相似宗教信仰的不同小组。

最重要的一点是,我们应当永远牢记,一项研究的结论有可能受到混杂因素的干扰。





某人的悖论




2010 年,一家互联网公司收集了两种不同网页布局的数据。在“一次点击”形式中,广告出现在网页的第一个页面上。在“二次点击”形式中,第一个页面上显示的是关键词;如果用户点击关键词,与这个关键词有关的定向广告就会显示出来。在这两种形式中,如果用户点击广告,公司就会获得收入。二次点击形式要求用户付出更多精力,但定向广告可能更加有效。因此,当用户选择“二次点击”广告时,公司可以获得更多收入。

分析人员向公司总裁展示了表 7.2 所示的数据。(收入和用户数的单位均为百万。)二次点击形式具有较高的 RPM(平均一千名用户的收入),为 12.14 美元,一次点击则只有 11.60 美元。下一步的行动似乎很明显:如果他们在所有网页上使用二次点击形式,收入就会增长。





表 7.2 收入、用户与千人收入(RPM) 一次点击

二次点击



收入

用户数

RPM

收入

用户数

RPM



$2.9

250

$11.60

$1.7

140

$12.14




这个结论可能是一个昂贵的错误。这些数据属于观测性数据,可能存在自选择偏差,即访问“一次点击”网站的用户可能与访问“二次点击”网站的用户存在系统性差异。要想进行有效的比较,公司可以进行一项对照实验。每个网站可以将用户随机导向两种形式中的一种。这样一来,公司就可以对每一种形式的效果进行有效的比较。

还有一个不太明显的问题。一个讨厌的统计学家分发了一张表(表 7.3),这张表对美国本土和国外的用户进行了划分。在两种用户中,一次点击形式都具有更高的 RPM。不出所料,人们感到极为震惊。总裁举起双手,询问为什么一次点击形式在美国本土和国外全部占优,但在总体上却处于劣势。一些员工提议对这些数据进行检查。其他一些人露出茫然的表情,希望某人能够站出来解决这个悖论。

然后,大家明白过来了。





表 7.3:区分美国用户与国际用户 一次点击

二次点击



收入

用户数

RPM

收入

用户数

RPM



美国

$1.8

70

$25.71

$1.2

50

$24.00



国际

$1.1

180

$6.11

$0.5

90

$5.56



总计

$2.9

250

$11.60

$1.7

140

$12.14




这是辛普森悖论的一个例子。虽然爱德华·辛普森(Edward Sim-pson)在 1951 年的一篇论文中描述了这个悖论,但它实际上是由另外两位统计学家在 50 年前发现的,这使辛普森悖论成了斯蒂格勒定律的一个例子。斯蒂格勒定律的内容是:“没有一项科学发现是以其最初发现者的名字命名的。”(斯蒂格勒本人就是一个例子,他指出,罗伯特·K.默顿才是斯蒂格勒定律的发现者。)辛普森悖论指的是当聚合数据被分解时其中的模式发生逆转的现象。在上面的例子中,对于聚合数据来说,二次点击占据优势。当数据被分解成美国和国际两部分时,一次点击占据优势。

要想理解这种逆转,首先考虑二次点击网站拥有较高 RPM 的聚合数据。用户类型(美国或国际)是一个混杂因素,因为 RPM 不仅与点击形式有关,也与用户类型有关。同国际用户相比,美国用户拥有更高的 RPM,而且恰巧更喜欢访问二次点击网页,这推高了二次点击的总体 RPM。如果我们将这种混杂因素考虑在内,将美国用户和国际用户的数据分开,我们就会发现,在两种类型中,一次点击拥有更高的 RPM。

如果所有网页使用一次点击形式,公司的总体收入才有可能提高,这与他们最初的印象相反。幸运的是,公司的政策专家非常聪明,认识到了辛普森悖论,而且进行了上面描述的对照实验。他们的结论是,一次点击形式在大多数网站上表现得更好,但是一些网站更适合二次点击形式。

要想注意到可能的辛普森悖论,关键是考虑是否存在被忽略的混杂因素。下面是另一个例子。20 世纪 70 年代,有人指控加州大学伯克利分校研究生院歧视女性申请人。作为证据,他们提供了表 7.4 中的数据,指出男性申请人的录取率为 44%,而女性申请人的录取率只有 35%。





表 7.4:男性更有可能被录取 申请人

录取率



男性

8442

44%



女性

4321

35%




法院启动了一项调查,以确定哪些系的问题最为严重。不过,在考察了该学院 85 个系的录取率以后,人们几乎没有发现女性受到歧视的证据。相反,他们觉得一些系对于女性的录取率反而高于男性。

表 7.5 显示了最大的六个系的录取率。第一个系拥有最高的录取率,第二个系拥有第二高的录取率,依此类推。总体而言,男性申请人的录取率是 45%,女性申请人的录取率则只有 30%——这似乎是歧视女性的明显证据。不过,在考察每个系时,只有两个系(第三个系和第五个系)男性的录取率高于女性,而且这种差异很小,不具有统计显著性。唯一具有统计显著性的录取率差异出现在第一个系。在这里,女性的录取率明显高于男性(82% 和 62%)。





表 7.5:最大的六个系的录取率 总计

男性

女性



系

申请人

录取率

申请人

录取率

申请人

录取率



1

933

64%

825

62%

108

82%



2

585

63%

560

63%

25

68%



3

918

35%

325

37%

593

34%



4

792

34%

417

33%

375

35%



5

584

25%

191

28%

393

24%



6

714

6%

373

6%

341

7%



总计

4526

39%

2691

45%

1835

30%




这仍然是辛普森悖论。当数据被分解时,聚合数据中的模式遭到了逆转。这里的混杂因素是,一些系的录取率远高于其他系。第一个系拥有 64% 的总录取率;第六个系拥有 6% 的总录取率。现在,你应该注意到,男性更喜欢申请第一个系,而不是第六个系,女性则恰恰相反。




图 7.2 女性更喜欢申请录取率较低的系



图 7.2 以图形的方式证明了表 7.3 所显示的结论。横轴是系录取率。纵轴是每个性别申请这个系的人数比例。字母 F 代表女性申请人,M 代表男性申请人。例如,最左边的两个点代表第六个系,它的录取率是 6%。14% 的男性申请人和 19% 的女性申请人申请了第六个系。两条拟合线表明,总体而言,女性倾向于申请录取率较低的系,男性申请人则恰恰相反。男性的总体录取率较高,因为他们以不成比例的人数申请了最容易进入的系。在考察了所有 85 个系并且考虑到这种混杂因素以后,人们撰写了一份详细的研究报告,指出该校“对女性存在微小但具有统计显著性的偏向”。

发现混杂因素并不总是一件容易的事情。这里的要点是,我们应当留意是否存在可能改变结论的混杂因素。让我们尝试几个例子。

阿拉斯加航空公司在五个存在竞争的主要机场,拥有优于另一家航空公司的准点运行记录,但其总体准点记录则不如竞争对手,为什么?因为阿拉斯加航空拥有许多飞往西雅图的航班,而西雅图的天气问题经常导致飞机延误。对于每个年龄群体,瑞典的女性死亡率都要低于哥斯达黎加,但瑞典拥有更高的女性总体死亡率,为什么?因为瑞典拥有更多的老年女性(老年人拥有相对较高的死亡率)。一项医学研究发现,一种手术对于小型和大型肾结石的治疗成功率均高于另一种手术,但其总体成功率却不如另一种手术,为什么?因为它经常被用于治疗大型肾结石(大型肾结石的治疗成功率相对较低)。

所有这些例子以及其他许多例子之所以存在辛普森悖论,是因为某种混杂因素对聚合数据产生了影响。不过,这并不意味着分解数据永远优于聚合数据。表 7.6 对两个假想的棒球选手进行了比较,将数据分解成了单日和双日。例如,科里(Cory)在双日的 100 次击球中击出 20 个安打,安打率为 20/100=0.200。在这些编造出来的数据中,两名选手恰巧在单日拥有更好的表现,科里恰巧在单日拥有更多的击球次数。因此,虽然吉米在单双日都具有更高的安打率,但是整个赛季安打率更高的人是科里。





表 7.6:谁是更好的击球手? 双日

单日

所有日期



科里

20/100=0.200

90/300=0.300

110/400=0.275



吉米

61/300=0.203

31/100=0.310

92/400=0.230




根据这些数据,你认为谁是更好的击球手?我认为是科里,因为我们没有理由认为单双日是一个有意义的混杂因素。这只是数据中的一种巧合而已。如果我们根据每天的字母数分解数据,或者将日期按照字母顺序排列,我们可能会看到同样的现象。在这些情形中,分解数据中的模式仅仅是一种巧合,我们可以安全地将其忽略掉。聚合数据可以更加准确地衡量谁是更好的击球手。在其他一些情形中,混杂因素是真实的,忽略它们是一种危险做法。





我要再来一杯咖啡




咖啡拥有一个漫长而充满争议的历史。咖啡灌木几个世纪以前在非洲热带森林中被发现。最初,人们将磨碎的豆子和水果混在一起,连皮带瓤一齐吃下去。去除渣滓后饮用液态咖啡的做法似乎起源于 15 世纪的也门,随后传播到其他地区。在土耳其,咖啡成了日常生活的一个重要组成部分,人们甚至会对准新娘冲咖啡的能力进行评估。结婚以后,如果丈夫无法每天提供咖啡,妻子可以和他离婚♣。

咖啡目前是世界上最受欢迎的饮料之一。许多人喜爱咖啡,另一些人则认为咖啡具有成瘾性,对健康有害。咖啡被称为世界上使用最多的毒品。真相究竟如何?关于咖啡的第一项统计研究发生在 18 世纪的瑞典,那是一个有趣的实验。每日海量书籍,大师课精彩分享微.信:dedao555

咖啡在 17 世纪被引入瑞典并逐渐流行开来。不过,许多人将咖啡视为邪恶的饮品,认为它会使富人上瘾,使广大人民受到煽动。多年来,咖啡被课以重税,或者被完全禁止。后来,国王古斯塔夫三世(King Gustav III)开展了一项有趣的实验。据说,这是瑞典的第一项临床试验。

古斯塔夫是一位在许多方面表现开明的独裁者。他开展了许多经济和政治改革,赋予天主教徒和犹太人宗教自由,减少死刑和拷打,并且慷慨地支持艺术。不过,他的一些冒险行动则没有那么成功。为了团结人民,他曾向俄罗斯开战。瑞典皇家歌剧院的裁缝为一伙瑞典人制作了俄罗斯军装,这些人穿过俄罗斯边境,向一个瑞典边防哨所开火。以这场自导自演的挑衅事件为导火索,古斯塔夫对俄罗斯发动了一场“自卫”进攻。这是一场代价高昂的战争,双方失去了许多战士、船只、弹药和装备,却没有获得或失去任何土地。古斯塔夫国王没能利用共同的敌人将瑞典人民团结起来,反而导致了巨大的伤亡和经济代价,许多人对他丧失了信心。

古斯塔夫对酒精和咖啡的战争取得了同样失败的结果。为了筹集资金应对军事灾难,古斯塔夫将制造和销售酒精饮料的权利收归政府所有。这一政策的效果和美国的禁酒令类似。农民仍然在酿酒,酒精消费量不降反升。至于咖啡,一些著名的瑞典科学家认为咖啡是一种健康的滋补品,另一些人则持有相反的观点。古斯塔夫相信咖啡是一种毒药,并且决定证明这一点。他找到了两个犯下谋杀罪行,即将被斩首的男性双胞胎。古斯塔夫将他们的判决改为终身监禁,但是有一个条件。其中一个人需要每天喝三壶咖啡,另一个人需要每天喝三壶茶。两位由朝廷任命的医生将确保这些要求得到实施,并且需要在双胞胎去世时通知国王。古斯塔夫相信,他为那个喝咖啡的人准备了和斩首相同的命运——他的死将彻底证明咖啡是一种毒药。

结果,医生和古斯塔夫都死在了两个双胞胎的前面(古斯塔夫被人刺杀)。喝茶的兄弟最终在 83 岁那年去世,当时喝咖啡的兄弟仍然活得很健康。虽然这个结果出乎意料,但是瑞典政府仍然将咖啡的禁令维持到了 19 世纪 20 年代。最后,瑞典政府终于决定完全允许瑞典人民去做他们想做的事情——饮用咖啡,饮用大量的咖啡。

值得注意的是,古斯塔夫在实验中明智地选择了两个完全相同的男性双胞胎,以消除性别、年龄和基因的混杂效应。最明显的缺点是,实验的样本太小了。如此小的样本无法得出任何具有统计说服力的结论——包括支持咖啡或者反对咖啡的结论。

多年以后,一些规模更大的研究认为古斯塔夫关于咖啡有害的观点是正确的。不过,这些研究都存在致命缺陷。一个反复出现的问题是,我们无法在现实中进行长期随机化实验。古斯塔夫是国王,可以用一对即将被斩首的双胞胎去做他想做的事情。我们无法让人们喝咖啡或者不喝咖啡。相反,我们只能使用观测性数据。我们观察到一些人喝咖啡;我们观察到另一些人不喝咖啡;我们对两个群体进行比较。问题是,选择喝咖啡的人和选择不喝咖啡的人之间可能存在系统性差异。

例如,1971 年的一项研究发现,同没有膀胱癌的人相比,患有膀胱癌的人更愿意喝咖啡——这意味着咖啡会导致膀胱癌。不过,这里存在一个混杂因素,那就是喝咖啡的人更愿意吸烟。导致膀胱癌的到底是咖啡还是香烟呢?1993 年,一项针对 35 项研究的严格分析报告证明了咖啡的清白,指出香烟才是真正的元凶。报告认为,“在扣除吸烟的影响以后,没有证据表明男性或女性的‘下尿道癌’风险出现了上升。”2001 年的一项研究证明了香烟会增加膀胱癌的风险,而咖啡则不具有这种效果。这项研究还提出了一个新的观点:同不喝咖啡的吸烟者相比,喝咖啡的吸烟者患上膀胱癌的可能性要小一些。咖啡似乎可以在一定程度上抵销香烟的致病效果。

下面是另一个例子。20 世纪 80 年代早期,备受尊重的研究员、哈佛大学公共卫生学院院长布赖恩·麦克马洪(Brian MacMahon)领导的一个团队发现,喝咖啡和胰腺癌之间存在紧密的联系。这项研究发表在世界顶级医学期刊之一《新英格兰医学期刊》上,并在全国范围内得到了报道。这个哈佛研究小组提出,如果人们停止喝咖啡,胰腺癌发病率可能会得到极大的降低。麦克马洪遵守了自己提出的建议。在研究之前,他每天喝三杯咖啡。在研究之后,他戒掉了咖啡。

麦克马洪的研究对患有胰腺癌的住院病人以及患有其他疾病并被相同医生要求住院的病人进行了比较。这是一种针对观测性数据的便捷采样,因此是有问题的。这些医生中