Main 未来商业科技趋势经典必读(湛庐文化财富汇套装共12册)

未来商业科技趋势经典必读(湛庐文化财富汇套装共12册)

0 / 0
How much do you like this book?
What’s the quality of the file?
Download the book for quality assessment
What’s the quality of the downloaded files?
Year:
2016
Language:
chinese
ISBN:
B01IAWLZGM
File:
AZW3 , 52.48 MB
Download (azw3, 52.48 MB)

You may be interested in Powered by Rec2Me

 

Most frequently terms

 
0 comments
 

To post a review, please sign in or sign up
You can write a book review and share your experiences. Other readers will always be interested in your opinion of the books you've read. Whether you've loved the book or not, if you give your honest and detailed thoughts then people will find new books that are right for them.
目录

大数据时代:生活、工作与思维的大变革

人工智能时代

共享经济:重构未来商业新模式

智慧社会

未来医疗

人人时代:无组织的组织力量(经典版)

富足:改变人类未来的4大力量

决胜移动终端:移动互联时代影响消费者决策的6大关键

人工智能的未来

第四次革命

全球风口:积木式创新与中国新机遇



指数型组织:打造独角兽公司的11个最强属性





版权信息


本书纸版由浙江人民出版社于2012年12月出版

作者授权湛庐文化(Cheers Publishing)作中国大陆(地区)电子版发行(限简体中文)

版权所有·侵权必究

书名:大数据时代:生活、工作与思维的大变革

著者:(英)维克托·迈尔-舍恩伯格,肯尼思·库克耶

字数:215000

电子书定价:24.99美元





目录

版权信息

目录

推荐序一 拥抱“大数据时代”

推荐序二 实实在在大数据

译者序 在路上·晃晃悠悠

引言 一场生活、工作与思维的大变革 大数据,变革公共卫生

大数据,变革商业

大数据,变革思维

大数据,开启重大的时代转型

预测,大数据的核心

大数据,大挑战



第一部分 大数据时代的思维变革 01 更多:不是随机样本,而是全体数据 让数据“发声”

小数据时代的随机采样,最少的数据获得最多的信息

全数据模式,样本=总体



02 更杂:不是精确性,而是混杂性 允许不精确

大数据的简单算法比小数据的复杂算法更有效

纷繁的数据越多越好

混杂性,不是竭力避免,而是标准途径

新的数据库设计的诞生



03 更好:不是因果关系,而是相关关系 林登与亚马逊推荐系统

关联物,预测的关键

“是什么”,而不是“为什么”

改变,从操作方式开始

大数据,改变人类探索世界的方法





第二部分 大数据时代的商业变革 04 数据化:一切皆可“量化” 莫里的导航图,大数据的最早实践之一

数据,从最不可能的地方提取出来

数据化,不是数字化

量化一切,数据化的核心

当文字变成数据

当方位变成数据

当沟通变成数据

世间万物的数据化



05 价值:“取之不尽,用之不竭”的数据创新 ReCaptcha与数据再利用

数据的“潜在价值”

数据创新1:数据的再利用

数据创新2:重组数据

数据创新3:可扩展数据

数据创新4:数据的折旧值

数据创新5:数据废气

数据创新6:开放数据

给数据估值



06 角色定位:数据、技术与思维的三足鼎立 Decide.com与商品价格预测

大数据价值链的3大构成

大数据掌控公司

大数据技术公司

大数据思维公司和个人

全新的数据中间商

专家的消亡与数据科学家的崛起

大数据,决定企业竞争力





第三部分 大数据时代的管理变革 07 风险:让数据主宰一切的隐忧 无处不在的“第三只眼”

我们的隐私被二次利用了

预测与惩罚,不是因为“所做”,而是因为“将做”

数据独裁

挣脱大数据的困境



08 掌控:责任与自由并举的信息管理 一场管理规范的变革

管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任

管理变革2:个人动因VS预测分析

管理变革3:击碎黑盒子,大数据算法师的崛起 外部算法师

内部算法师



管理变革4:反数据垄断大亨





结语 正在发生的未来 凡是过去,皆为序曲

大数据时代,名副其实的“信息社会”

更大的数据源于人本身



参考文献





推荐序一 拥抱“大数据时代”


宽带资本董事长 田溯宁

从硅谷到北京,大数据的话题正在被传播。随着智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。以此为基础,“反馈经济”(feedback economy)等新经济、新商业模式也正在开始形成。维克托·迈尔-舍恩伯格教授这本《大数据时代》,是我看到的最好的大数据著作,不管对于产业实践者,还是对于政府和公众机构,都是非常具有价值的。

如今,一个大规模生产、分享和应用数据的时代正在开启。正如维克托教授所说,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。而发掘数据价值、征服数据海洋的“动力”就是云计算。互联网时代,尤其是社交网络、电子商务与移动通信把人类社会带入了一个以“PB”(1024TB)为单位的结构与非结构数据信息的新时代。在云计算出现之前,传统的计算机是无法处理如此量大、并且不规则的“非结构数据”的。以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。大数据与云计算是一个问题的两面:一个是问题,一个是解决问题的方法。通过云计算对大数据进行分析、预测,会使得决策更为精准,释放出更多数据的隐藏价; 值。数据,这个21世纪人类探索的新边疆,正在被云计算发现、征服。

《大数据时代》列举了众多在公共卫生、商业服务领域大数据变革的例子。一旦“不再追求精确度,不再追求因果关系,而是承认混杂性,探索相关关系”,“思维转变过来,数据就能被巧妙地用来激发新产品和新型服务”。数据正成为巨大的经济资产,成为新世纪的矿产与石油,将带来全新的创业方向、商业模式和投资机会。

庞大的人群和应用市场,复杂性高、充满变化,使得中国成为世界上最复杂的大数据国家。解决这种由大规模数据引发的问题,探索以大数据为基础的解决方案,是中国产业升级、效率提高的重要手段。数据挖掘不仅能够成为公司竞争力的来源,也将成为国家竞争力的一部分。联系到我国现代化所面临的种种问题以及教育、交通、医疗保健等各方面挑战,通过大数据这种创新方式来解决问题,创建新的产业群,实现“中国制造到中国创造”的改变,意义就更大。

“大数据”发展的障碍,在于数据的“流动性”和“可获取性”。美国政府创建了Data.gov网站,为大数据敞开了大门;英国、印度也有“数据公开”运动。中国要赶上这样一场大数据变革,各界应该首先开始尝试公开数据、方式与方法。如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。《大数据时代》一书也提到了数据拥有权、隐私性保护等问题,但相比较来看,新科技可能带来的改变要远远大于其存在的问题。

本书的译者周涛教授是我国最年轻有为的大数据专家。这位27岁的天才型教授,数年来一直带领我国学术界在大数据研究上向国际一流看齐。更可贵的是,他不仅做研究,也关注着研究成果的商业化及传播。这部译著就是他这种努力的一个成果。

现代历史上的历次技术革命,中国均是学习者。而在这次云计算与大数据的新变革中,中国与世界的距离最小,在很多领域甚至还有着创新与领先的可能。只要我们以开放的心态、创新的勇气拥抱“大数据时代”,就一定会抓住历史赋予中国创新的机会。





推荐序二 实实在在大数据


中国互联网发展的重要参与者,知名IT评论人 谢文

因为我本身十分关注大数据,也写过若干关于大数据的文章,做过若干关于大数据的演讲,所以对有关这一主题的论文和书籍非常有兴趣。过去几年,在这方面我读过十几本书、上百篇论文和文章。相对而言,维克托·迈尔-舍恩伯格教授的《大数据时代》是迄今为止我读过的最好的一本专著,中英文都算上。

此书的一大贡献就是在大数据方兴未艾、众说纷纭的时刻,进一步阐述和厘清了大数据的基本概念和特点,这对许多以为大数据就是“数据大”的人来说很有帮助。

在人类历史长河中,即使是在现代社会日新月异的发展中,人们还主要是依赖抽样数据、局部数据和片面数据,甚至在无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去发现未知领域的规律。因此,人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。维克托指出,大数据时代的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识,得到过去无法企及的商机。

大数据的出现,使得通过数据分析获得知识、商机和社会服务的能力从以往局限于少数象牙塔之中的学术精英圈子扩大到了普通的机构、企业和政府部门。门槛的降低直接导致了数据的容错率提高和成本的降低,但正如维克托所强调的,最重要的是人们可以在很大程度上从对于因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。只要发现了两个现象之间存在的显著相关性,就可以创造巨大的经济或社会效益,而弄清二者为什么相关可以留待学者们慢慢研究。大数据之所以可能成为一个“时代”,在很大程度上是因为这是一个可以由社会各界广泛参与,八面出击,处处结果的社会运动,而不仅仅是少数专家学者的研究对象。

大数据将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络一样不可或缺。但就其价值特性而言,大数据却和这些物理化的基础设施不同,不会因为人们的使用而折旧和贬值。例如,一组DNA可能会死亡或毁灭,但数据化的DNA却会永存。所以,维克托赞同许多物理学家的看法,世界的本质就是数据。因此,大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。哲学史上争论不休的世界可知论和不可知论将会转变为实证科学中的具体问题。可知性是绝对的,无事无物不可知;不可知性是相对的,是尚未知道的意思。

对于不从事网络业、IT业以及数据分析和使用的读者,本书的一大好处就是通俗易懂,通过具体实例说明问题,有助于人们的理解和联想。在时限上,作者概括了直到2012年7月大数据方向上的最新发展,避免了许多同类作品存在的例证过于陈旧、视野相对狭窄的毛病。

作为一位生活在欧美现代社会的学者,维克托是把民主、开放和理性作为已知前提来讨论大数据革命的。这对生活在发展中国家,社会现代化程度尚且有限的读者来说,也许是个遗憾,因为书中描述的许多已经发生的事例可能更像是神话。没有市场经济制度和法治体系作为基础支撑,大数据很可能成为发达国家在下一轮全球化竞争中的利器,而发展中国家依然处于被动依附的状态之中。整个世界可能被割裂为大数据时代、小数据时代和无数据时代。

处于发展中国家前列的中国,目前正面临着一个重大的历史抉择关口。应该说,在过去的三十余年时间里,中国在快速走向工业化、信息化、网络化方面交出了一份不错的成绩单。如今适逢世界走向数据化,迈入大数据时代的时刻,无论对个人、企业还是对社会和国家,都有认真理解、严肃决策的必要性和紧迫性。哪怕仅从这一点考虑,读一读这本书也是很值得的。





译者序

在路上·晃晃悠悠


电子科技大学教授,互联网科学中心主任 周涛

接下翻译这本《大数据时代》的任务时,我的目标是做到110%的好。因为作者维克托·迈尔-舍恩伯格毕竟不像我们每天在一线与数据厮杀搏斗,其爱其恨都更深刻。特别地,我们可以为中文的读者补充很多中国的例子和参考资料。很遗憾,我们最终只做到了90%,应该补充的一些材料还没有整理好,遣词造句也多有生硬疏忽之处。如果再给我一个月的时间,就可以达到我预想的110%甚至120%。

为什么现在把这个版本呈现给诸位呢?一是因为我们的努力使得本书中译本的出版和英文原版完全同步,单从获取知识的角度讲,我们一点儿不比美国的读者慢!二是我相信作者在书中的一个重要观点,就是大数据时代,要允许一点点的错误和不完美,因为效率可能更加重要!留下一些可供提高的地方,也使得我们的每一次印刷,都能够与以前有所不同。亲,这不是建议你等到某个更好的版本才去购买,而是说,其实你应该每个版本都买一本:)

《大数据时代》这本书是200%的好,因此90%的译本也绝对值得一读。首先,作者抛出了大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果;接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力;最后,作者冷静描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。

国内最近也出版了一些大数据方面的著作,可以和本书互为补充。郑毅的《证析》对于数据通过交叉复用体现的新价值、大数据战略在企业与政府执行层面的流程和大数据科学家这一新职位,以及围绕这个职位的能力和责任给出了最深刻、最具体的描述;子沛的《大数据》对于数据的公正性、公平性以及信息和数据管理等方面理念、政策和执行的变化,特别是美国在这方面的进展,给出了完整的介绍;苏萌、林森和我合著的《个性化:商业的未来》则对大数据时代最重要的技术——个性化技术,以及与之相关的新商业模式给出了从理念到技术细节的全景工笔。总的来说,这三本书都针对本书的某一局部给出了更深刻的介绍和洞见,也各有明显超出本书的优点,但三本之和也无法囊括本书的菁华,亦缺乏本书的宏大视野。

简单地说,这本书好在三个地方:

一是观点掷地有声,绝非主流媒体上若干讨论的简单汇总和平均,更不是一个宏大概念面前暧昧的叫好声。读者可能对其中一些观点并不认同,但是读完之后不可能一个都记不住。

二是观念高屋建瓴,作者试图从很多实例和经验,包括历史事件中萃取出普适性的观念,而不仅仅是适用于几个特定情况的案例分析。

三是例子丰富翔实,不长的篇幅包括了上百个学术和商业的实例。

三点近乎完美地结合起来,体现了作者驾驭大问题的能力和丰富的知识,以及,可能更为重要地,作者渴求立言立说的野心!所以说,这本书绝对不是一堆枯燥的纲要,更不是一本巨厚的杂志。

我在这里拼命叫好,是为了这本书卖得更多,但不代表作者的所有观点都是绝对真理。举个例子,我本人对于大数据时代“相关关系比因果关系更重要”这个观点就不认同。有了机器学习,特别是集成学习,我们解决问题的方式变成了训练所有可能的模型和拟合所有可能的参数——问题从一个端口进去,答案从另一个端口出来,中间则是一个黑匣子,因为没有人能够从成千上万的参数拟合值里面读到“科学”,我们读到的只是“计算机工程”。与其说大数据让我们重视相关胜于因果,不如说机器学习和以结果为导向的研究思路让我们变成这样。

那么,大数据是不是都这样呢?其实很多时候恰恰相反。想想瑞士日内瓦的强子对撞机,我们在上面捕获了人类有史以来最大规模的单位时间数据。我们是希望找到或者验证某种相关关系吗?不是!我们试图回答的,正是人类所能问出的关于因果关系最伟大的问题:希格斯玻色子是否存在,我们的宇宙是否有可能用标准模型刻画。这个问题的最终答案,将打破人和神的界限!认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。从小处讲,作者试图避免的“数据的独裁”和“错误的前提导致错误的结论”,其解决之道恰在于挖掘因果逻辑而非相关性;从大处讲,放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始。

苏珊·朗格(Susan Langer)在《哲学新视野》一书中说:

某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,它们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合分析体系的概念轴心。这种‘宏大概念’突然流行起来,一时间把几乎所有的东西都挤到了一边。

这段话通常被认为是对当时“存在主义”和“精神分析法”这类万能概念的善意批评,而如今特别适合作为一盆冷水泼在那些没有任何深刻理解,却月月日日分分秒秒穿行于各种“大数据嘉年华”的投资人、媒体人和创业者身上。

希望《大数据时代》给予各位的是一些实实在在的知识和思考,并且唤起各位安静思索相关问题的心境。大数据是一个很重要的概念,代表了很重要的趋势,但我不希望它成为一种放之四海皆准的万能概念——因为越是万能的,就越是空洞的!人类学家克利福德·吉尔兹(Clifford Geertz)在其著作《文化的解释》中曾给出了一个朴素而冷静的劝说:“努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展的地方,就停下来。”我想,这应该是所有人面对一个新领域或新概念时应有的态度。

大数据的道路上没有戈多,我们已经在路上,晃晃悠悠。人类的自由意志和诸神之下的尊严,会在这条道路上异化甚至消逝吗?极目远眺,不知道世界的尽头,是否是一个冷酷的仙境!诸位为之奋斗吧,而我只想,做一个,麦田里的守望者。

以为序。





引言 一场生活、工作与思维的大变革


大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……

【大数据先锋】

谷歌搜索与流感预测

Farecast与飞机票价预测系统

天文学,信息爆炸的起源





大数据,变革公共卫生


2009年出现了一种新的流感病毒。这种甲型H1N1流感结合了导致禽流感和猪流感的病毒的特点,在短短几周之内迅速传播开来。全球的公共卫生机构都担心一场致命的流行病即将来袭。有的评论家甚至警告说,可能会爆发大规模流感,类似于1918年在西班牙爆发的影响了5亿人口并夺走了数千万人性命的大规模流感。更糟糕的是,我们还没有研发出对抗这种新型流感病毒的疫苗。公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,他们必须先知道这种流感出现在哪里。

美国,和所有其他国家一样,都要求医生在发现新型流感病例时告知疾病控制与预防中心。但由于人们可能患病多日实在受不了了才会去医院,同时这个信息传达回疾控中心也需要时间,因此,通告新流感病例时往往会有一两周的延迟。而且,疾控中心每周只进行一次数据汇总。然而,对于一种飞速传播的疾病,信息滞后两周的后果将是致命的。这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。

在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成这项工作。

谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。他们希望通过分析人们的搜索记录来判断这些人是否患上了流感,其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。

虽然谷歌公司的员工猜测,特定的检索词条是为了在网络上得到关于流感的信息,如“哪些是治疗咳嗽和发热的药物”,但是找出这些词条并不是重点,他们也不知道哪些词条更重要。更关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。谷歌公司为了测试这些检索词条,总共处理了4.5亿个不同的数学模型。在将得出的预测与2007年、2008年美国疾控中心记录的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了45条检索词条的组合,将它们用于一个特定的数学模型后,他们的预测与官方数据的相关性高达97%。和疾控中心一样,他们也能判断出流感是从哪里传播出来的,而且判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。

所以,2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。惊人的是,谷歌公司的方法甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。





大数据,变革商业


大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。购买飞机票就是一个很好的例子。

2003年,奥伦·埃齐奥尼(Oren Etzioni)准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之前的几个月,就在网上预订了一张去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时,他感到非常气愤。于是,他又询问了另外几个乘客,结果发现大家买的票居然都比他的便宜。

对大多数人来说,这种被敲竹杠的感觉也许会随着他们走下飞机而消失。然而,埃齐奥尼是美国最有名的计算机专家之一,从他担任华盛顿大学人工智能项目的负责人开始,他创立了许多在今天看来非常典型的大数据公司,而那时候还没有人提出“大数据”这个概念。

1994年,埃齐奥尼帮助创建了最早的互联网搜索引擎MetaCrawler,该引擎后来被InfoSpace公司收购。他联合创立了第一个大型比价网站Netbot,后来把它卖给了Excite公司。他创立的从文本中挖掘信息的公司ClearForest则被路透社收购了。在他眼中,世界就是一系列的大数据问题,而且他认为自己有能力解决这些问题。作为哈佛大学首届计算机科学专业的本科毕业生,自1986年毕业以来,他也一直致力于解决这些问题。

飞机着陆之后,埃齐奥尼下定决心要帮助人们开发一个系统,用来推测当前网页上的机票价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应该有差别。但实际上,价格却千差万别,其中缘由只有航空公司自己清楚。

埃齐奥尼表示,他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当前的机票价格在未来一段时间内会上涨还是下降。这个想法是可行的,但操作起来并不是那么简单。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。

如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。换言之,这是埃齐奥尼针对9000米高空开发的一个加强版的信息预测系统。这确实是一个浩大的计算机科学项目。不过,这个项目是可行的。于是,埃齐奥尼开始着手启动这个项目。

埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天之内的12000个价格样本基础之上,而这些数据都是从一个旅游网站上爬取过来的。这个预测系统并不能说明原因,只能推测会发生什么。也就是说,它不知道是哪些因素导致了机票价格的波动。机票降价是因为有很多没卖掉的座位、季节性原因,还是所谓的“周六晚上不出门”,它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买,这是一个问题。”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字,叫“哈姆雷特”。

这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为Farecast。通过预测机票价格的走势以及增降幅度,Farecast票价预测工具能帮助消费者抓住最佳购买时机,而在此之前还没有其他网站能让消费者获得这些信息。

这个系统为了保障自身的透明度,会把对机票价格走势预测的可信度标示出来,供消费者参考。系统的运转需要海量数据的支持。为了提高预测的准确性,埃齐奥尼找到了一个行业机票预订数据库。而系统的预测结果是根据美国商业航空产业中,每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出的。如今,Farecast已经拥有惊人的约2000亿条飞行数据记录。利用这种方法,Farecast为消费者节省了一大笔钱。[1]

棕色的头发,露齿的笑容,无邪的面孔,这就是奥伦·埃齐奥尼。他看上去完全不像是一个会让航空业损失数百万潜在收入的人。但事实上,他的目光放得更长远。2008年,埃齐奥尼计划将这项技术应用到其他领域,比如宾馆预订、二手车购买等。只要这些领域内的产品差异不大,同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术。但是在他实现计划之前,微软公司找上了他并以1.1亿美元的价格收购了Farecast公司。而后,这个系统被并入必应搜索引擎。

大数据的力量

到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。Farecast票价预测的准确度已经高达75%,使用Farecast票价预测工具购买机票的旅客,平均每张机票可节省50美元。

Farecast是大数据公司的一个缩影,也代表了当今世界发展的趋势。五年或者十年之前,奥伦·埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那时候他所需要的计算机处理能力和存储能力太昂贵了!虽说技术上的突破是这一切得以发生的主要原因,但也有一些细微而重要的改变正在发生,特别是人们关于如何使用数据的理念。



* * *



[1] 有趣的是,这些飞行记录和谷歌的搜索记录一样,也可以用来预测和评估疾病的流行。有兴趣的读者可以参考2010年第12期《科学通报》上名为“H1N1甲型流感全球航空传播与早期预警研究”的研究论文以及2011年Bajardi等人在PLoS ONE上发表的名为“Human Mobility Networks,Travel Restrictions,and the Global Spread of 2009 H1N1 Pandemic”的研究论文。——译者注





大数据,变革思维


人们不再认为数据是静止和陈旧的。但在以前,一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了。比方说,在飞机降落之后,票价数据就没有用了(对谷歌而言,则是一个检索命令完成之后)。[1]

大数据洞察

如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。

信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机,每台办公桌上都放有一台电脑,每间办公室内都拥有一个大型局域网。但是,信息本身的用处却并没有如此引人注目。半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引发了质变。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念[2]。如今,这个概念几乎应用到了所有人类致力于发展的领域中。

大数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具。这导致了新的处理技术的诞生,例如谷歌的MapReduce和开源Hadoop平台(最初源于雅虎)。这些技术使得人们可以处理的数据量大大增加。更重要的是,这些数据不再需要用传统的数据库表格来整齐地排列——一些可以消除僵化的层次结构和一致性[3]的技术也出现了。同时,因为互联网公司可以收集大量有价值的数据,而且有利用这些数据的强烈的利益驱动力,所以互联网公司顺理成章地成为了最新处理技术的领头实践者。它们甚至超过了很多有几十年经验的线下公司,成为新技术的领衔使用者。

今天,一种可能的方式是,亦是本书采取的方式,认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。

大数据洞察

这仅仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。



* * *



[1] 设计人员如果没有大数据的理念,就会丢失掉很多有价值的数据。譬如中国某城市的公交车因为价格不依赖于起点和终点,所以能够反映重要通勤信息的数据被工作人员“自作主张”地丢弃了。——译者注

[2] 有兴趣的读者可以参考2008年9月4日《自然》推出的名为“大数据”的专刊。——译者注

[3] 这些都是传统数据库结构化查询语言(SQL)的要求,非关系型数据库(NoSQL)不再有这些要求。——译者注





大数据,开启重大的时代转型


大数据开启了一次重大的时代转型。与其他新技术一样,大数据也必然要经历硅谷臭名昭著的技术成熟度曲线[1]:经过新闻媒体和学术会议的大肆宣传之后,新技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危。当然,不管是过热期还是幻想破灭期,都非常不利于我们正确理解正在发生的变革的重要性。

就像望远镜能够让我们感受宇宙,显微镜能够让我们观测微生物,这种能够收集和分析海量数据的新技术将帮助我们更好地理解世界——这种理解世界的新方法我们现在才意识到。本书旨在如实表达出大数据的内涵,而不会过分热捧它。当然,真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。

大数据先锋

天文学,信息爆炸的起源

只有考虑到社会各个方面的变化趋势,我们才能真正意识到信息爆炸已经到来。我们的数字世界一直在扩张。以天文学为例,2000年斯隆数字巡天(Sloan Digital Sky Survey)项目启动的时候,位于新墨西哥州的望远镜在短短几周内收集到的数据,已经比天文学历史上总共收集的数据还要多。到了2010年,信息档案已经高达1.4×242字节。不过,预计2016年在智利投入使用的大型视场全景巡天望远镜(Large Synoptic Survey Telescope)能在五天之内就获得同样多的信息。

天文学领域的变化在各个领域都在发生。2003年,人类第一次破译人体基因密码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序。大约十年之后,世界范围内的基因仪每15分钟就可以完成同样的工作。在金融领域,美国股市每天的成交量高达70亿股,而其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的。这些程序运用海量数据来预测利益和降低风险。

互联网公司更是要被数据淹没了。谷歌公司每天要处理超过24拍字节[2]的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。Facebook这个创立时间不足十年的公司,每天更新的照片量超过1000万张,每天人们在网站上点击“喜欢”(Like)按钮或者写评论大约有三十亿次,这就为Facebook公司挖掘用户喜好提供了大量的数据线索。与此同时,谷歌子公司YouTube每月接待多达8亿的访客,平均每一秒钟就会有一段长度在一小时以上的视频上传。Twitter上的信息量几乎每年翻一番,截止到2012年,每天都会发布超过4亿条微博。

从科学研究到医疗保险,从银行业到互联网,各个不同的领域都在讲述着一个类似的故事,那就是爆发式增长的数据量。这种增长超过了我们创造机器的速度,甚至超过了我们的想象。

我们周围到底有多少数据?增长的速度有多快?许多人试图测量出一个确切的数字。尽管测量的对象和方法有所不同,但他们都获得了不同程度的成功。南加利福尼亚大学安嫩伯格通信学院的马丁·希尔伯特(Martin Hilbert)进行了一个比较全面的研究,他试图得出人类所创造、存储和传播的一切信息的确切数目。他的研究范围不仅包括书籍、图画、电子邮件、照片、音乐、视频(模拟和数字),还包括电子游戏、电话、汽车导航和信件。马丁·希尔伯特还以收视率和收听率为基础,对电视、电台这些广播媒体进行了研究。

大数据的力量

据他估算,2007年,人类大约存储了超过300艾字节[3]的数据。下面这个比喻应该可以帮助人们更容易地理解这意味着什么了。一部完整的数字电影可以压缩成一个GB的文件,而一个艾字节相当于10亿GB,一个泽字节[4]则相当于1024艾字节。总之,这是一个非常庞大的数量。

有趣的是,在2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据[5],其余全部是数字数据[6]。但在不久之前,情况却完全不是这样的。虽然1960年就有了“信息时代”和“数字村镇”的概念,但实际上,这些概念仍然是相当新颖的。甚至在2000年的时候,数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。

早期数字信息的数量是不多的。对于长期在网上冲浪和购书的人来说,那只是一个微小的部分。事实上,在1986年的时候,世界上约40%的计算能力都被运用在袖珍计算器上,那时候,所有个人电脑的处理能力之和还没有所有袖珍计算器处理能力之和高。但是因为数字数据的快速增长,整个局势很快就颠倒过来了。按照希尔伯特的说法,数字数据的数量每三年多就会翻一倍。相反,模拟数据的数量则基本上没有增加。

大数据的力量

到2013年,世界上存储的数据预计能达到约1.2泽字节,其中非数字数据只占不到2%。

这样大的数据量意味着什么?如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。如果将之存储在只读光盘上,这些光盘可以堆成五堆,每一堆都可以伸到月球。公元前3世纪,埃及的托勒密二世竭力收集了当时所有的书写作品,所以伟大的亚历山大图书馆可以代表世界上所有的知识量。[7]但当数字数据洪流席卷世界之后,每个地球人都可以获得大量数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍之多。

事情真的在快速发展。人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。难怪人们会抱怨信息过量,因为每个人都受到了这种极速发展的冲击。

把眼光放远一点,我们可以把时下的信息洪流与1439年前后古登堡发明印刷机[8]时造成的信息爆炸相对比。历史学家伊丽莎白·爱森斯坦(Elizabeth Eisenstein)发现,1453—1503年,这50年之间大约有800万本书籍被印刷,比1200年之前君士坦丁堡建立以来整个欧洲所有的手抄书还要多。换言之,欧洲的信息存储量花了50年才增长了一倍(当时的欧洲还占据了世界上相当部分的信息存储份额),而如今大约每三年就能增长一倍。

这种增长意味着什么呢?彼特·诺维格(Peter Norvig)是谷歌的人工智能专家,也曾任职于美国宇航局喷气推进实验室,他喜欢把这种增长与图画进行类比。首先,他要我们想想来自法国拉斯科洞穴壁画上的标志性的马。这些画可以追溯到一万七千年之前的旧石器时代。然后,想想一张马的照片,再想想毕加索的画也可以,看起来和那些洞穴壁画没有多大的差别。事实上,毕加索看到那些洞穴壁画的时候就曾开玩笑说:“自那以后,我们就再也没有创造出什么东西了。”

他的话既正确又不完全正确。你回想一下壁画上的那匹马。当时要画一幅马需要花费很久的时间,而现在不需要那么久了。这就是一种改变,虽然改变的可能不是最核心的部分——毕竟这仍然是一幅马的图像。但是诺维格说,想象一下,现在我们能每秒钟播放24幅不同形态的马的图片,这就是一种由量变导致的质变:一部电影与一幅静态的画有本质上的区别!大数据也一样,量变导致质变。物理学和生物学都告诉我们,当我们改变规模时,事物的状态有时也会发生改变。

我们就以纳米技术为例。纳米技术专注于把东西变小而不是变大。其原理就是当事物到达分子的级别时,它的物理性质就会发生改变。一旦你知道这些新的性质,你就可以用同样的原料来做以前无法做的事情。铜本来是用来导电的物质,但它一旦到达纳米级别就不能在磁场中导电了。银离子具有抗菌性,但当它以分子形式存在的时候,这种性质会消失。一旦到达纳米级别,金属可以变得柔软,陶土可以具有弹性。同样,当我们增加所利用的数据量时,我们就可以做很多在小数据量的基础上无法完成的事情。

有时候,我们认为约束我们生活的那些限制,对于世间万物都有着同样的约束力。事实上,尽管规律相同,但是我们能够感受到的约束,很可能只对我们这样尺度的事物起作用。对于人类来说,唯一一个最重要的物理定律便是万有引力定律。这个定律无时无刻不在控制着我们。但对于细小的昆虫来说,重力是无关紧要的。[9]对它们而言,物理宇宙中有效的约束是表面张力,这个张力可以让它们在水上自由行走而不会掉下去。但人类对于表面张力毫不在意。

对于万有引力产生的约束效果而言,生物体的大小是非常重要的。类似地,对于信息而言,规模也是非常重要的。谷歌能够几近完美地给出和基于大量真实病例信息所得到的流感情况一致的结果,而且几乎是实时的,比疾控中心快多了。同样,Farecast可以预测机票价格的波动,从而让消费者真正在经济上获利。它们之所以如此给力,都因为存在供其分析的数千亿计的数据项。

大数据洞察

大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。

尽管我们仍处于大数据时代来临的前夕,但我们的日常生活已经离不开它了。垃圾邮件过滤器可以自动过滤垃圾邮件,尽管它并不知道“发#票#销#售”是“发票销售”的一种变体。交友网站根据个人的性格与之前成功配对的情侣之间的关联来进行新的配对。具有“自动改正”功能的智能手机通过分析我们以前的输入,将个性化的新单词添加到手机词典里。然而,对于这些数据的利用还仅仅只是一个开始。从可以自动转弯和刹车的汽车,到IBM沃森超级电脑在游戏节目《危险边缘》(Jeopardy)中打败人类来看,这项技术终将改变我们所居住的星球上的许多东西。



* * *



[1] 技术成熟度曲线又叫技术循环曲线,或者直接叫做炒作周期,是指新技术、新概念在媒体上曝光度随时间的变化曲线。——译者注

[2] 拍字节,一般记作PB,等于250字节。——译者注

[3] 艾字节,一般记作EB,等于260字节。——译者注

[4] 泽字节,一般记作ZB,等于270字节。——译者注

[5] 模拟数据也称为模拟量,相对于数字量而言,指的是取值范围是连续的变量或者数值,例如声音、图像、温度、压力等。模拟数据一般采用模拟信号,例如用一系列连续变化的电磁波或电压信号来表示。——译者注

[6] 数字数据也称为数字量,相对于模拟量而言,指的是取值范围是离散的变量或者数值。数字数据则采用数字信号,例如用一系列断续变化的电压脉冲(如用恒定的正电压表示二进制数1,用恒定的负电压表示二进制数0)或光脉冲来表示。——译者注

[7] 亚历山大图书馆藏书丰富,有据可考的超过50000卷(纸草卷),包括《荷马史诗》、《几何原本》等。亚历山大图书馆建成之时正是中国战国时代的末期,此时百家争鸣,较有影响的十大家(儒、道、墨、法、名、阴阳、纵横、杂、农、小说)多有著述,且已出现如《诗经》、《楚辞》、《离骚》等文学作品,虽没有像亚历山大图书馆一样的集中式藏书中心,但也占据了世界知识量的相当份额。——译者注

[8] 据《中国出版史》记载,中国的毕昇早在11世纪40年代就发明了泥活字印刷,远远早于古登堡15世纪30年代发明的铅活字。——编者注

[9] 这是一个美妙有趣的例子,但是对于学习物理的人来说总是有些怪异。显然,万有引力一如既往起着作用,不过是因为空气阻力在不同密度和体积的物体上产生了不同的效果。如果把蟑螂从真空环境的高楼往下扔,恐怕也是凶多吉少。——译者注





预测,大数据的核心


大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。一封邮件被作为垃圾邮件过滤掉的可能性,输入的“teh”应该是“the”的可能性,从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性,都是大数据可以预测的范围。当然,如果一个人能及时穿过马路,那么他乱穿马路时,车子就只需要稍稍减速就好。这些预测系统之所以能够成功,关键在于它们是建立在海量数据的基础之上的。此外,随着系统接收到的数据越来越多,它们可以聪明到自动搜索最好的信号和模式,并自己改善自己。[1]

在不久的将来,世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。计算机系统可以发挥作用的领域远远不止驾驶和交友,还有更多更复杂的任务。别忘了,亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序,Facebook知道我们的喜好,而LinkedIn可以猜出我们认识谁。[2]当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在犯罪分子上。

就像互联网通过给计算机添加通信功能而改变了世界,大数据也将改变我们生活中最重要的方面,因为它为我们的生活创造了前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。



* * *



[1] 系统可以通过一种“反馈学习”的机制,利用自己产生的数据判断自身算法和参数选择的有效性,并实时进行调整,持续改进自身的表现。——译者注

[2] 这些任务都和个性化技术相关,包括个性化排序和个性化推荐。个性化技术是大数据时代最重要的技术,这里向专业读者推荐吕琳媛等人2012年在《Physics Reports》上发表的名为“Recommender Systems”的综述。——译者注





大数据,大挑战


大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。

第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。这部分内容将在第1章阐述。19世纪以来,当面临大量数据时,社会都依赖于采样分析。但是采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。以前我们通常把这看成是理所当然的限制,但高性能数字技术的流行让我们意识到,这其实是一种人为的限制。与局限在小数据范围相比,使用一切数据为我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节——大数据让我们更清楚地看到了样本无法揭示的细节信息。

第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。这部分内容将在第2章阐述。当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取的。如果购买者不知道牛群里有80头牛还是100头牛,那么交易就无法进行。直到今天,我们的数字技术依然建立在精准的基础上。我们假设只要电子数据表格把数据排序,数据库引擎就可以找出和我们检索的内容完全一致的检索记录。

这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所以我们必须尽可能精准地量化我们的记录。在某些方面,我们已经意识到了差别。例如,一个小商店在晚上打烊的时候要把收银台里的每分钱都数清楚,但是我们不会、也不可能用“分”这个单位去精确度量国民生产总值。随着规模的扩大,对精确度的痴迷将减弱。

达到精确需要有专业的数据库。针对小数据量和特定事情,追求精确性依然是可行的,比如一个人的银行账户上是否有足够的钱开具支票。但是,在这个大数据时代,很多时候,追求精确度已经变得不可行,甚至不受欢迎了。当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。

大数据纷繁多样,优劣掺杂,分布在全球多个服务器上。拥有了大数据,我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可。当然,我们也不是完全放弃了精确度,只是不再沉迷于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。

第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。这部分内容将在第3章阐述。寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用途不大,人类还是习惯性地寻找缘由。相反,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大了。

如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体的药理机制就没有这种治疗方法本身来得重要。同样,只要我们知道什么时候是买机票的最佳时机,就算不知道机票价格疯狂变动的原因也无所谓了。大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。

我们不再需要在还没有收集数据之前,就把我们的分析建立在早已设立的少量假设的基础之上。让数据发声,我们会注意到很多以前从来没有意识到的联系的存在。

例如,对冲基金通过剖析社交网络Twitter上的数据信息来预测股市的表现;亚马逊和奈飞(Netflix)[1]根据用户在其网站上的类似查询来进行产品推荐;Twitter,Facebook和LinkedIn通过用户的社交网络图来得知用户的喜好。

当然,人类从数千年前就开始分析数据。古代美索不达米亚平原的记账人员为了有效地跟踪记录信息发明了书写。自从圣经时代开始,政府就通过进行人口普查来建立大型的国民数据库。两百多年来,精算师们也一直通过搜集大量的数据来进行风险规避。

模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析数据。数字化的到来使得数据管理效率又向前迈出了重要的一步。数字化将模拟数据转换成计算机可以读取的数字数据,使得存储和处理这些数据变得既便宜又容易,从而大大提高了数据管理效率。过去需要几年时间才能完成的数据搜集,现在只要几天就能完成。但是,光有改变还远远不够。数据分析者太沉浸于模拟数据时代的设想,即数据库只有单一的用途和价值,而正是我们使用的技术和方法加深了这种偏见。虽然数字化是促成向大数据转变的重要原因,但仅有计算机的存在却不足以实现大数据。

我们没有办法准确描述现在正在发生的一切,但是在第4章将提到的“数据化”概念可以帮助我们大致了解这次变革。数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括很多我们以前认为和“信息”根本搭不上边的事情。比方说,一个人所在的位置、引擎的振动、桥梁的承重等。我们要通过量化的方法把这些内容转化为数据。这就使得我们可以尝试许多以前无法做到的事情,如根据引擎的散热和振动来预测引擎是否会出现故障。这样,我们就激发出了这些数据此前未被挖掘的潜在价值。

大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度,正是主宰这场游戏的关键。新兴技术工具的使用使这一切成为可能。宝贝不止一件,每个数据集内部都隐藏着某些未被发掘的价值。这场发掘和利用数据价值的竞赛正开始在全球上演。

第5章和第6章将讲述大数据如何改变了商业、市场和社会的本质。20世纪,价值已经从实体基建转变为无形财产,从土地和工厂转变为品牌和产权。如今,一个新的转变正在进行,那就是电脑存储和分析数据的方法取代电脑硬件成为了价值的源泉。数据成为了有价值的公司资产、重要的经济投入和新型商业模式的基石。虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题。

虽然有些数据处理技术已经出现了一段时间,但是它们只为调查局、研究所和世界上的一些巨头公司所掌握。沃尔玛和美国第一资本银行(CapitalOne)率先将大数据运用在了零售业和银行业,因此改变了整个行业。如今这些技术大多都实现了大众化。

大数据对个人的影响是最惊人的。在一个可能性和相关性占主导地位的世界里,专业性变得不那么重要了。行业专家不会消失,但是他们必须与数据表达的信息进行博弈。如同在电影《点球成金》(Moneyball)里,棒球星探们在统计学家面前相形见绌——直觉的判断被迫让位于精准的数据分析。这将迫使人们调整在管理、决策、人力资源和教育方面的传统理念。

我们大部分的习俗和惯例都建立在一个预设好的立场上,那就是我们用来进行决策的信息必须是少量、精确并且至关重要的。但是,当数据量变大、数据处理速度加快,而且数据变得不那么精确时,之前的那些预设立场就不复存在了。此外,因为数据量极为庞大,最后做出决策的将是机器而不是人类自己。第7章将会讨论大数据的负面影响。

在了解和监视人类的行为方面,社会已经有了数千年的经验。但是,如何来监管一个算法系统呢?在信息化时代的早期,有一些政策专家就看到了信息化给人们的隐私权带来的威胁,社会也已经建立起了庞大的规则体系来保障个人的信息安全。但是在大数据时代,这些规则都成了无用的马其诺防线[2]。人们自愿在网络上分享信息,而这种分享的能力成为了网络服务的一个中心特征,而不再是一个需要规避的薄弱点了。

对我们而言,危险不再是隐私的泄露,而是被预知的可能性——这些能预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险、无法贷款、甚至在实施犯罪前就被预先逮捕。显然,统计把大数据放在了首位,但即便如此,个人意志是否应该凌驾于大数据之上呢?就像出版印刷行业的发展推动国家立法保护言论自由(在此之前没有出台类似法律的必要,因为没有太多的言论需要保护),大数据时代也需要新的规章制度来保卫权势面前的个人权利。

政府机构和社会在控制和处理数据的方法上必须有全方位的改变。不可否认,我们进入了一个用数据进行预测的时代,虽然我们可能无法解释其背后的原因。如果一个医生只要求病人遵从医嘱,却没法说明医学干预的合理性的话,情况会怎么样呢?实际上,这是依靠大数据取得病理分析的医生们一定会做的事情。还有司法系统的“合理证据”是不是应该改为“可能证据”呢?如果真是这样,会对人类自由和尊严产生什么影响呢?

我们在大数据时代倡导的一系列规范将在第8章进行介绍。这些规范建立在我们很熟悉的“小数据”时代发展并保留下来的规范的基础之上。新环境要求旧规范与时俱进。

大数据洞察

大数据给社会带来的益处将是多方面的。因为大数据已经成为解决紧迫世界性问题,如抑制全球变暖、消除疾病、提高执政能力和发展经济的一个有力武器。但是大数据时代也向我们提出了挑战,我们需要做好充足的准备迎接大数据技术给我们的机构和自身带来的改变。

大数据标志着人类在寻求量化和认识世界的道路上前进了一大步。过去不可计量、存储、分析和共享的很多东西都被数据化了。拥有大量的数据和更多不那么精确的数据为我们理解世界打开了一扇新的大门。社会因此放弃了寻找因果关系的传统偏好,开始挖掘相关关系的好处。

寻找原因是一种现代社会的一神论,大数据推翻了这个论断。但我们又陷入了一个历史的困境,那就是我们活在一个“上帝已死”的时代。也就是说,我们曾经坚守的信念动摇了。讽刺的是,这些信念正在被“更好”的证据所取代。那么,从经验中得来的与证据相矛盾的直觉、信念和迷惘应该充当什么角色呢?当世界由探求因果关系变成挖掘相关关系,我们怎样才能既不损坏建立在因果推理基础之上的社会繁荣和人类前行的基石,又取得实际的进步呢?本书意在解释我们身在何处,我们从何而来,并且提供当下亟需的指导,以应对眼前的利益和危险。



* * *



[1] Netflix,也常译作网狸公司。——译者注

[2] 马奇诺防线是法国在第一次世界大战后,为防德军入侵而在其东北边境地区构筑的筑垒配系,以其陆军部长姓氏命名。1940年5月至6月,德国主力通过阿登山脉,从马奇诺防线左翼迂回,进抵马奇诺防线的后方,使防线丧失了作用。“马奇诺防线”现在用来意指看似表面坚固,实际毫无价值的东西。——译者注





第一部分 大数据时代的思维变革


01 更多:不是随机样本,而是全体数据


当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。

【大数据先锋】

穿孔卡片与美国人口普查

大数据与乔布斯的癌症治疗

Xoom与跨境汇款异常交易报警

巴拉巴西与第一次全社会层面的网络分析





让数据“发声”


“大数据”全在于发现和理解信息内容及信息与信息之间的关系,然而直到最近,我们对此似乎还是难以把握。IBM的资深“大数据”专家杰夫·乔纳斯(Jeff Jonas)提出要让数据“说话”。从某种层面上来说,这听起来很平常。人们使用数据已经有相当长一段时间了,无论是日常进行的大量非正式观察,还是过去几个世纪里在专业层面上用高级算法进行的量化研究,都与数据有关。

在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数据。但当我们谈论能“说话”的数据时,我们指的远远不止这些。

实际上,大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。

●首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。

●其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。

●最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。

本章就将介绍第一个转变:利用所有的数据,而不再仅仅依靠一小部分数据。

很长一段时间以来,准确分析大量数据对我们而言都是一种挑战。过去,因为记录、储存和分析数据的工具不够好,我们只能收集少量数据进行分析,这让我们一度很苦恼。为了让分析变得简单,我们会把数据量缩减到最少。这是一种无意识的自省:我们把与数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。如今,技术条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,也永远是有限的,但是我们可以处理的数据量已经大大地增加,而且未来会越来越多。

在某些方面,我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力。我们还是在信息匮乏的假设下做很多事情,建立很多机构组织。我们假定自己只能收集到少量信息,结果就真的如此了。这是一个自我实现的过程。我们甚至发展了一些使用尽可能少的信息的技术。别忘了,统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。事实上,我们形成了一种习惯,那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。为了理解大数据时代的转变意味着什么,我们需要首先回顾一下过去。





小数据时代的随机采样,最少的数据获得最多的信息


直到最近,私人企业和个人才拥有了大规模收集和分类数据的能力。在过去,这是只有教会或者政府才能做到的。当然,在很多国家,教会和政府是等同的。有记载的、最早的计数发生在公元前8000年的,当时苏美尔的商人用黏土珠来记录出售的商品。大规模的计数则是政府的事情。数千年来,政府都试图通过收集信息来管理国民。

以人口普查为例。据说古代埃及曾进行过人口普查,《旧约》和《新约》中对此都有所提及。那次由奥古斯都恺撒主导实施的人口普查,提出了“每个人都必须纳税”,这使得约瑟夫和玛丽搬到了耶稣的出生地伯利恒。1086年的《末日审判书》(The Doomsday Book)对当时英国的人口、土地和财产做了一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载,后来这本书用《圣经》中的《末日审判书》命名,因为每个人的生活都被赤裸裸地记载下来的过程就像接受“最后的审判”一样。

然而,人口普查是一项耗资且费时的事情。国王威廉一世(King William I)在他发起的《末日审判书》完成之前就去世了。但是,除非放弃收集信息,否则在当时没有其他办法。尽管如此,当时收集的信息也只是一个大概情况,实施人口普查的人也知道他们不可能准确记录下每个人的信息。实际上,“人口普查”这个词来源于拉丁语的“censere”,意思就是推测、估算。

三百多年前,一个名叫约翰·格朗特(John Graunt)[1]的英国缝纫用品商提出了一个很有新意的方法。他采用了一个新方法推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。这个方法不需要一个人一个人地计算。虽然这个方法比较粗糙,但采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。

虽然后来证实他能够得出正确的数据仅仅是因为运气好,但在当时他的方法大受欢迎。样本分析法一直都有较大的漏洞,因此无论是进行人口普查还是其他大数据类的任务,人们还是一直使用一一清点这种“野蛮”的方法。

考虑到人口普查的复杂性以及耗时耗费的特点,政府极少进行普查。古罗马在拥有数十万人口的时候每5年普查一次。美国宪法规定每10年进行一次人口普查,而随着国家人口越来越多,只能以百万计数。但是到19世纪为止,即使这样不频繁的人口普查依然很困难,因为数据变化的速度超过了人口普查局统计分析的能力。

大数据先锋

穿孔卡片与美国人口普查

美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过时的。1890年进行的人口普查,预计要花费13年的时间来汇总数据。即使不考虑这种情况违反了宪法规定,它也是很荒谬的。然而,因为税收分摊和国会代表人数确定都是建立在人口的基础上的,所以必须要得到正确的数据,而且必须是及时的数据。

美国人口普查局面临的问题与当代商人和科学家遇到的问题很相似。很明显,当他们被数据淹没的时候,已有的数据处理工具已经难以应付了,所以就需要有更多的新技术。

后来,美国人口普查局就和当时的美国发明家赫尔曼·霍尔瑞斯(Herman Hollerith)签订了一个协议,用他的穿孔卡片制表机来完成1890年的人口普查。

经过大量的努力,霍尔瑞斯成功地在1年时间内完成了人口普查的数据汇总工作。这简直就是一个奇迹,它标志着自动处理数据的开端,也为后来IBM公司的成立奠定了基础。但是,将其作为收集处理大数据的方法依然过于昂贵。毕竟,每个美国人都必须填一张可制成穿孔卡片的表格,然后再进行统计。这么麻烦的情况下,很难想象如果不足十年就要进行一次人口普查应该怎么办。但是,对于一个跨越式发展的国家而言,十年一次的人口普查的滞后性已经让普查失去了大部分意义。

这就是问题所在,是利用所有的数据还是仅仅采用一部分呢?最明智的自然是得到有关被分析事物的所有数据,但是当数量无比庞大时,这又不太现实。那如何选择样本呢?有人提出有目的地选择最具代表性的样本是最恰当的方法。1934年,波兰统计学家耶日·奈曼(Jerzy Neyman)指出,这只会导致更多更大的漏洞。事实证明,问题的关键是选择样本时的随机性。[2]

统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。虽然听起来很不可思议,但事实上,一个对1100人进行的关于“是否”问题的抽样调查有着很高的精确性,精确度甚至超过了对所有人进行调查时的97%[3]。这是真的,不管是调查10万人还是1亿人,20次调查里有19次都能猜对。为什么会这样?原因很复杂,但是有一个比较简单的解释就是,当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。

认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。这种观点为我们开辟了一条收集信息的新道路。通过收集随机样本,我们可以用较少的花费做出高精准度的推断。因此,政府每年都可以用随机采样的方法进行小规模的人口普查,而不是只能每十年进行一次。事实上,政府也这样做了。例如,除了十年一次的人口大普查,美国人口普查局每年都会用随机采样的方法对经济和人口进行200多次小规模的调查。当收集和分析数据都不容易时,随机采样就成为应对信息采集困难的办法。

很快,随机采样就不仅应用于公共部门和人口普查了。在商业领域,随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易,花费也更少。以前,全面的质量监管要求对生产出来的每个产品进行检查,而现在只需从一批商品中随机抽取部分样品进行检查就可以了。本质上来说,随机采样让大数据问题变得更加切实可行。同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。

随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。[4]它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。

最近,以固定电话用户为基础进行投票民调就面临了这样的问题,采样缺乏随机性,因为没有考虑到只使用移动电话的用户——这些用户一般更年轻和更热爱自由。没有考虑到这些用户,自然就得不到正确的预测。2008年在奥巴马与麦凯恩之间进行的美国总统大选中,盖洛普咨询公司、皮尤研究中心(Pew)、美国广播公司和《华盛顿邮报》社这些主要的民调组织都发现,如果他们不把移动用户考虑进来,民意测试结果就会出现三个点的偏差,而一旦考虑进来,偏差就只有一个点。鉴于这次大选的票数差距极其微弱,这已经是非常大的偏差了。

更糟糕的是,随机采样不适合考察子类别的情况。因为一旦继续细分,随机采样结果的错误率会大大增加。这很容易理解。倘若你有一份随机采样的调查结果,是关于1000个人在下一次竞选中的投票意向。如果采样时足够随机,这份调查的结果就有可能在3%的误差范围内显示全民的意向。但是如果这个3%左右的误差本来就是不确定的,却又把这个调查结果根据性别、地域和收入进行细分,结果是不是越来越不准确呢?用这些细分过后的结果来表现全民的意愿,是否合适呢?

你设想一下,一个对1000个人进行的调查,如果要细分到“东北部的富裕女性”,调查的人数就远远少于1000人了。即使是完全随机的调查,倘若只用了几十个人来预测整个东北部富裕女性选民的意愿,还是不可能得到精确结果啊!而且,一旦采样过程中存在任何偏见,在细分领域所做的预测就会大错特错。

因此,当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域失去了作用。随机采样就像是模拟照片打印,远看很不错,但是一旦聚焦某个点,就会变得模糊不清。

随机采样也需要严密的安排和执行。人们只能从采样数据中得出事先设计好的问题的结果——千万不要奢求采样的数据还能回答你突然意识到的问题。所以虽说随机采样是一条捷径,但它也只是一条捷径。随机采样方法并不适用于一切情况,因为这种调查结果缺乏延展性,即调查得出的数据不可以重新分析以实现计划之外的目的。

我们来看一下DNA分析。由于技术成本大幅下跌以及在医学方面的广阔前景,个人基因排序成为了一门新兴产业。2012年,基因组解码的价格跌破1000美元,这也是非正式的行业平均水平。从2007年起,硅谷的新兴科技公司23andme就开始分析人类基因,价格仅为几百美元。这可以揭示出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征,如乳腺癌和心脏病。23andme希望能通过整合顾客的DNA和健康信息,了解到用其他方式不能获取的新信息。

公司对某人的一小部分DNA进行排序,标注出几十个特定的基因缺陷。这只是该人整个基因密码的样本,还有几十亿个基因碱基对未排序。最后,23andme只能回答其标注过的基因组表现出来的问题。发现新标注时,该人的DNA必须重新排序,更准确地说,是相关的部分必须重新排列。只研究样本而不是整体,有利有弊:能更快更容易地发现问题,但不能回答事先未考虑到的问题。

大数据先锋

大数据与乔布斯的癌症治疗

苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用,这是23andme报价的几百倍之多。所以,他得到的不是一个只有一系列标记的样本,他得到了包括整个基因密码的数据文档。

对于一个普通的癌症患者,医生只能期望她的DNA排列同试验中使用的样本足够相似。但是,史蒂夫·乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医生可以及时更换另一种药,也就是乔布斯所说的,“从一片睡莲叶跳到另一片上。”乔布斯开玩笑说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。”虽然他的愿望都没有实现,但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。





全数据模式,样本=总体


在信息处理能力受限的时代,世界需要数据分析,却缺少用来分析所收集数据的工具,因此随机采样应运而生,它也可以被视为那个时代的产物。如今,计算和制表不再像过去一样困难。感应器、手机导航、网站点击和Twitter被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理。

采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候,它就没有什么意义了。数据处理技术已经发生了翻天覆地的改变,但我们的方法和思维却没有跟上这种改变。

采样一直有一个被我们广泛承认却又总有意避开的缺陷,现在这个缺陷越来越难以忽视了。采样忽视了细节考察。虽然我们别无选择,只能利用采样分析法来进行考察,但是在很多领域,从收集部分数据到收集尽可能多的数据的转变已经发生了。如果可能的话,我们会收集所有的数据,即“样本=总体”。

正如我们所看到的,“样本=总体”是指我们能对数据进行深度探讨,而采样几乎无法达到这样的效果。上面提到的有关采样的例子证明,用采样的方法分析整个人口的情况,正确率可达97%。对于某些事物来说,3%的错误率是可以接受的。但是你无法得到一些微观细节的信息,甚至还会失去对某些特定子类别进行进一步研究的能力。我们不能满足于正态分布一般中庸平凡的景象。生活中真正有趣的事情经常藏匿在细节之中,而采样分析法却无法捕捉到这些细节。

谷歌流感趋势预测并不是依赖于对随机样本的分析,而是分析了整个美国几十亿条互联网检索记录。分析整个数据库,而不是对一个小样本进行分析,能够提高微观层面分析的准确性,甚至能够推测出某个特定城市的流感状况,而不只是一个州或是整个国家的情况。Farecast的初始系统使用的样本包含12000个数据,所以取得了不错的预测结果。随着奥伦·埃齐奥尼不断添加更多的数据,预测的结果越来越准确。最终,Farecast使用了每一条航线整整一年的价格数据来进行预测。埃齐奥尼说:“这只是一个暂时性的数据,随着你收集的数据越来越多,你的预测结果会越来越准确。”

所以,我们现在经常会放弃样本分析这条捷径,选择收集全面而完整的数据。我们需要足够的数据处理和存储能力,也需要最先进的分析技术。同时,简单廉价的数据收集方法也很重要。过去,这些问题中的任何一个都很棘手。在一个资源有限的时代,要解决这些问题需要付出很高的代价。但是现在,解决这些难题已经变得简单容易得多。曾经只有大公司才能做到的事情,现在绝大部分的公司都可以做到了。

通过使用所有的数据,我们可以发现如若不然则将会在大量数据中淹没掉的情况。例如,信用卡诈骗是通过观察异常情况来识别的,只有掌握了所有的数据才能做到这一点。在这种情况下,异常值是最有用的信息,你可以把它与正常交易情况进行对比。这是一个大数据问题。而且,因为交易是即时的,所以你的数据分析也应该是即时的。

大数据先锋

Xoom与跨境汇款异常交易报警

Xoom是一个专门从事跨境汇款业务的公司,它得到了很多拥有大数据的大公司的支持。它会分析一笔交易的所有相关数据。2011年,它注意到用“发现卡”从新泽西州汇款的交易量比正常情况多一些,系统于是启动报警。Xoom公司的首席执行官约翰·孔泽(John Kunze)解释说:“这个系统关注的是不应该出现的情况。”单独来看,每笔交易都是合法的,但是事实证明这是一个犯罪集团在试图诈骗。而发现异常的唯一方法就是,重新检查所有的数据,找出样本分析法错过的信息。

然而,使用所有的数据并不代表这是一项艰巨的任务。大数据中的“大”不是绝对意义上的大,虽然在大多数情况下是这个意思。谷歌流感趋势预测建立在数亿的数学模型上,而它们又建立在数十亿数据节点的基础之上。完整的人体基因组有约30亿个碱基对。但这只是单纯的数据节点的绝对数量,并不代表它们就是大数据。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。谷歌流感趋势和乔布斯的医生们采取的就是大数据的方法。

日本国民体育运动“相扑”中非法操纵比赛结果的发现过程,就恰到好处地说明了使用“样本=总体”这种全数据模式的重要性。消极比赛一直被极力禁止,备受谴责,很多运动员深受困扰。芝加哥大学的一位很有前途的经济学家斯蒂夫·列维特(Steven Levitt),在《美国经济评论》上发表了一篇研究论文,其中提到了一种发现这种情况的方法:查看运动员过去所有的比赛资料。他的畅销书《魔鬼经济学》(Freakonomics)中也提到了这个观点,他认为检查所有的数据是非常有价值的。

列维特和他的同事马克·达根(Mark Duggan)使用了11年中超过64000场摔跤比赛的记录,来寻找异常性。他们获得了重大的发现。非法操纵比赛结果的情况确实时有发生,但是不会出现在大家很关注的比赛上。冠军赛也有可能被操纵,但是数据显示消极比赛主要还是出现在不太被关注的联赛的后几场中。这时基本上没有什么风险,因为很多选手根本就没有获奖的希望。

相扑比赛的一个比较特殊的地方是,选手需要在15场赛事中的大部分场次取得胜利才能保持排名和收入。这样一来就会出现利益不对称的问题。当一名7胜7负的摔跤手碰到一个8胜6负的对手时,比赛结果对第一个选手来说极其重要,对他的对手而言则没有那么重要。列维特和达根发现,在这样的情况下,需要赢的那个选手很可能会赢。这看起来像是对手送的“礼物”,因为在联系紧密的相扑界,帮别人一把就是给自己留了一条后路。

有没有可能是要赢的决心帮助这个选手获胜呢?答案是,有可能。但是数据显示的情况是,需要赢的选手的求胜心也只能把胜率提高25%。所以,把胜利完全归功于求胜心是不妥当的。对数据进行进一步分析可能会发现,与他们在先前比赛中的表现相比,当他们再相遇时,上次失利的一方要拥有比对方更高的胜率。因为在相扑界,你的付出总会有所“回报”,所以第一次的胜利看上去更像是一名选手送给另一名选手的礼物。

这个情况是显而易见的。但是如果采用随机采样分析法,就无法发现这个情况。而大数据分析通过使用所有比赛的极大数据捕捉到了这个情况。这就像捕鱼一样,开始时你不知道是否能捕到鱼,也不知道会捕到什么鱼。

一个数据库并不需要有以太字节[5]计的数据。在这个相扑案例中,整个数据库包含的字节量还不如一张普通的数码照片包含得多。但是大数据分析法不只关注一个随机的样本。这里的“大”取的是相对意义而不是绝对意义,也就是说这是相对所有数据来说的。

很长一段时间内,随机采样都是一条好的捷径,它使得数字时代之前的大量数据分析变得可能。但就像把一张数码照片或者一首数码歌曲截取成多个小文件似的,在采样分析的时候,很多信息就丢失了——你能欣赏一首歌的抽样吗?拥有全部或几乎全部的数据,我们就能够从不同的角度,更细致地观察和研究数据的方方面面。

我们可以用Lytro相机来打一个恰当的比方。Lytro相机是具有革新性的,因为它把大数据运用到了基本的摄影中。与传统相机只可以记录一束光不同,Lytro相机可以记录整个光场里所有的光,达到1100万束之多。具体生成什么样的照片则可以在拍摄之后再根据需要决定。用户没必要在一开始就聚焦,因为该相机可以捕捉到所有的数据,所以之后可以选择聚焦图像中的任一点。整个光场的光束都被记录了,也就是收集了所有的数据,“样本=总体”。因此,与普通照片相比,这些照片就更具“可循环利用性”。如果使用普通相机,摄影师就必须在拍照之前决定好聚焦点。

同理,因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以我们就可以正确地考察细节并进行新的分析。在任何细微的层面,我们都可以用大数据去论证新的假设。是大数据让我们发现了相扑中的非法操纵比赛结果、流感的传播区域和对抗癌症需要针对的那部分DNA。它让我们能清楚分析微观层面的情况。

当然,有些时候,我们还是可以使用样本分析法,毕竟我们仍然活在一个资源有限的时代。但是更多时候,利用手中掌握的所有数据成为了最好也是可行的选择。

社会科学是被“样本=总体”撼动得最厉害的学科。随着大数据分析取代了样本分析,社会科学不再单纯依赖于分析实证数据。这门学科过去曾非常依赖样本分析、研究和调查问卷。当记录下来的是人们的平常状态,也就不用担心在做研究和调查问卷时存在的偏见[6]了。现在,我们可以收集过去无法收集到的信息,不管是通过移动电话表现出的关系,还是通过Twitter信息表现出的感情。更重要的是,我们现在也不再依赖抽样调查了。

艾伯特-拉斯洛·巴拉巴西(Albert-László Barabási)[7],和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。通过观察数百万人的所有通信记录,我们可以产生也许通过任何其他方式都无法产生的新观点。

有趣的是,与小规模的研究相比,这个团队发现,如果把一个在社区内有很多连接关系的人从社区关系网中剔除掉,这个关系网会变得没那么高效但却不会解体;但如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除,整个关系网很快就会破碎成很多小块。[8]这个研究结果非常重要也非常得出人意料。谁能想象一个在关系网内有着众多好友的人的重要性还不如一个只是与很多关系网外的人有联系的人呢?[9]这说明一般来说无论是针对一个小团体还是整个社会,多样性是有额外价值的。这个结果促使我们重新审视一个人在社会关系网中的存在价值。

大数据洞察

我们总是习惯把统计抽样看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。如今,技术环境已经有了很大的改善。在大数据时代进行抽样分析就像是在汽车时代骑马一样。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。



* * *



[1] 约翰·格朗特的尝试可以参见他闻名世界的著作Natural and Political Observations Made upon the Bills of Mortality。尽管他并未真正给出一种有效的办法来推断疾病流行时的人口数或死亡率,但是他首次建立了区分各年龄段的存活率表,因此被认为是人口统计学的主要创始人之一。——译者注

[2] 在对一个量(例如年收入)进行估计的时候,如果总体可以分为很多层(例如所有人口按照不同年龄或者不同职业分成很多层),一种直观的想法是每一层随机抽样的样本大小应该正比于这个层所包含人口的多少。奈曼指出,最优分配并非如此简单,实际上,层越大,层内待估计量的变化越大,该层抽样的单位费用越小,则该层的抽样就应该越多。具体的公式和推导过程可以参考1934年奈曼在Journal of the Royal Statistical Society上发表的“On the two different aspects of the representative method:The method of stratified sampling and the method of purposive selection”一文。——译者注。

[3] 此处指对回答“是”的概率的估计精度可以达到97%左右,也就是说估计值的标准差在3%左右。——译者注

[4] 刚才讨论的还只是最简单的经典抽样问题。尽管奈曼等人指出了其中非平凡的问题,但毕竟存在最优抽样的判断标准和最优方法。最近,祝建华教授在一次讨论中指出,如果抽样的对象更复杂,例如是一个网络,那么根本找不到一个“最优抽样”的标准,更不可能奢求抽样得到的小网络能够反映总体的所有结构特性。——译者注

[5] 太字节,一般记作TB,等于240字节。——译者注

[6] 这种偏见既包括研究者设计实验和问卷时的偏差,也包括被试人员由于了解自己作为被试的角色而产生的不同于日常的心理和行为。——译者注

[7] 全球最权威的复杂网络研究专家之一,其最新作品《爆发》(Bursts)是大数据新科学范式的典型代表,该书的简体中文版已由湛庐文化策划、中国人民大学出版社出版,推荐与本书参照阅读。——译者注

[8] 作者对这项研究的理解稍有不妥。该研究并未关注从网络中移除节点(手机用户)的情形,而是考察从网络中移除链路(通话关系)对网络结构的影响。借鉴渗流理论(Percolation Theory),作者发现,移除弱关系而非强关系反而会导致快速破碎成若干小碎片。详细分析可以参考Onnela等人2007年在《美国科学院院刊》上发表的“Structure and tie strengths in mobile communication networks”一文。——译者注

[9] 就个人而言,可以通过重叠社区挖掘的方法找到同时属于多个社区的节点,这些人往往对网络连通性至关重要。就联系而言,可以挖掘起桥接作用的连边,这些连边往往对网络连通性至关重要。这方面的概念和算术可参考2005年Palla等人在《自然》上发表的名为“Uncovering the overlapping community structure of complex networks in nature and society”一文及2010年程学旗等人在《统计力学杂志》上发表的名为“Bridgeness:a local index on edge significance in maintaining global connectivity”一文。——译者注





02 更杂:不是精确性,而是混杂性


执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

【大数据先锋】

微软与语料库数据添加

IBM Candidate计算机翻译项目

无所不包的谷歌翻译系统

英国石油公司与无线感应器

麻省理工与通货紧缩预测软件

Hadoop与VISA的13分钟





允许不精确


在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的,而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。

对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。无论是确定天体的位置还是观测显微镜下物体的大小,为了使结果更加准确,很多科学家都致力于优化测量的工具。在采样的时候,对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。

历史上很多时候,人们会把通过测量世界来征服世界视为最大的成就。事实上,对精确度的高要求始于13世纪中期的欧洲。那时候,天文学家和学者对时间、空间的研究采取了比以往更为精确的量化方式,用历史学家阿尔弗雷德·克罗斯比(Alfred Crosby)的话来说就是“测量现实”。

我们研究一个现象,是因为我们相信我们能够理解它。后来,测量方法逐渐被运用到科学观察、解释方法中,体现为一种进行量化研究、记录,并呈现可重复结果的能力。伟大的物理学家开尔文男爵曾说过:“测量就是认知。”这已成为一条至理名言。培根也曾说过:“知识就是力量。”同时,很多数学家以及后来的精算师和会计师都发展了可以准确收集、记录和管理数据的方法。

19世纪,科技率先发展起来的法国开发了一套能准确计量时间、空间单位的系统,并逐渐成为其他国家普遍采用的标准,这套系统还为后来国际公认的测量条约奠定了基础,成为测量时代的巅峰。仅半个世纪之后,20世纪20年代,量子力学的发现永远粉碎了“测量臻于至善”的幻梦。然而,在物理学这个小圈子以外的一些测量工程师和科学家仍沉湎在完美测量的梦中。随着理性学科,如数学和统计学逐渐影响到商业领域,商业界更加崇尚这种思想。

然而,在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。

同时,我们需要与各种各样的混乱做斗争。混乱,简单地说就是随着数据的增加,错误率也会相应增加。所以,如果桥梁的压力数据量增加1000倍的话,其中的部分读数就可能是错误的,而且随着读数量的增加,错误率可能也会继续增加。在整合来源不同的各类信息的时候,因为它们通常不完全一致,所以也会加大混乱程度。例如,与服务器处理投诉时的数据进行比较,用语音识别系统识别某个呼叫中心接到的投诉会产生一个不太准确的结果,但也是有助于我们把握整个事情的大致情况的。

混乱还可以指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。“大数据”专家帕堤尔(D.J.Patil)指出,I.B.M.、T.J.Watson Labs、International Business Machines都可以用来指代IBM,甚至可能有成千上万种方法称呼IBM。当然,在萃取或处理数据的时候,混乱也会发生。因为在进行数据转化的时候,我们是在把它变成另外的事物。比如,我们在对Twitter的信息进行情感分析来预测好莱坞票房的时候,就会出现一定的混乱。其实,混乱的起源和类型本来就是一团乱麻。

假设你要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那你就必须确保这个测量仪是精确的而且能够一直工作。反过来,如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的,可能会更加混乱,但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据,而它不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。

现在想想增加读数频率的这个事情。如果每隔一分钟就测量一下温度,我们至少还能够保证测量结果是按照时间有序排列的。如果变成每分钟测量十次甚至百次的话,不仅读数可能出错,连时间先后都可能搞混掉。试想,如果信息在网络中流动,那么一条记录很可能在传输过程中被延迟,在其到达的时候已经没有意义了,甚至干脆在奔涌的信息洪流中彻底迷失。虽然我们得到的信息不再那么准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算。

在第一个例子里,我们为了获得更广泛的数据而牺牲了精确性,也因此看到了很多如若不然无法被关注到的细节。在第二个例子里,我们为了高频率而放弃了精确性,结果观察到了一些本可能被错过的变化。虽然如果我们能够下足够多的工夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。

为了扩大规模,我们接受适量错误的存在。正如技术咨询公司Forrester所认为的,有时得到2加2约等于3.9的结果,也很不错了。当然,数据不可能完全错误,但为了了解大致的发展趋势,我们愿意对精确性做出一些让步。

大数据洞察

“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。

我们可以在大量数据对计算机其他领域进步的重要性上看到类似的变化。我们都知道,如摩尔定律所预测的,过去一段时间里计算机的数据处理能力得到了很大的提高。摩尔定律认为,每块芯片上晶体管的数量每两年就会翻一倍。这使得电脑运行更快速了,存储空间更大了。大家没有意识到的是,驱动各类系统的算法也进步了——美国总统科技顾问委员会的报告显示,在很多领域这些算法带来的进步还要胜过芯片的进步。然而,社会从“大数据”中所能得到的,并非来自运行更快的芯片或更好的算法,而是更多的数据。

由于象棋的规则家喻户晓,且走子限制良多,在过去的几十年里,象棋算法的变化很小。计算机象棋程序总是步步为赢是由于对残局掌握得更好了,[1]而之所以能做到这一点也只是因为往系统里加入了更多的数据。实际上,当棋盘上只剩下六枚棋子或更少的时候,这个残局得到了全面的分析,并且接下来所有可能的走法(样本=总体)都被制入了一个庞大的数据表格[2]。这个数据表格如果不压缩的话,会有一太字节那么多。所以,计算机在这些重要的象棋残局中表现得完美无缺和不可战胜。

大数据在多大程度上优于算法这个问题在自然语言处理上表现得很明显(这是关于计算机如何学习和领悟我们在日常生活中使用语言的学科方向)。在2000年的时候,微软研究中心的米歇尔·班科(Michele Banko)和埃里克·布里尔(Eric Bill)一直在寻求改进Word程序中语法检查的方法。但是他们不能确定是努力改进现有的算法、研发新的方法,还是添加更加细腻精致的特点更有效。所以,在实施这些措施之前,他们决定往现有的算法中添加更多的数据,看看会有什么不同的变化。很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。最后,他们决定往4种常见的算法中逐渐添加数据,先是一千万字,再到一亿字,最后到十亿。

结果有点令人吃惊。他们发现,随着数据的增多,4种算法的表现都大幅提高了。

大数据的力量

当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达10亿的时候,它变成了表现最好的,准确率从原来的75%提高到了95%以上。与之相反地,在少量数据情况下运行得最好的算法,当加入更多的数据时,也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行得最不好的。它的准确率会从86%提高到94%。

后来,班科和布里尔在他们发表的研究论文中写到,“如此一来,我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”





大数据的简单算法比小数据的复杂算法更有效


所以,数据多比少好,更多数据比算法系统更智能还要重要。那么,混乱呢?在班科和布里尔开始研究数据几年后,微软的最大竞争对手,谷歌,也开始更大规模地对这些问题进行探讨。谷歌用的是上万亿的语料库,而不是十亿的。谷歌做这类研究不是因为语法检查,而是为了解决翻译这个更棘手的难题。

20世纪40年代,电脑由真空管制成,要占据整个房间这么大的空间。而机器翻译也只是计算机开发人员的一个想法。在冷战时期,美国掌握了大量关于苏联的各种资料,但缺少翻译这些资料的人手。所以,计算机翻译也成了亟须解决的问题。

最初,计算机研发人员打算将语法规则和双语词典结合在一起。1954年,IBM以计算机中的250个词语和六条语法规则为基础,将60个俄语词组翻译成了英语,结果振奋人心。IBM 701通过穿孔卡片读取了“Mi pyeryedayem mislyi posryedstvom ryechyi”这句话,并且将其译成了“我们通过语言来交流思想”。在庆祝这个成就的发布会上,一篇报道就有提到,这60句话翻译得很流畅。这个程序的指挥官利昂·多斯特尔特(Leon Dostert)表示,他相信“在三五年后,机器翻译将会变得很成熟”。

事实证明,计算机翻译最初的成功误导了人们。1966年,一群机器翻译的研究人员意识到,翻译比他们想象的更困难,他们不得不承认自己的失败。机器翻译不能只是让电脑熟悉常用规则,还必须教会电脑处理特殊的语言情况。毕竟,翻译不仅仅只是记忆和复述,也涉及选词,而明确地教会电脑这些非常不现实。法语中的“bonjour”就一定是“早上好”吗?有没有可能是“今天天气不错”、“吃了吗”或者“喂”?事实上都有可能——这需要视情况而定。

在20世纪80年代后期,IBM的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇相比,他们试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词和词组的可能性,然后再决定某个词和词组在另一种语言中的对等词和词组。

20世纪90年代,IBM这个名为Candide的项目花费了大概十年的时间,将大约有300万句之多的加拿大议会资料译成了英语和法语并出版。由于是官方文件,翻译的标准就非常高。用那个时候的标准来看,数据量非常之庞大。统计机器学习从诞生之日起,就聪明地把翻译的挑战变成了一个数学问题,而这似乎很有效!计算机翻译能力在短时间内就提高了很多。然而,在这次飞跃之后,IBM公司尽管投入了很多资金,但取得的成效不大。最终,IBM公司停止了这个项目。

大数据先锋

无所不包的谷歌翻译系统

2006年,谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库,也就是全球的互联网,而不再只利用两种语言之间的文本翻译。

谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档,还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本。它甚至会吸收速读项目中的书籍翻译。谷歌翻译部的负责人弗朗兹·奥齐(Franz Och)是机器翻译界的权威,他指出,“谷歌的翻译系统不会像Candide一样只是仔细地翻译300万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。”不考虑翻译质量的话,上万亿的语料库就相当于950亿句英语。

尽管其输入源很混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更多。到2012年年中,谷歌数据库涵盖了60多种语言,甚至能够接受14种语言的语音输入,并有很流利的对等翻译。之所以能做到这些,是因为它将语言视为能够判别可能性的数据,而不是语言本身。如果要将印度语译成加泰罗尼亚语,谷歌就会把英语作为中介语言。因为在翻译的时候它能适当增减词汇,所以谷歌的翻译比其他系统的翻译灵活很多。

谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制。和微软的班科和布里尔一样,这是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看,它之所以能比IBM的Candide系统多利用成千上万的数据,是因为它接受了有错误的数据。2006年,谷歌发布的上万亿的语料库,就是来自于互联网的一些废弃内容。这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。

20世纪60年代,拥有百万英语单词的语料库——布朗语料库算得上这个领域的开创者,而如今谷歌的这个语料库则是一个质的突破,后者使用庞大的数据库使得自然语言处理这一方向取得了飞跃式的发展。自然语言处理能力是语音识别系统和计算机翻译的基础。

彼得·诺维格(Peter Norvig),谷歌公司人工智能方面的专家,和他的同事在一篇题为《数据的非理性效果》(The Unreasonable Effectiveness of Data)的文章中写道,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”他们就指出,混杂是关键。

“从某种意义上,谷歌的语料库是布朗语料库的一个退步。因为谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且,它也没有详细的人工纠错后的注解。但是,谷歌语料库是布朗语料库的好几百万倍大,这样的优势完全压倒了缺点。”





纷繁的数据越多越好


传统的样本分析师们很难容忍错误数据的存在,因为他们一生都在研究如何防止和避免错误的出现。在收集样本的时候,统计学家会用一整套的策略来减少错误发生的概率。在结果公布之前,他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。但是,即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大。尤其是当我们收集所有数据的时候,这就行不通了。不仅是因为耗费巨大,还因为在大规模的基础上保持数据收集标准的一致性不太现实。就算是不让人们进行沟通争吵,也不能解决这个问题。

大数据时代要求我们重新审视精确性的优劣。如果将传统的思维模式运用于数字化、网络化的21世纪,就会错过重要的信息。执迷于精确性是信息缺乏时代和模拟时代的产物。在那个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以,我们需要确保每个数据的精确性,才不会导致分析结果的偏差。

大数据洞察

如今,我们已经生活在信息时代。我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。

在华盛顿州布莱恩市的英国石油公司(BP)切里波因特(Cherry Point)炼油厂里,无线感应器遍布于整个工厂,形成无形的网络,能够产生大量实时数据。酷热的恶劣环境和电气设备的存在有时会对感应器读数有所影响,形成错误的数据。但是数据生成的数量之多可以弥补这些小错误。随时监测管道的承压使得BP能够了解到,有些种类的原油比其他种类更具有腐蚀性。以前,这都是无法发现也无法防止的。

有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。

值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。

大数据先锋

麻省理工与通货紧缩预测软件

“10亿价格项目”(The Billion Prices Project,BBP)提供了一个有趣的例子。美国劳工统计局的人员每个月都要公布消费物价指数(CPI),这是用来测试通货膨胀率的。这些数据对投资者和商家都非常重要。在决定是否增减银行利率的时候,美联储也会考虑消费指数。一旦发生通货膨胀,工人工资也会增加。联邦政府在支付社会福利和债券利息的款项时,这项指数也是他们参考的依据。

联邦政府为了得到这些数据,会雇用很多人向全美90个城市的商店、办公室打电话、发传真甚至登门拜访。他们反馈回来的各种各样的价格信息达80000种,包括土豆的价格、出租车的票价等。政府采集这些数据每年大概需要花费两亿五千万美元。这些数据是精确的也是有序的,但是这个采集结果的公布会有几周的滞后。2008年的经济危机表明,这个滞后是致命的。政策决策者为了更好地应对变化,需要及时了解通货膨胀率,但如果以传统的依赖采样和追求精确的方式进行数据收集,政府就不可能及时获得数据了。

麻省理工学院(MIT)的两位经济学家,阿尔贝托·卡瓦略(Alberto Cavell)和罗伯托·里哥本(Oberto Rigobon)就对此提出了一个大数据方案,那就是接受更混乱的数据。通过一个软件在互联网上收集信息,他们每天可以收集到50万种商品的价格。收集到的数据很混乱,也不是所有数据都能轻易进行比较。但是把大数据和好的分析法相结合,这个项目在2008年9月雷曼兄弟破产之后马上就发现了通货紧缩趋势,然而那些依赖官方数据的人直到11月份才知道这个情况。[3]

MIT的这个项目汇集了数百万的产品,它们被数百个零售商卖到了70多个国家。这个项目产生的一个名为PriceStats的商业方案也经常被一些银行和其他经济决策人用到。当然,收集到的数据需要仔细的分析,而且这些数据更善于表明价格的发展趋势而不是精确的价格。但是因为PriceStats收集到了更多的价格信息而且大多是即时的,所以这对决策者来说就非常有益了。





混杂性,不是竭力避免,而是标准途径


确切地说,在许多技术和社会领域,我们更倾向于纷繁混杂。我们来看看内容分类方面的情况。几个世纪以来,人们一直用分类法和索引法来帮助自己存储和检索数据资源。这样的分级系统通常都不完善——各位读者没有忘记图书馆卡片目录给你们带来的痛苦回忆吧?在“小数据”范围内,这些方法就很有效,但一旦把数据规模增加好几个数量级,这些预设一切都各就各位的系统就会崩溃。

相片分享网站Flickr在2011年拥有来自大概1亿用户的60亿张照片。根据预先设定好的分类来标注每张照片就没有意义了。难道真会有人为他的照片取名“像希特勒一样的猫”吗?

恰恰相反,清楚的分类被更混乱却更灵活的机制所取代了。这些机制才能适应改变着的世界。当我们上传照片到Flickr网站的时候,我们会给照片添加标签。也就是说,我们会使用一组文本标签来编组和搜索这些资源。人们用自己的方式创造和使用标签,所以它是没有标准、没有预先设定的排列和分类,也没有我们必须遵守的类别的。任何人都可以输入新的标签,标签内容事实上就成为了网络资源的分类标准。标签被广泛地应用于Facebook、博客等社交网络上。因为它们的存在,互联网上的资源变得更加容易找到,特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。[4]

当然,有时人们错标的标签会导致资源编组的不准确,这会让习惯了精确性的人们很痛苦。但是,我们用来编组照片集的混乱方法给我们带来了很多好处。比如,我们拥有了更加丰富的标签内容,同时能更深更广地获得各种照片。我们可以通过合并多个搜索标签来过滤我们需要寻找的照片,这在以前是无法完成的。我们添加标签时所固带的不准确性从某种意义上说明我们能够接受世界的纷繁复杂。这是对更加精确系统的一种对抗。这些精确的系统试图让我们接受一个世界贫乏而规整的惨象——假装世间万物都是整齐地排列的。而事实上现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的。

互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时,可以看到有多少其他人也在点击。当数量不多时,会显示像“63”这种精确的数字。当数量很大时,则只会显示近似值,比方说“4000”。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。另外,数据更新得非常快,甚至在刚刚显示出来的时候可能就已经过时了。所以,同样的原理适用于时间的显示。谷歌的Gmail邮箱会确切标注在很短时间内收到的信件,比方说“11分钟之前”。但是,对于已经收到一段时间的信件,则会标注如“两个小时之前”这种不太确切的时间信息。

2000年以来,商务智能和分析软件领域的技术供应商们一直承诺给客户“一个唯一的真理”。执行官们用这个词组并没有讽刺的意思,现在也依然有技术供应商这样说。他们说这个词组的意思就是,每个使用该公司信息技术系统的人都能利用同样的数据资源,这样市场部和营销部的人员们就不需要再在会议开始前争论,到底是谁掌握了正确的客户和销售数据了。这个想法就是说,如果他们知道的数据是一致的,那么他们的利益也会更一致。

但是,“一个唯一的真理”这种想法已经彻底被改变了。现在不但出现了一种新的认识,即“一个唯一的真理”的存在是不可能的,而且追求这个唯一的真理是对注意力的分散。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。

我们甚至发现,不精确已经渗入了数据库设计这个最不能容忍错误的领域。传统的数据库引擎要求数据高度精确和准确排列。数据不是单纯地被存储,它往往被划分为包含“域”的记录,每个域都包含了特定种类和特定长度的信息。比方说,某个数值域是7个数字长,一个1000万或者更大的数值就无法被记录。一个人想在某个记录手机号码的域中输入一串汉字是“不被允许”的。想要被允许也可以,需要改变数据库结构才可以。现在,我们依然在和电脑以及智能手机上的这些限制进行斗争,比如软件可能拒绝记录我们输入的数据。

索引是事先就设定好了的,这也就限制了人们的搜索。增加一个新的索引往往既消耗时间,又惹人讨厌,因为需要改变底层的设计。传统的关系数据库是为数据稀缺的时代设计的,所以能够也需要仔细策划。在那个时代,人们遇到的问题无比清晰,所以数据库被设计用来有效地回答这些问题。

但是,这种数据存储和分析的方法越来越和现实相冲突。我们现在拥有各种各样、参差不齐的海量数据。很少有数据完全符合预先设定的数据种类。而且,我们想要数据回答的问题,也只有在我们收集和处理数据的过程中才会知道。





新的数据库设计的诞生


这些现实条件导致了新的数据库设计的诞生,它们打破了关于记录和预设场域的成规。预设场域显示的是数据的整齐排列。最普遍的数据库查询语言是结构化查询语言,英文缩写为“SQL”——它的名字就显示了它的僵化。但是,近年的大转变就是非关系型数据库的出现,它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。但是,一旦考虑到大大降低的存储和处理成本,这就是一个我们支付得起的公平交易。

帕特·赫兰德(Pat Helland)是来自微软的世界上最权威的数据库设计专家之一,在一篇题为《如果你有足够多的数据,那么“足够好”真的足够好》(If You Have Too Much Data,then‘Good Enough’Is Good Enough)的文章中,他把这称为一个重大的转变。分析了被各种各样质量参差不齐的数据所侵蚀的传统数据库设计的核心原则,他得出的结论是,“我们再也不能假装活在一个齐整的世界里”。他认为,处理海量数据会不可避免地导致部分信息的缺失。虽然这本来就是有“损耗性”的,但是能快速得到想要的结果弥补了这个缺陷。赫兰德总结说:“略有瑕疵的答案并不会伤了商家的胃口,因为他们更看重高频率。”

传统数据库的设计要求在不同的时间提供一致的结果。比方说,如果你查询你的账户结余,它会提供给你确切的数目;而你几秒钟之后查询的时候,系统应该提供给你同样的结果,没有任何改变。但是,随着数据数量的大幅增加以及系统用户的增加,这种一致性将越来越难保持。

大的数据库并不是固定在某个地方的,它一般分散在多个硬盘和多台电脑上。为了确保其运行的稳定性和速度,一个记录可能会分开存储在两三个地方。如果一个地方的记录更新了,其他地方的记录则只有同步更新才不会产生错误。传统的系统会一直等到所有地方的记录都更新,然而,当数据广泛地分布在多台服务器上而且服务器每秒钟都会接受成千上万条搜索指令的时候,同步更新就比较不现实了。因此,多样性是一种解决的方法。

大数据先锋

Hadoop与VISA的13分钟

最能代表这个转变的,就是Hadoop的流行。Hadoop是与谷歌的MapReduce系统相对应的开源式分布系统的基础架构,它非常善于处理超大量的数据。通过把大数据变成小模块然后分配给其他机器进行分析,它实现了对超大量数据的处理。它预设硬件可能会瘫痪,所以在内部建立了数据的副本,它还假定数据量之大导致数据在处理之前不可能整齐排列。典型的数据分析需要经过“萃取、转移和下载”这样一个操作流程,但是Hadoop就不拘泥于这样的方式。相反,它假定了数据量的巨大使得数据完全无法移动,所以人们必须在本地进行数据分析。

Hadoop的输出结果没有关系型数据库输出结果那么精确,它不能用于卫星发射、开具银行账户明细这种精确度要求很高的任务。但是对于不要求极端精确的任务,它就比其他系统运行得快很多,比如说把顾客分群,然后分别进行不同的营销活动。

信用卡公司VISA使用Hadoop,能够将处理两年内730亿单交易所需的时间,从一个月缩减至仅仅13分钟。这样大规模处理时间上的缩减足以变革商业了。也许Hadoop不适合正规记账,但是当可以允许少量错误的时候它就非常实用。

ZestFinance,一个由谷歌前任首席信息官道格拉斯·梅里尔创立的公司,用自己的经验再次验证了“宽容错误会给我们带来更多价值”这一观点。这家公司帮助决策者判断是否应该向某些拥有不良信用记录的人提供小额短期贷款。传统的信用评分机制关注少量突出的事件,比如一次还款的延迟,而ZestFinance则分析了大量不那么突出的事件。2012年,让ZestFinance引以为豪的就是,它的贷款拖欠率比行业平均水平要低三分之一左右。唯一的得胜之道还是拥抱混杂。

梅里尔说:“有趣的是,对我们而言,基本没有任何一个人的信息是齐备的,事实上,总有大量的数据缺失。”由ZestFinance创建的用来记录客户信息的矩阵是难以想象得稀疏,里面充满了数据的空洞,但ZestFinance在这些支离破碎的数据中如鱼得水。举个例子,有10%的客户属性信息显示“已经死亡”,但是依然可以从他们身上收回贷款。梅里尔一脸坏笑地说:“显然,没有人会企盼僵尸复活并且主动还贷。但是我们的数据显示,放贷给僵尸是一项不错的生意。”

接受混乱,我们就能享受极其有用的服务,这些服务如果使用传统方法和工具是不可能做到的,因为那些方法和工具处理不了这么大规模的数据。

大数据的力量

据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个从未涉足的世界的窗户。

社会将两个折中的想法不知不觉地渗入了我们的处事方法中,我们甚至不再把这当成一种折中,而是把它当成了事物的自然状态。

第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。

第二个折中出现在数据的质量上。在小数据时代,追求精确度是合理的。因为当时我们收集的数据很少,所以需要越精确越好。如今这依然适用于一些事情。但是对于其他事情,快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。

大数据洞察

我们怎么看待使用所有数据和使用部分数据的差别,以及我们怎样选择放松要求并取代严格的精确性,将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中的一部分,我们应该开始从一个比以前更大更全面的角度来理解事物,也就是说应该将“样本=总体”植入我们的思维中。

现在,我们能够容忍模糊和不确定出现在一些过去依赖于清晰和精确的领域,当然过去可能也只是有清晰的假象和不完全的精确。只要我们能够得到一个事物更完整的概念,我们就能接受模糊和不确定的存在。就像印象派的画风一样,近看画中的每一笔都感觉是混乱的,但是退后一步你就会发现这是一幅伟大的作品,因为你退后一步的时候就能看出画作的整体思路了。

相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相。“部分”和“确切”的吸引力是可以理解的。但是,当我们的视野局限在我们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误。不仅失去了去尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。所以,局限于狭隘的小数据中,我们可以自豪于对精确性的追求,但是就算我们可以分析得到细节中的细节,也依然会错过事物的全貌。

大数据洞察

大数据要求我们有所改变,我们必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑,就像我们常说的“钉是钉,铆是铆”。但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。

这些思想上的重大转变导致了第三个变革,这个变革有望颠覆很多传统观念。这些传统观念更加基本,往往被认为是社会建立的根基:找到一切事情发生背后的原因。然而其实很多时候,寻找数据间的关联并利用这种关联就足够了。这是我们下一个章节将要讨论的。



* * *



[1] 计算机象棋的残局的确可以做到完美,但其摧枯拉朽的表现主要还不在于残局。有训练的棋手都能在6个子的情况下不犯错误。这方面的分析和思索,不妨参照一代棋王加里·卡斯帕罗夫(Garry Kasparov)的作品,他亦是对垒“深蓝”的棋王。——译者注

[2] 所有包含不超过6子的残局谱最早是由Unix创造者肯·汤普森发明的,目前的全量残局谱已经可以包含不超过7子的全量局面。——译者注

[3] 特定的大数据企业可以用类似的思路提供实时的指数,例如著名的淘宝消费物价指数(TCPI),其数据来自于淘宝网内消费,可以做到完全实时更新。——译者注

[4] 虽然完全由用户自由添加,标签的形成和组织也有自身的规律。好的标签使用习惯会帮助用户更好管理资源,也会让用户的照片、博客等受到更多关注。相反,胡乱添加标签也会伤害自己。与此同时,标签可以帮助系统提供更好的搜索和推荐服务。关于标签系统的最新研究成果汇总,可以参考张子柯等人2011年在Journal of Computer Science and Technology上发表的“Tag-aware recommender systems:A state-of-the-art survey”一文。——译者注





03 更好:不是因果关系,而是相关关系


知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。

【大数据先锋】

沃尔玛,请把蛋挞与飓风用品摆在一起

FICO,“我们知道你明天会做什么”

美国折扣零售商塔吉特与怀孕预测

UPS与汽车修理预测

大数据预测早产儿病情

幸福感的非线性关系

二手车质量预测

纽约大型沙井盖爆炸预测





林登与亚马逊推荐系统


1997年,24岁的格雷格·林登(Greg Linden)在华盛顿大学就读博士,研究人工智能,闲暇之余,他会在网上卖书。他的网店运营才两年就已经生意兴隆。他回忆说:“我爱卖书和知识,帮助人们找到下一个他们可能会感兴趣的知识点。”他注册的这家网店就是日后大获成功的亚马逊。后来林登被亚马逊聘为软件工程师,以确保网站的正常运行。

亚马逊的技术含量不仅体现在其工作人员上。虽然亚马逊的故事大多数人都耳熟能详,但只有少数人知道它的内容最初是由人工亲自完成的。当时,它聘请了一个由20多名书评家和编辑组成的团队,他们写书评、推荐新书,挑选非常有特色的新书标题放在亚马逊的网页上。这个团队创立了“亚马逊的声音”这个版块,成为当时公司这顶皇冠上的一颗宝石,是其竞争优势的重要来源。《华尔街日报》的一篇文章中热情地称他们为全美最有影响力的书评家,因为他们使得书籍销量猛增。

杰夫·贝索斯(Jeff Bezos),亚马逊公司的创始人以及总裁,决定尝试一个极富创造力的想法:根据客户个人以前的购物喜好,为其推荐具体的书籍。从一开始,亚马逊已从每一个客户身上捕获了大量的数据。比如说,他们购买了什么书籍?哪些书他们只浏览却没有购买?他们浏览了多久?哪些书是他们一起购买的?

客户的信息数据量非常大,所以亚马逊必须先用传统的方法对其进行处理,通过样本分析找到客户之间的相似性。但这些推荐信息是非常原始的,就如同你在波兰购买一本书,会被东欧其他地区的价格水平搞得晕头转向,或者在买一件婴儿用品时,会被淹没在一堆差不多的婴儿用品中一样。詹姆斯·马库斯(James Marcus)回忆说:“推荐信息往往为你提供与你以前购买物品有微小差异的产品,并且循环往复。”詹姆斯·马库斯从1996年到2001年都是亚马逊的书评家,在他的回忆录《亚马逊》(Amazonia)里,他说道:“那种感觉就像你和一群脑残在一起逛书店。”

格雷格·林登很快就找到了一个解决方案。他意识到,推荐系统实际上并没有必要把顾客与其他顾客进行对比,这样做其实在技术上也比较烦琐。它需要做的是找到产品之间的关联性。1998年,林登和他的同事申请了著名的“item-to-item”协同过滤技术的专利[1]。方法的转变使技术发生了翻天覆地的变化。

因为估算可以提前进行,所以推荐系统快如闪电,而且适用于各种各样的产品。因此,当亚马逊跨界销售除书以外的其他商品时,也可以对电影或烤面包机这些产品进行推荐。由于系统中使用了所有的数据,推荐会更理想。林登回忆道:“在组里有句玩笑话,说的是如果系统运作良好,亚马逊应该只推荐你一本书,而这本书就是你将要买的下一本书。”

现在,公司必须决定什么应该出现在网站上。是亚马逊内部书评家写的个人建议和评论,还是由机器生成的个性化推荐和畅销书排行榜?批评者说了什么,或者是顾客的点击意味着什么?从字面上来讲,这是一场人与鼠标的战争。

林登做了一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试,结果他发现两者之间的业绩相差甚远。他解释说,通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢海明威作品的客户会购买菲茨杰拉德的书。但是这似乎并不重要,重要的是销量。最后,编辑们看到了销售额分析,亚马逊也不得不放弃每次的在线评论,最终书评组被解散了。林登回忆说:“书评团队被打败、被解散,我感到非常难过。但是,数据没有说谎,人工评论的成本是非常高的。”

如今,据说亚马逊销售额的三分之一都是来自于它的个性化推荐系统。有了它,亚马逊不仅使很多大型书店和音乐唱片商店歇业,而且当地数百个自认为有自己风格的书商也难免受转型之风的影响。事实上,林登的工作彻底改变了电子商务,现在几乎每个人都在使用电子商务。

奈飞公司是一个在线电影租赁公司,它四分之三的新订单都来自推荐系统。在亚马逊的带领下,成千上万的网站可以推荐产品、内容和朋友以及很多相关的信息,但并不知道为什么人们会对这些信息感兴趣。

知道人们为什么对这些信息感兴趣可能是有用的,但这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。所有行业中的销售人员早就被告知,他们需要了解是什么让客户做出了选择,要把握客户做决定背后的真正原因,因此专业技能和多年的经验受到高度重视。大数据却显示,还有另外一个在某些方面更有用的方法。亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。





关联物,预测的关键


在小数据世界中,相关关系也是有用的,但在大数据的背景下,相关关系大放异彩。通过应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。

大数据洞察

相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。

相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。[2]例如,我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现它们几乎扯不上什么关系。

相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。当然,即使是很强的相关关系也不一定能解释每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。如实证学家纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)所言,我们可能只是“被随机性所愚弄”而已。相关关系没有绝对,只有可能性。也就是说,不是亚马逊推荐的每本书都是顾客想买的书。但是,如果相关关系强,一个相关链接成功的概率是很高的。这一点很多人可以证明,他们的书架上有很多书都是因为亚马逊推荐而购买的。

通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情,即使我们不能直接测量或观察到A。更重要的是,它还可以帮助我们预测未来可能发生什么。当然,相关关系是无法预知未来的,他们只能预测可能发生的事情。但是,这已经极其珍贵了。

大数据先锋

沃尔玛,请把蛋挞与飓风用品摆在一起

沃尔玛是世界上最大的零售商,拥有超过200万的员工,销售额约4500亿美元,比大多数国家的国内生产总值还多。在网络带来巨多数据之前,沃尔玛在美国企业中拥有的数据资源应该是最多的。[3]

在20世纪90年代,零售链通过把每一个产品记录为数据而彻底改变了零售行业。沃尔玛可以让供应商监控销售速率、数量以及存货的情况。沃尔玛通过打造透明度来迫使供应商照顾好自己的物流。在许多情况下,沃尔玛不接受产品的“所有权”,除非产品已经开始销售,这样就避免了存货的风险也降低了成本。实际上,沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。

倘若得到正确分析,历史数据能够解释什么呢?零售商与天睿资讯(Teradata)[4]专业的数字统计员一起研究发现了有趣的相关关系。2004年,沃尔玛对历史交易记录这个庞大的数据库进行了观察,这个数据库记录的不仅包括每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当日的天气。

沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销售量增加了,而且POP-Tarts蛋挞(美式含糖早餐零食)的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客从而增加销量。

过去,总部的人员们需要先有了想法,然后才能收集数据来测试这个想法的可行性。如今,我们有了如此之多的数据和更好的工具,所以要找到相关系变得更快、更容易了。这就意味着我们必须关注:当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。毕竟我们还处于考察相关关系的初期,所以这一点需要我们高度重视。

在大数据时代来临前很久,相关关系就已经被证明大有用途。这个观点是1888年查尔斯·达尔文的表弟弗朗西斯·高尔顿爵士(Francis Galton)提出的,因为他注意到人的身高和前臂的长度有关系。相关关系背后的数学计算是直接而又有活力的,这是相关关系的本质特征,也是让相关关系成为最广泛应用的统计计量方法的原因。但是在大数据时代之前,相关关系的应用很少。因为数据很少而且收集数据很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣。那么,如何寻找这个关联物呢?

除了仅仅依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。这些理论就是一些抽象的观点,关于事物是怎样运作的。然后收集与关联物相关的数据来进行相关关系分析,以证明这个关联物是否真的合适。如果不合适,人们通常会固执地再次尝试,因为担心可能是数据收集的错误,而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的。这种对假想的反复试验促进了学科的发展。但是这种发展非常缓慢,因为个人以及团体的偏见会蒙蔽我们的双眼,导致我们在设立假想、应用假想和选择关联物的过程中犯错误。总之,这是一个烦琐的过程,只适用于小数据时代。

在大数据时代,通过建立在人的偏见基础上的关联物监测法已经不再可行,因为数据库太大而且需要考虑的领域太复杂。幸运的是,许多迫使我们选择假想分析法的限制条件也逐渐消失了。我们现在拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选择一个关联物或者一小部分相似数据来逐一分析了。复杂的机器分析能为我们辨认出谁是最好的代理,就像在谷歌流感趋势中,计算机把检索词条在5亿个数学模型上进行测试之后,准确地找出了哪些是与流感传播最相关的词条。

我们理解世界不再需要建立在假设的基础上,这个假设是指针对现象建立的有关其产生机制和内在机理的假设。因此,我们也不需要建立这样一个假设,关于哪些词条可以表示流感在何时何地传播;我们不需要了解航空公司怎样给机票定价;我们不需要知道沃尔玛的顾客的烹饪喜好。取而代之的是,我们可以对大数据进行相关关系分析,从而知道哪些检索词条是最能显示流感的传播的,飞机票的价格是否会飞涨,哪些食物是飓风期间待在家里的人最想吃的。我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。

建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高,以至于我们经常忽略了它的创新性。当然,它的应用会越来越多。

大数据先锋

FICO,“我们知道你明天会做什么”

一个人的信用常被用来预测他/她的个人行为。美国个人消费信用评估公司,也被称为FICO,在20世纪50年代发明了信用分。2011年,FICO提出了“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来有点怪异的变量。比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系,这只是一种相关关系。但是这就足够激发FICO的首席执行官扬言,“我们知道你明天会做什么。”这是他在2011年的投资人大会上说的。

另一个征信机构,益百利(Experian)有一种服务,可以根据个人的信用卡交易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国税局的匿名税收数据,益百利能够得出评分结果。

大数据的力量

证明一个人的收入状况要花费10美元左右,但是益百利的预测结果售价不足1美元。

所以有时候,通过代理取得数据信息比自己去操作烦琐的程序要便宜得多。同时还有另一个征信机构出售“支付能力指数”和“可支配支出指数”,这些指数是用来预测一个人的支付能力的。

相关关系的运用更加广泛了。中英人寿保险有限公司(Aviva)是一家大型保险公司,他们想利用信用报告和顾客市场分析数据来作为部分申请人的血液和尿液分析的关联物。这些分析结果被用来找出更有可能患高血压、糖尿病和抑郁症的人。其中用来分析的数据包括好几百种生活方式的数据,比如爱好、常浏览的网站、常看的节目、收入估计等。

Aviva的预测模型是由德勤咨询公司发明的,公司觉得这可以用来发现健康隐患。其他保险公司如英国保诚保险有限公司(Prudentia)和美国国际集团(AIG)都承认它们也在考虑类似的方法。好处就是,申请者不再需要提供血液和尿液样本了,因为大家都不太喜欢做这个事情。

大数据的力量

通过利用相关关系,保险公司可以在每人身上节省125美元,然而这个纯数据分析法只需要花费5美元。

有些人可能会觉得这种方法听起来很恐怖,这些公司似乎可以利用任何网络上的信息。这会让人们下次登陆极限运动网站和坐到电视机前观看幽默情景剧前三思而后行,因为不想因此支付更多的保险费用。让我们在接触任何信息的时候(同时也产生可能被分析的数据)都胆战心惊是一件非常糟糕的事情。但另一方面,这个系统有助于更多的人得到保险,这对于社会和保险公司都是有好处的。

大数据先锋

美国折扣零售商塔吉特与怀孕预测

大数据相关关系分析的极致,非美国折扣零售商塔吉特(Target)莫属了。该公司使用大数据的相关关系分析已经有多年。《纽约时报》的记者查尔斯·杜西格(Charles Duhigg)就在一份报道中阐述了塔吉特公司怎样在完全不和准妈妈对话的前提下预测一个女性会在什么时候怀孕。基本上来说,就是收集一个人可以收集到的所有数据,然后通过相关关系分析得出事情的真实状况。

对于零售商来说,知道一个顾客是否怀孕是非常重要的。因为这是一对夫妻改变消费观念的开始,也是一对夫妻生活的分水岭。他们会开始光顾以前不会去的商店,渐渐对新的品牌建立忠诚。塔吉特公司的市场专员们向分析部求助,看是否有什么办法能够通过一个人的购物方式发现她是否怀孕。

公司的分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录。塔吉特公司注意到,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券,这才是塔吉特公司的目的。

杜西格在《习惯的力量》(The Power of Habit)一书中讲到了接下来发生的事情。一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男人致歉时,这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我。”

在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是,通过找出新种类数据之间的相互联系来解决日常需要。比方说,一种称为预测分析法的方法就被广泛地应用于商业领域,它可以预测事件的发生。这可以指一个能发现可能的流行歌曲的算法系统——音乐界广泛采用这种方法来确保它们看好的歌曲真的会流行;也可以指那些用来防止机器失效和建筑倒塌的方法。现在,在机器、发动机和桥梁等基础设施上放置传感器变得越来越平常了,这些传感器被用来记录散发的热量、振幅、承压和发出的声音等。

一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。通过收集所有的数据,我们可以预先捕捉到事物要出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,我们就能预测未来。

大数据先锋

UPS与汽车修理预测

UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,这样就能及时地进行防御性的修理。如果车在路上抛锚损失会非常大,因为那样就需要再派一辆车,会造成延误和再装载的负担,并消耗大量的人力物力,所以以前UPS每两三年就会对车辆的零件进行定时更换。但这种方法不太有效,因为有的零件并没有什么毛病就被换掉了。通过监测车辆的各个部位,UPS如今只需要更换需要更换的零件,从而节省了好几百万美元。有一次,监测系统甚至帮助UPS发现了一个新车的一个零件有问题,因此免除了可能会造成的困扰。

无独有偶,桥梁和建筑物上也被安装了传感器来监测磨损程度。大型化工厂和提炼厂也安装了传感器,因为一旦设备的某一个零件有问题,就只有在更换了零件之后生产才能继续进行。收集和分析数据的花费比出现停产的损失小得多。预测性分析并不能解释故障可能会发生的原因,只会告诉你存在什么问题,也就说它并不能告诉你引擎过热是因为什么,磨损的风扇皮带?没拧紧的螺帽?没有答案。

同样的方法也可以运用在人身上。医院使用医疗设备在病人身上装上各种管线同时得到大量的数据。心电图每秒钟就能产生1000个读数。但是只有部分的数据是被保存使用的,大部分都束之高阁了,即使这些数据都能在一定程度上表现出病人的情况。当与其他病人的数据一起考虑的时候,它们就能显现出哪些治疗方法是有效的。

当收集、存储和分析数据的成本比较高的时候,应该适当地丢弃一些数据。安大略理工大学的卡罗琳·麦格雷戈(Carolyn McGregor)博士和一支研究队伍与IBM一起和很多医院合作,用一个软件来监测处理即时的病人信息,然后把它用于早产儿的病情诊断。系统会监控16个不同地方的数据,比如心率、呼吸、体温、血压和血氧含量,这些数据可以达到每秒钟1260个数据点之多。

在明显感染症状出现的24小时之前,系统就能监测到早产儿细微的身体变化发出的感染信号。麦格雷戈博士说:“你无法用肉眼看到,但计算机可以看到。”这个系统依赖的是相关关系,而不是因果关系。它告诉你的是会发生什么,而不是为什么发生。这正是这个系统的价值!提早知道病情,医生就能够提早治疗,也能更早地知道某种疗法是否有效,这一切都有利于病人的康复。所以,未来这个系统估计会应用到所有病人身上。这个系统可能不会自己做决定,但是它已经做到了机器能做到的最好,那就是帮助人类做到最好。

惊人的是,麦格雷戈博士的大数据分析法能发现一些与医生的传统看法相违背的相关关系。比如说她发现,稳定的生命体征表明病人发生了严重的感染。这很奇怪,因为医生一般认为恶化的疼痛才是全面感染的征兆。你可以想象,以前医生都是下班的时候看看婴儿床旁边的记录本,觉得病情稳定了,也就下班回家了。只有半夜护士的紧急电话才让他们知道大事不好了,他们的直觉犯了大错误。数据表明,早产儿的稳定不但不是病情好转的标志,反而是暴风雨前的宁静,就像是身体要它的器官做好抵抗困难的准备。但是我们也不太确定,我们不知道具体原因,只是看到了相关关系。这需要海量的数据并且找出隐含的相关性才能发现。但是,大数据挽救了很多生命,这是毫无疑问的。





“是什么”,而不是“为什么”


在小数据时代,相关关系分析和因果分析都不容易,都耗费巨大,都要从建立假设开始。然后我们会进行实验——这个假设要么被证实要么被推翻。但由于两者都始于假设,这些分析就都有受偏见影响的可能,而且极易导致错误。与此同时,用来做相关关系分析的数据很难得到,收集这些数据时也耗资巨大。现今,可用的数据如此之多,也就不存在这些难题了。

当然,还有一种不同的情况也逐渐受到了人们的重视。在小数据时代,由于计算机能力的不足,大部分相关关系分析仅限于寻求线性关系。这个情况随着数据的增加肯定会发生改变。事实上,实际情况远比我们所想象的要复杂。经过复杂的分析,我们能够发现数据的“非线性关系”。

大数据先锋

幸福的非线性关系

多年来,经济学家和政治家一直错误地认为收入水平和幸福感是成正比的。我们从数据图表上可以看到,虽然统计工具呈现的是一种线性关系,但事实上,它们之间存在一种更复杂的动态关系:对于收入水平在1万美元以下的人来说,一旦收入增加,幸福感会随之提升;但对于收入水平在1万美元以上的人来说,幸福感并不会随着收入水平提高而提升。如果能发现这层关系,我们看到的就应该是一条曲线,而不是统计工具分析出来的直线。

这个发现对决策者来说非常重要。如果只看到线性关系的话,那么政策重心应完全放在增加收入上,因为这样才能增加全民的幸福感。而一旦察觉到这种非线性关系,策略的重心就会变成提高低收入人群的收入水平,因为这样明显更划算。

当相关关系变得更复杂时,一切就更混乱了。比如,各地麻疹疫苗接种率的差别与人们在医疗保健上的花费似乎有关联。但是,最近哈佛与麻省理工的联合研究小组发现,这种关联不是简单的线性关系,而是一个复杂的曲线图。和预期相同的是,随着人们在医疗上花费的增多,麻疹疫苗接种率的差别会变小;但令人惊讶的是,当增加到一定程度时,这种差别又会变大。发现这种关系对公共卫生官员来说非常重要,但是普通的线性关系分析师是无法捕捉到这个重要信息的。

如今,专家们正在研发能发现并对比分析非线性关系的必要技术工具[5]。一系列飞速发展的新技术和新软件也从多方面提高了相关关系分析工具发现非因果关系的能力,这就好比立体派画家同时从多个角度来表现女性脸庞的手法。

网络分析行业的出现就是一个最明显的例子。多亏了它,让描绘、测量、计算各节点之间的关系变成了可能,我们可以从Facebook上认识更多的朋友,还可以知道法庭上的一些判决的先例,以及谁给谁打了电话。总之,这些工具为回答非因果关系及经验性的问题提供了新的途径。

在大数据时代,这些新的分析工具和思路为我们提供了一系列新的视野和有用的预测,我们看到了很多以前不曾注意到的联系,还掌握了以前无法理解的复杂技术和社会动态。但最重要的是,通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好地了解了这个世界。

这听起来似乎有点违背常理。毕竟,人们都希望通过因果关系来了解这个世界。我们也相信,只要仔细观察,就会发现万事万物皆有因缘。了解事情的起因难道不是我们最大的愿望吗?

在哲学界,关于因果关系是否存在的争论已经持续了几个世纪。毕竟,如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是由其他原因导致的,以此循环往复,那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受因果关系的控制了。因此,对于因果关系在世间所扮演的角色,哲学家们争论不休,有时他们认为,这是与自由意志相对立的。当然,关于理论的争辩并不是我们要研究的重点。

大数据洞察

当我们说人类是通过因果关系了解世界时,我们指的是我们在理解和解释世界各种现象时使用的两种基本方法:一种是通过快速、虚幻的因果关系,还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界时所扮演的角色。

首先,我们的直接愿望就是了解因果关系。即使无因果联系存在,我们也还是会假定其存在。研究证明,这只是我们的认知方式,与每个人的文化背景、生长环境以及教育水平是无关的。当我们看到两件事情接连发生的时候,我们会习惯性地从因果关系的角度来看待它们。看看下面的三句话:“弗雷德的父母迟到了;供应商快到了;弗雷德生气了。”

我们读到这里时,可能立马就会想到弗雷德生气并不是因为供应商快到了,而是他父母迟到了的缘故。实际上,我们也不知道到底是什么情况。即便如此,我们还是不禁认为这些假设的因果关系是成立的。

普林斯顿大学心理学专家,同时也是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼(Daniel Kahneman)就是用这个例子证明了人有两种思维模式。第一种是不费力的快速思维,通过这种思维方式几秒钟就能得出结果;另一种是比较费力的慢性思维,对于特定的问题,就是需要考虑到位。

快速思维模式使人们偏向用因果联系来看待周围的一切,即使这种关系并不存在。这是我们对已有的知识和信仰的执著。在古代,这种快速思维模式是很有用的,它能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷。但是,通常这种因果关系都是并不存在的。

卡尼曼指出,平时生活中,由于惰性,我们很少慢条斯理地思考问题。所以快速思维模式就占据了上风。因此,我们会经常臆想出一些因果关系,最终导致了对世界的错误理解。

父母经常告诉孩子,天冷时不戴帽子和手套就会感冒。然而,事实上,感冒和穿戴之间却没有直接的联系。有时,我们在某个餐馆用餐后生病了的话,我们就会自然而然地觉得这是餐馆食物的问题,以后可能就不再去这家餐馆了。事实上,我们肚子痛也许是因为其他的传染途径,比如和患者握过手之类的。然而,我们的快速思维模式使我们直接将其归于任何我们能在第一时间想起来的因果关系,因此,这经常导致我们做出错误的决定。

与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。很多时候,这种认知捷径只是给了我们一种自己已经理解的错觉,但实际上,我们因此完全陷入了理解误区之中。就像采样是我们无法处理全部数据时的捷径一样,这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径。

在小数据时代,很难证明由直觉而来的因果联系是错误的。现在,情况不一样了。将来,大数据之间的相关关系,将经常会用来证明直觉的因果联系是错误的。最终也能表明,统计关系也不蕴含多少真实的因果关系。总之,我们的快速思维模式将会遭受各种各样的现实考验。

令人欣喜的是,为了更好地了解世界,我们会因此更加努力地思考。但是,即使是我们用来发现因果关系的第二种思维方式——慢性思维,也将因为大数据之间的相关关系迎来大的改变。

日常生活中,我们习惯性地用因果关系来考虑事情,所以会认为,因果联系是浅显易寻的。但事实却并非如此。与相关关系不一样,即使用数学这种比较直接的方式,因果联系也很难被轻易证明。我们也不能用标准的等式将因果关系表达清楚。因此,即使我们慢慢思考,想要发现因果关系也是很困难的。因为我们已经习惯了信息的匮乏,故此亦习惯了在少量数据的基础上进行推理思考,即使大部分时候很多因素都会削弱特定的因果关系。

就拿狂犬疫苗这个例子来说,1885年7月6日,法国化学家路易·巴斯德(Louis Pasteur)接诊了一个9岁的小孩约瑟夫·梅斯特(Joseph Meister),他被带有狂犬病毒的狗咬了。那时,巴斯德刚刚研发出狂犬疫苗,也实验验证过效果了。梅斯特的父母就恳求巴斯德给他们的儿子注射一针。巴斯德做了,梅斯特活了下来。发布会上,巴斯德因为把一个小男孩从死神手中救出而大受褒奖。

但真的是因为他吗?事实证明,一般来说,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效,这也只适用于七分之一的案例中。无论如何,就算没有狂犬疫苗,这个小男孩活下来的概率还是有85%。

在这个例子中,大家都认为是注射疫苗救了梅斯特一命。但这里却有两个因果关系值得商榷。第一个是疫苗和狂犬病毒之间的因果关系,第二个就是被带有狂犬病毒的狗咬和患狂犬病之间的因果关系。即便是说疫苗能够医好狂犬病,第二个因果关系也只适用于极少数情况。

不过,科学家已经克服了用实验来证明因果关系的难题。实验是通过是否有诱因这两种情况,分别来观察所产生的结果是不是和真实情况相符,如果相符就说明确实存在因果关系。这个衡量假说的验证情况控制得越严格,你就会发现因果关系越有可能是真实存在的。

因此,与相关关系一样,因果关系被完全证实的可能性几乎是没有的,我们只能说,某两者之间很有可能存在因果关系。但两者之间又有不同,证明因果关系的实验要么不切实际,要么违背社会伦理道德。比方说,我们怎么从5亿词条中找出和流感传播最相关的呢?我们难道真能为了找出被咬和患病之间的因果关系而置成百上千的病人的生命于不顾吗?因为实验会要求把部分病人当成未被咬的“控制组”成员来对待,但是就算给这些病人打了疫苗,我们又能保证万无一失吗?而且就算这些实验可以操作,操作成本也非常的昂贵。

不像因果关系,证明相关关系的实验耗资少,费时也少。与之相比,分析相关关系,我们既有数学方法,也有统计学方法,同时,数字工具也能帮我们准确地找出相关关系。

相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。通过找出可能相关的事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话,我们再进一步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系中找到一些重要的变量,这些变量可以用到验证因果关系的实验中去。

可是,我们必须非常认真。相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。

例如,Kaggle,一家为所有人提供数据挖掘竞赛平台的公司,举办了关于二手车的质量竞赛。二手车经销商将二手车数据提供给参加比赛的统计学家,统计学家们用这些数据建立一个算法系统来预测经销商拍卖的哪些车有可能出现质量问题。相关关系分析表明,橙色的车有质量问题的可能性只有其他车的一半。

当我们读到这里的时候,不禁也会思考其中的原因。难道是因为橙色车的车主更爱车,所以车被保护得更好吗?或是这种颜色的车子在制造方面更精良些吗?还是因为橙色的车更显眼、出车祸的概率更小,所以转手的时候,各方面的性能保持得更好?

马上,我们就陷入了各种各样谜一样的假设中。若要找出相关关系,我们可以用数学方法,但如果是因果关系的话,这却是行不通的。所以,我们没必要一定要找出相关关系背后的原因,当我们知道了“是什么”的时候,“为什么”其实没那么重要了,否则就会催生一些滑稽的想法。比方说上面提到的例子里,我们是不是应该建议车主把车漆成橙色呢?毕竟,这样就说明车子的质量更过硬啊!

考虑到这些,如果把以确凿数据为基础的相关关系和通过快速思维构想出的因果关系相比的话,前者就更具有说服力。但在越来越多的情况下,快速清晰的相关关系分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中体现为通过严格控制的实验来验证的因果关系,而这必然是非常耗时耗力的。

近年来,科学家一直在试图减少这些实验的花费,比如说,通过巧妙地结合相似的调查,做成“类似实验”。这样一来,因果关系的调查成本就降低了,但还是很难与相关关系体现的优越性相抗衡。还有,正如我们之前提到的,在专家进行因果关系的调查时,相关关系分析本来就会起到帮助的作用。

大数据洞察

在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。

因果关系还是有用的,但是它将不再被看成是意义来源的基础。在大数据时代,即使很多情况下,我们依然指望用因果关系来说明我们所发现的相互联系,但是,我们知道因果关系只是一种特殊的相关关系。相反,大数据推动了相关关系分析。相关关系分析通常情况下能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。曼哈顿沙井盖(即下水道的修检口)的爆炸就是一个很好的例子。





改变,从操作方式开始


每年,因沙井盖内部失火,纽约每年有很多沙井盖会发生爆炸。重达300磅的沙井盖在轰然塌在地上之前可以冲出几层楼高。这可不是什么好事。

为纽约提供电力支持的联合爱迪生电力公司(Con Edison)每年都会对沙井盖进行常规检查和维修。过去,这完全看运气,如果工作人员检查到的正好是即将爆炸的就最好了,因为沙井盖爆炸威力可不小。2007年,联合爱迪生电力公司向哥伦比亚大学的统计学家求助,希望他们通过对一些历史数据的研究,比如说通过研究以前出现过的问题、基础设施之间的联系,进而预测出可能会出现问题并且需要维修的沙井盖。如此一来,它们就只要把自己的人力物力集中在维修这些沙井盖上。

这是一个复杂的大数据问题。光在纽约,地下电缆就有15万公里,都足够环绕地球三周半了。而曼哈顿有大约51000个沙井盖和服务设施,其中很多设施都是在爱迪生那个时代建成的,而且有二十分之一的电缆在1930年之前就铺好了。尽管1880以来的数据都保存着,却很杂乱,因为从没想过要用来进行数据分析。这些数据都是由会计人员或进行整修的工作人员记录下来的,因为是手记,所以说这些数据杂乱一点也不为过。比如说,常见的“服务设施”代码就有38个之多,而计算机算法需要处理的就是这么混乱的数据:SB,S,S/B,S.B,S?B,S.B.,SBX,S/BX,SB/X,S/XB,/SBX,S.BX,S&BX,S?BX,S BX,S/B/X,S BOX,SVBX,SERV BX,SERV-BOX,SERV/BOX,SERVICE BOX……

负责这个项目的统计学家辛西亚·鲁丁(Cynthia Rudin)回忆道:

乍看这些数据的时候,我们从未想过能从这些未经处理的数据中找出想要的信息。我打印了一个关于所有电缆的表格。如果把这个表格卷起来的话,除非你在地上拖,不然你绝对提不起它来。而我们需要处理的就是这么多没有处理过的数据。只有理解了这些数据,才能从中淘金,并倾己所有创建一个好的预测模型。

鲁丁和她的同事必须在工作中使用所有的数据,而不能是样本,因为说不定,这成千上万个沙井盖中的某一个就是一个定时炸弹,所以只有使用“样本=总体”的方法才可以。虽然找出因果关系也是不错的,但是这可能需要一个世纪之久,而且还不一定找得对。要完成这项任务,比较好的办法就是,找出它们之间的相关关系。相比“为什么”,她更关心“是什么”。但是她也知道当面对联合爱迪生电力公司高层的时候,她需要证明选择方案的正确性。预测可能是由机器完成的,但是消费者是人类,而人就习惯性地想通过找出原因来理解事物。

鲁丁希望尽快找到整理这些数据的便捷方法。她们将杂乱的数据整理好给机器处理,由此发现了大型沙井盖爆炸的106种预警情况。在布朗克斯(Bronx)的电网测试中,他们对2008年中期之前的数据都进行了分析,并利用这些数据预测了2009年会出现问题的沙井盖。预测效果非常好,在他们列出的前10%的高危沙井盖名单里,有44%的沙井盖都发生了严重的事故。

最终,最重要的因素是这些电缆的使用年限和有没有出现过问题。讽刺的是,这个发现非常有意义,因为联合爱迪生电力公司的高层们可以在此基础上,迅速进行沙井盖事故可能性排序。但是,这些因素看起来会不会太过明显了?

好吧,既是又不是。因为一方面,就像数学家邓肯·沃茨(Duncan Watts)说的,“一旦你知道了结果,一切都很容易。”但是另一方面,我们不能忘记最开始的时候我们可是找出了106种预警情况。如何权衡以及优先修理成千上万个沙井盖中的哪一个,这不是那么容易做出决定的,因为各种各样的因素加入到了这个庞大的数据库中,而且这些数据记录的方式使得它本来就不适合处理分析。

这个例子说明了数据正在以新的方式帮助我们解决现实生活中的难题。

大数据洞察

我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。





大数据,改变人类探索世界的方法


在小数据时代,我们会假想世界是怎么运作的,然后通过收集和分析数据来验证这种假想。在不久的将来,我们会在大数据的指导下探索世界,不再受限于各种假想。我们的研究始于数据,也因为数据我们发现了以前不曾发现的联系。

假想通常来自自然理论或社会科学,它们也是帮助我们解释和预测周遭世界的基础。随着由假想时代到数据时代的过渡,我们也很可能认为我们不再需要理论了。

2008年,《连线》杂志主编克里斯·安德森(Chris Anderson)就指出:“数据爆炸使得科学的研究方法都落伍了。”后来,他又在《拍字节时代》(The Petabyte Age)的封面故事中讲到,大量的数据从某种程度上意味着“理论的终结”。安德森也表示,用一系列的因果关系来验证各种猜想的传统研究范式已经不实用了,如今它已经被无需理论指导的纯粹的相关关系研究所取代。

为了支撑自己的观点,安德森阐述了量子物理学已变成一门纯理论学科的原因,就是因为实验复杂、耗费多而且不可行。他潜在的观点就是,量子物理学的理论已经脱离实际。[6]他提到了谷歌的搜索引擎和基因排序工程,指出:“现在已经是一个有海量数据的时代,应用数学已经取代了其他的所有学科工具。而且只要数据足够,就能说明问题。如果你有一拍字节的数据,只要掌握了这些数据之间的相关关系,一切就都迎刃而解了。”

这篇文章引发了激烈的争论,虽然安德森本人很快就意识到自己的言辞过于激烈了,但是他的观点确实值得深思。安德森的核心思想是,直到目前为止,我们一直都是把理论应用到实践中来分析和理解世界,而如今处在大数据时代,我们不再需要理论了,只要关注数据就足够了。这就意味着所有的普遍规则都不重要了,比方说世界的运作、人类的行为、顾客买什么、东西什么时候会坏等。如今,重要的就是数据分析,它可以揭示一切问题。

大数据洞察

“理论的终结”似乎暗示着,尽管理论仍存在于像物理、化学这样的学科里,但大数据分析不需要成形的概念。这实在荒谬。

大数据是在理论的基础上形成的。比方说,大数据分析就用到了统计和数学理论,有时候也会用到计算机科学理论。是的,这不是关于像地心引力这样特定现象的产生原因的理论,但是无论如何这依然是理论。而且如我们所见,建立在这些理论上的大数据分析模式是实现大数据预测能力的重要因素。事实上,就是因为不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供如此多新的深刻洞见。

首先就是关于我们怎么收集数据。我们会不会仅仅看数据收集的方便程度来决定呢?或者看数据收集的成本?我们做这些决定的时候就被理论所影响着,而就如达纳·博伊德(Danah Boyd)和凯特·克劳福德(Kate Crawford)说的,我们的选择一定程度上决定了结果。毕竟,谷歌是用检索词来预测流感而不是鞋码。同样,我们在分析数据的时候,也依赖于理论来选择我们使用的工具。最后,我们解读研究结果的时候同样会使用理论。大数据时代绝对不是一个理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面。

作为第一提出问题的人,安德森应该获得掌声——尽管他的答案不怎么样!大数据绝不会叫嚣“理论已死”,但它毫无疑问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆,很多旧有的制度将面临挑战。

大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。但是在我们到达目的地之前,我们有必要了解怎样才能到达。高科技行业里的很多人认为是依靠新的工具,从高速芯片到高效软件等。当然,这可以理解为因为他们自己是工具创造者。这些问题固然重要,但不是我们需要考虑的问题。大数据趋势的深层原因,就是海量数据的存在以及越来越多的事物是以数据形式存在的,这也是我们下一章要谈论的内容。



* * *



[1] 算法思路可参考林登2003年在IEEE Internet Computing上发表的名为“Amazon.com recommendations:item-to-item collaborative filtering”一文。当然,如同谷歌源于PageRank而现在远不仅是PageRank,亚马逊目前的推荐也远远不止基于对象的协同过滤那么简单。举例而言,我所熟悉的百分点通用推荐引擎就包含了数十种常用算法,数千条行业规则和针对用户意图的场景预测模块等。——译者注

[2] 严格地讲,即便没有相关性,另一个数据值也可以大幅变化,只是没有趋势可循罢了。——译者注

[3] 除了利用自有数据外,沃尔玛实验室开始尝试用Facebook好友喜好和Twitter流量与内容分析来实现智能零售。下载一个Facebook上名为shopycat的小应用,就能收到沃尔玛为你创建的礼品清单。——译者注

[4] Teradata的前身是著名的全美现金出纳机公司。——作者注

[5] 2011年,Reshef等人在《科学》上发表了题为“Detecting Novel Associations in Large Datasets”一文,探讨了度量双变量复杂相关行为的新方法。截至目前,该方法还不能处理多变量相关。——译者注

[6] 评价自己不了解的学科,一定要谦虚谨慎,最好是不要做这样的评价。其实,目前的电子产业、纳米加工以及大部分先进的医疗技术都直接来源于量子理论。——译者注





第二部分 大数据时代的商业变革


04 数据化:一切皆可“量化”


大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今的信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。

【大数据先锋】

日本先进工业技术研究所的坐姿研究与汽车防盗系统

谷歌的数字图书馆

多效地理定位与UPS的最佳行车路径

Foursquare,让用户在最喜爱的地方“check in”

用手机数据预测疾病传播和城市繁荣

英国对冲基金公司,用微博数据预测股市投资时机

睡眠活动数据库与睡眠模式预测

GPS感应器,判断环境因素对哮喘病的影响





莫里的导航图,大数据的最早实践之一


马修·方丹·莫里(Matthew Fontaine Maury)是一位很有前途的美国海军军官。1839年,在他前往双桅船“合奏号”(Consort)接受一个新任务时,他乘坐的马车突然滑出了车道,瞬间倾倒,把他抛到了空中。他重重地摔到了地上,大腿骨粉碎性骨折,膝盖也脱臼了。当地的医生帮他复位了膝盖关节,但大腿受伤过重,几天后还需要重新手术。直到33岁,他的伤才基本痊愈,但是受伤的腿却留下了残疾,变得有点儿跛,再也无法在海上工作。经过近三年的休养,美国海军把他安排进了办公室,并任命他为图表和仪器厂的负责人。

谁也想不到,这里竟成了他的福地。作为一位年轻的航海家,莫里曾经对船只在水上绕弯儿不走直线而感到十分不解。当他向船长们问及这个问题时,他们回答说,走熟悉的路线比冒险走一条不熟悉而且可能充满危险的路线要好得多。他们认为,海洋是一个不可预知的世界,人随时都可能被意想不到的风浪困住。

但是从他的航行经验来看,莫里知道这并不完全正确。他经历过各种各样的风暴。一次,他听到来自智利瓦尔帕莱索扩展港口的预警,亲眼目睹了当时刮成圆形的风就像钟表一样;但在下午晚些或日落的时候,大风突然结束,静下来变成一阵微风,仿佛有人关了风的开关一样。在另一次远航中,他穿过墨西哥蓝色海域的暖流,感觉就像在大西洋黑黢黢的水墙之间穿行,又好像在密西西比河静止不动的河面上挺进。

当莫里还是一个海军军官学校的学生时,他每次到达一个新的港口,总会向老船长学习经验知识,这些经验知识是代代相传下来的。他从这些老船长那里学到了潮汐、风和洋流的知识,这些都是在军队发的书籍和地图中无法学到的。相反,海军依赖于陈旧的图表,有的都使用了上百年,其中的大部分还有很重大的遗漏和离谱的错误。在他新上任为图表和仪器厂负责人时,他的目标就是解决这些问题。

他清点了库房里的气压计、指南针、六分仪和天文钟。他发现,库房里存放着许多航海书籍、地图和图表;还有塞满了旧日志的发霉木箱,这些都是以前的海军上尉写的航海日志。刚开始的时候,他觉得这些都是垃圾,但当他拍掉被海水浸泡过的书籍上的灰尘,凝视着里面的内容时,莫里突然变得非常激动。

这里有他所需要的信息,例如对特定日期、特定地点的风、水和天气情况的记录。大部分信息都非常有价值。莫里意识到,如果把它们整理到一起,将有可能呈现出一张全新的航海图。这些日志是无章可循的;页面边上尽是奇怪的打油诗和乱七八糟的信手涂鸦,与其说它们是对航海行程的记录,还不如说它们是船员在航海途中无聊的娱乐而已。尽管如此,仍然可以从中提取出有用的数据。莫里和他的20台“计算机”——那些进行数据处理的人,一起把这些破损的航海日志里记录的信息绘制成了表格,这是一项非常繁重的工作。

莫里整合了数据之后,把整个大西洋按经纬度划分成了五块,并按月份标出了温度、风速和风向,因为根据时间的不同这些数据也有所不同。整合之后,这些数据显示出了有价值的模式,也提供了更有效的航海路线。

有经验的海员有时依靠经验能安全航海,但有时也会陷入危险之中。在从纽约到里约热内卢这条繁忙的航线上,水手们往往倾向于与自然斗争而不是顺应自然。美国船长一直被劝导前往里约热内卢不能通过海峡,因为那样存在很大风险,所以船长会选择在东南方向的航线上航行,再穿过赤道驶向西南方向。而这样一来,航行的距离就相当于穿越大西洋两次。这是很荒谬的,其实直接沿着海峡向南航行就可以了。

为了提高精确度,莫里需要更多的信息,因此他创建了一个标准的表格来记录航海数据,并且要求美国所有的海军舰艇在海上使用,返航后再提交表格。商船也拼命地想得到他的图表,莫里就要求以他们的航海日志作为回报(病毒型社交网络[1]的早期版本)。他宣称:“每艘航行在公海上的船舶从此以后都可以被视为一个浮动的天文台,一个科学的殿堂。”为了改进和完善图表,他需要寻求更多的数据(正如谷歌利用网页排名来获得更多的数据)。莫里让船长定期向海里扔掷标有日期、位置、风向以及当时洋流情况的瓶子,然后再来寻找这些瓶子。许多船挂了一面特殊的旗帜,表明它参与了这个信息交流计划。这些旗帜就是出现在一些网站上的友情链接的前身。

通过分析这些数据,莫里知道了一些良好的天然航线,这些航线上的风向和洋流都非常利于航行。他所绘制的图表帮助商人们节省了一大笔钱,因为航海路程减少了三分之一左右。一个船长感激地说:“我在得到你的图表之前都是在盲目地航行,你的图表真的指引了我。”有一些顽固的人拒绝使用这个新制的图表,而当他们因为使用旧方法航行到半路出了事故或者花费的航行时间长很多的时候,他们反而帮助证明了莫里系统的实用性。

1855年,莫里的权威著作《关于海洋的物理地理学》(The Physical Geography of the Sea)出版,当时他已经绘制了120万数据点了。莫里写道,在这些图表的帮助下,年轻的海员们不用再亲自去探索和总结经验,而能够通过这些图表立即得到来自成千上万名经验丰富的航海家的指导。

他的工作为第一根跨大西洋电报电缆的铺设奠定了基础。同时,在公海上发生了一次灾难性的碰撞事件之后,他马上修改了他的航线分析系统,这个修改后的系统一直沿用至今。他的方法甚至应用到了天文学领域,1846年当海王星被发现的时候,莫里有了一个好点子,那就是把错把海王星当成一颗恒星时的数据都汇集起来,这样就可以画出海王星的运行轨迹了。

这个土生土长的弗吉尼亚人在美国历史上并不受关注,这也许是因为他在美国内战期间不再为海军效力,而是摇身一变成为了美国联邦政府在英国的间谍。但是多年前,当他前去到欧洲为他绘制的图表寻求国际支持的时候,四个国家授予了他爵士爵位,包括梵蒂冈在内的其他八个国家还颁给了他金牌。即使到今天,美国海军颁布的导航图上仍然有他的名字。





数据,从最不可能的地方提取出来


庞大的数据库有着小数据库所没有的价值,莫里中校是最早发现这一点的人之一。大数据的核心就是挖掘出庞大的数据库独有的价值。更重要的是,他深知只要相关信息能够提取和绘制出来,这些脏乱的航海日志就可以变成有用的数据。通过这样的方式,他重复利用了别人眼里完全没有意义的数据信息。从这个意义上讲,莫里就是数据化的先驱。就像奥伦·埃齐奥尼对Farecast所做的事情一样,用航空业过去的价格信息催生了一个大有赚头的新公司;也像谷歌的工程师所做的一样,通过过去的检索记录预测到了流感的爆发;而莫里则是发挥出了单纯用于记录航行位置的数据的其他用途。

虽然与今天的大数据技术大体类似,但是一想到他是通过人工一笔一画完成的图表绘制,就让人不禁感到惊叹。这说明在远在信息数字化之前,对数据的运用就已经开始了。如今我们经常把“数字化”和“数据化”这两个概念搞混,但是对这两个概念的区分实际上非常重要。我们来看一个更加现代的例子,帮助我们理解数据其实可以从看上去最不可能的东西中提取出来。

大数据先锋

日本先进工业技术研究所的坐姿研究与汽车防盗系统

日本先进工业技术研究所(Japan's Advanced Institute of Industrial Technology)的教授越水重臣(Shigeomi Koshimizu)所做的研究就是关于一个人的坐姿。很少有人会认为一个人的坐姿能表现什么信息,但是它真的可以。当一个人坐着的时候,他的身形、姿势和重量分布都可以量化和数据化。越水重臣和他的工程师团队通过在汽车座椅下部安装总共360个压力传感器以测量人对椅子施加压力的方式。把人体屁股特征转化成了数据,并且用从0~256这个数值范围对其进行量化,这样就会产生独属于每个乘坐者的精确数据资料。

在这个实验中,这个系统能根据人体对座位的压力差异识别出乘坐者的身份,准确率高达98%。

这个研究并不愚蠢。这项技术可以作为汽车防盗系统安装在汽车上。有了这个系统之后,汽车就能识别出驾驶者是不是车主;如果不是,系统就会要求司机输入密码;如果司机无法准确输入密码,汽车就会自动熄火。把一个人的坐姿转化成数据后,这些数据就孕育出了一些切实可行的服务和一个前景光明的产业。比方说,通过汇集这些数据,我们可以利用事故发生之前的姿势变化情况,分析出坐姿和行驶安全之间的关系。这个系统同样可以在司机疲劳驾驶的时候发出警示或者自动刹车。同时,这个系统不但可以发现车辆被盗,而且可以通过收集到的数据识别出盗贼的身份。

越水重臣教授把一个从不被认为是数据、甚至不被认为和数据沾边的事物转化成了可以用数值来量化的数据模式。同样,莫里中校从看上去没什么用处的事物中提取出了信息,转化成了极其有用的数据。这样创新性的应用创造出了这些信息独特的价值。





数据化,不是数字化


“数据”(data)这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。这是欧几里得的一部经典著作的标题,这本书用已知的或者可由已知推导的知识来解释几何学。如今,数据代表着对某件事物的描述,数据可以记录、分析和重组它。我们还没有合适的词用来形容莫里和越水重臣教授所做的这些转变,所以我们姑且称其为“数据化”吧——这是指一种把现象转变为可制表分析的量化形式的过程。

数据化和数字化大相径庭。数字化指的是把模拟数据转换成用0和1表示的二进制码,这样电脑就可以处理这些数据了。数字化并不是计算机改革的开始,最初的计算机革命是计算能力的飞跃。我们通过计算机计算过去需要耗费很长时间的项目,比方说导弹弹道表、人口普查结果和天气预报。直到后来才出现了模拟数据和数字化。所以1995年,当美国麻省理工学院媒体实验室的尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)发表他的标志性著作《数字化生存》(Being Digital)的时候,他的主题就是“从原子到比特”。20世纪90年代,我们主要对文本进行数字化。随着过去的几十年里存储能力、处理能力和带宽的提高,我们也能对图像、视频和音乐等类似的内容执行这种转化了。

大数据洞察

今天,技术专家都默认大数据的发展和计算机的变革是同步的。但事实并不是这样的。毫无疑问,是现代信息系统让大数据成为了可能,但是大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。

为了得到可量化的信息,我们要知道如何计量;为了数据化量化了的信息,我们要知道怎么记录计量的结果。这需要我们拥有正确的工具。计量和记录的需求也是数据化的前提,而我们在数字化时代来临的几个世纪前就已经奠定好了数据化的基础。





量化一切,数据化的核心


记录信息的能力是原始社会和先进社会的分界线之一。早期文明最古老的抽象工具就是基础的计算以及长度和重量的计量。公元前3000年,信息记录在印度河流域、埃及和美索不达米亚平原地区就有了很大的发展,而日常的计量方法也大有改善。美索不达米亚平原上书写的发展促使了一种记录生产和交易的精确方法的产生,这让早期文明能够计量并记载事实情况,并且为日后所用。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。

计量和记录能够再现人类活动。比如通过记录建筑物的建筑方式和原材料,我们就能再建同样的建筑,或进行实验性的操作,比如通过改变一些方式保存其他部分而建造出新的建筑物,然后再记录这些新建筑物。交易情况一旦得到记录,我们就可以知道一块地丰收时稻谷的产量是多少、需要上缴多少政府税收。计量和记录为预测和计划奠定了基础,虽然这建立在假定明年的收成和今年一样的基础上。有了记录,交易双方才会知道他们赊账的情况,而如果没有这些凭证的支持,欠债的一方则完全可以不用还钱。

几百年来,计量从长度和重量不断扩展到了面积、体积和时间。公元前的最后一个千年,西方的计量方法已经基本准备就绪,但是还是有着比较严重的缺陷。早期文明的计量方法不太适合计算,哪怕是比较简单的计算。比如罗马数字的计算系统就不适合数字计算,因为它没有一个以10为底的记数制或者说是十进制,所以大数目的乘除就算是专家都不知道该怎么算,而简单的乘除对一般人来说也不容易。

大约公元1世纪的时候,印度发明了一种自己的数字系统。它传播到了波斯,并在那里得到改善,而后传入阿拉伯国家,得到了极大的改进。这也就是今天使用的阿拉伯数字的前身。十字军东征给当地人民带来了彻头彻尾的灾难,但同时也把西欧文明带到了地中海东部,而其中最重要的引入就是阿拉伯数字。公元1000年,教皇西尔维斯特二世开始倡导使用阿拉伯数字。12世纪,介绍阿拉伯数字的书籍被翻译成拉丁文,传播到了整个欧洲地区。这也就开启了算术的腾飞。

早在阿拉伯数字传播到欧洲之前,计数板的使用就已经改善了算术。计数板就是在光滑的托盘上放上代币来表示数量,人们通过移动代币到某个区域进行加减。但是,这种计数板有着严重的缺陷,即过大和过小的计算无法同时进行。最主要的缺陷还在于,这些计数板上的数字变化很快,不小心的碰撞或者是摆错一位都会导致完全错误的结果。而且,即便计数板勉强可以进行计算,它也不适合用来记录。因为一旦需要将数字记录在计数板以外的地方,就必须把计数板上的数字转化成罗马数字,这可就费时费力了。[2]

算术赋予了数据新的意义,因为它现在不但可以被记录还可以被分析和再利用。阿拉伯数字从12世纪开始在欧洲出现,而直到16世纪晚期才被广泛采用。到16世纪的时候,数学家们大肆鼓吹他们使用阿拉伯数字计算能比使用计数板快6倍。但最终让阿拉伯数字广为采用的还是复式记账法[3]的出现,它也是数据化的一种工具。

公元前3000年,会计手稿就出现了。但是,记账法在接下来的几百年里发展缓慢,基本上一直保持在记录某地的某个特定交易的阶段。记账人和他的雇主最关心的就是判断某个账户或者自己所从事的行业是否赚钱,而这正是当时的记账手法无法轻易做到的事情。到了14世纪,随着意大利的会计们开始使用两个账本记录交易明细,这种尴尬的境地开始发生改变。这种记账法的优势在于,人们只需要将借贷相加,就可进行制表并得知每个账户的盈亏情况。如此,数据骤然发声了,虽然仅限于读出盈亏情况。

如今,复式记账法通常被看成是会计业和金融业不断发展的成果。事实上,在数据利用的推进过程中,它也是一个里程碑似的存在。它的出现实现了相关账户信息的“分门别类”记录。它建立在一系列记录数据的规则之上,也是最早的信息记录标准化的例子,使得会计们能够读懂彼此的账本。复式记账法可以使查询每个账户的盈亏情况变得简单容易。它会提供交易的记账线索,这样就更容易找到需要的数据。它的设计理念中包含了“纠错”的思想,这也是今天的技术人才们应该学习的。如果一个账本看着不对劲,我们可以查询另一个相对应的账本。

但是,和阿拉伯数字一样,复式记账法也没有立即取得成功。直到200年之后,一个数学家和一个商业家族才让它大受欢迎,他们也改变了数据化的历史。

这个数学家就是方济各会的修士路萨·帕西奥利(Luca Pacioli)。1494年,他出版了一本为普通读者和商人所写的数学教材。这本书大获成功,成为盛行一时的数学教科书。这是第一本全书都使用阿拉伯数字的书籍,因此也促进了阿拉伯数字在欧洲的传播。当然,这本书最大的贡献在于它对复式记账法的详尽论述。接下来的几十年间,这个论述复式记账法的部分被分别译成了6种语言,并且成为几个世纪的通用范本。

而所谓的一个商业家族,就是指美第齐家族——威尼斯商人和艺术资助人。16世纪,这个家族能成为欧洲最有影响力的银行家族,很大一部分要归功于他们使用的一种高级数据记录方法——复式记账法。帕西奥利的著作和美第齐家族的成功奠定了复式记账法成为标准数据记录法的基础,也奠定了阿拉伯数字在此之后不可取代的地位。

伴随着数据记录的发展,人类探索世界的想法一直在膨胀,我们渴望能更精准地记录时间、距离、地点、体积和重量,等等。到了19世纪,随着科学家们发明了新工具来测量和记录电流、气压、温度、声频之类的自然科学现象,科学已经离不开定量化了。那是一个一切事物都需要被测量、划分和记录的时代,人们理解自然的热情甚至高涨到通过分析测量人的颅骨来试图分析人的心智能力。好在,对颅相学这类伪科学的热情最终淡去了,但是人类对于量化一切的热情却始终没有减退。

新工具和开放的思维促进了测量事物和记录数据的繁荣,而现代数据化就诞生于这片沃土之中。数据化的基础已经奠定完好,只是在模拟时代这依然是费时费力的。有时候似乎需要无穷无尽的激情和耐心,或者说,起码也要有奉献一生的准备,比如16世纪的第谷·布拉赫(Tycho Brahe)就夜夜细心观察天体运动。数据化在模拟时代成功的例子并不多,因为这需要很好的运气——一大串的偶然巧妙地结合在一起。中校莫里就很幸运,他因伤坐进了办公室,但是却在那里发现了珍贵的航海日志,可不是每个人都能这么幸运的。然而,数据化的实现有一点必不可少,那就是要从潜在的数据中挖掘出巨大的价值,然后揭示出新的深刻洞见。

计算机的出现带来了数字测量和存储设备,这样就大大提高了数据化的效率。计算机也使得通过数学分析挖掘出数据更大的价值变成了可能。简而言之,数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。





当文字变成数据


数字化和数据化的差异是什么?回答这个问题很容易,我们来看一个两者同时存在并且起作用的领域就可以理解了,这个领域就是书籍。2004年,谷歌发布了一个野心勃勃的计划:它试图把所有版权条例允许的书本内容进行数字化,让世界上所有的人都能通过网络免费阅读这些书籍。为了完成这个伟大的计划,谷歌与全球最大和最著名的图书馆进行了合作,并且还发明了一个能自动翻页的扫描仪,这样对上百万书籍的扫描工作才切实可行且不至于太过昂贵。

刚开始,谷歌所做的是数字化文本,每一页都被扫描然后存入谷歌服务器的一个高分辨率数字图像文件中。书本上的内容变成了网络上的数字文本,所以任何地方的任何人都可以方便地进行查阅了。然而,这还是需要用户要么知道自己要找的内容在哪本书上,要么必须在浩瀚的内容中寻觅自己需要的片段。因为这些数字文本没有被数据化,所以它们不能通过搜索词被查找到,也不能被分析。谷歌所拥有的只是一些图像,这些图像只有依靠人的阅读才能转化为有用的信息。

虽然这是一个现代的、数字化的亚历山大图书馆,比历史上任何一个图书馆都要强大,但谷歌依然希望它能做得更多。谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。

如今,不仅人类可以使用这些文本信息,计算机也可以处理和分析这些文本数据了。通过检索和查询,我们可以对它进行无穷无尽的文本分析;也可以揭示一个词以及词组第一次出现的时间及其成为流行词的时间,据此发现几百年来人类思维发展和思想传播的轨迹。这种分析支持好几种语言。

大数据先锋

谷歌的数字图书馆

你可以自己试一试。输入网址http://books.google.com/ngrams,打开Google Ngram Viewer,它利用谷歌所拥有的所有图书作为数据资源,为你提供单词和短语历年使用次数的展示图表。眨眼之间,我们就能发现“causality”(因果关系)这个词在1900年之前的使用频率比“correlation”(相关关系)高;而在1900年之后,情况就与之前相反了。对于作者存在争议的书籍,我们自己也可以进行作品风格鉴定。数据化的实现让抄袭学术作品的行为越来越无处藏身,因此,很多欧洲政客(包括一名德国国防部长)的抄袭行为被曝光,最终不得不引咎辞职。

15世纪中叶,人类发明了印刷机,在这之后大约出版了1.3亿册图书。到2010年为止,也就是谷歌的数字化图书计划实行7年之后,大约有2000万图书被扫描成了数字图书,这几乎相当于人类所有书写文明的15%,这是多么惊人的数字!这诱发了一个新的学术方向——文化组学[4]。“文化组学”是一个计算机专业词汇,指的就是通过文本的定量分析来揭示人类行为和文化发展的趋势。

在一项研究中,哈佛大学的研究员们对几百万册书籍和超过5000亿个单词进行了深入研究,发现这些书中出现过的单词有一半以上在字典中是无法找到的。[5]他们写道,这些因为不够规范而没有录入正规词典中的词汇如此之多,是一个巨大的宝藏。通过系统分析人们如何提及纳粹德国时期的犹太画家马克·夏加尔(Marc Chagall)[6],他们发现对于思想或是个人的审查和压制会留下“可量化的痕迹”。词语就像是藏于书中而非沉积岩中的化石;信奉“文化组学”的人可以像考古学家一般,挖掘它们所蕴藏的财富。当然,这可能会导致一些可能的偏差,比如图书馆的书籍是不是真实地反映了现实呢?还是反映的只是作者和图书管理员看到的世界?尽管如此,“文化组学”还是会为人们带来很多惊喜的发现。

当文字变成数据,它就大显神通了——人可以用之阅读,机器也可用之分析。但是作为典型的大数据公司,谷歌自然知道收集信息并进行数据化的价值,因为这些数据有非常多的潜在用途。所以,谷歌精明地利用这些数据化了的文本来改进它的机器翻译服务。就像第3章介绍过的一样,这个系统会自动扫描译本,然后找出译语的单词和词组在源语中的对应词和词组是什么。一旦得到答案,系统就可以把翻译看成是一个简单的数学问题,只需要用电脑找出两种语言之间最恰当的对等词和词组。

当然,谷歌并不是第一个梦想在计算机时代唤醒书写文明所蕴含的财富的公司,它也不是第一个吃螃蟹的人。1971年,一个志愿者提出倡议把公共领域的书籍放上网络,制成电子书,方便更多的人阅读,这就是古登堡计划(Project Gutenburg)。这是非常有意义的,但是这个计划没有把书籍数据化,也没有开发出书籍的其他功能;它关注的是阅读,而不是扩充书籍用途。同样地,出版社多年来也一直致力于电子书领域的开发,但是他