大数据”突然间变(biàn)得(dé)无(wú)处不在(zài),似乎每个人都想收集、分(fèn)析(xī)大数(shù)据(jù)、并从(cóng)中(zhōng)获利,同时也有人在(zài)夸耀或者害(hài)怕它的巨大影响。不论我们是在讨论利用谷歌庞大的搜索数据(jù)来预测流(liú)感的爆发还是(shì)利用通话记录来(lái)预测恐怖活动,又或者(zhě)是利用航空公司(sī)的数据(jù)找到(dào)买机票的最佳时机,大数据都可以帮上(shàng)忙。将现(xiàn)代计算技术(shù)和数(shù)字时代众多的数据(jù)结合起来(lái),似乎可(kě)以(yǐ)解决(jué)任何问题(tí)——犯(fàn)罪,公(gōng)共(gòng)卫生,用语的(de)变化,约会(huì)的危险,只要我(wǒ)们把这些数(shù)据利用起(qǐ)来(lái)。
似乎它的拥护者这样宣称。“在接(jiē)下(xià)来的二(èr)十年,”记者帕特里克(kè)·塔克在他最近的大(dà)数据声(shēng)明中(zhōng)这样写道,“是透明的未来,”“我(wǒ)们可以以一种前所未有(yǒu)的准确度预测未(wèi)来的(de)诸多领域,甚至(zhì)包括一些长久以来被认(rèn)为人类无法干预的(de)领域。”但大数(shù)据其实从来没(méi)有听上去(qù)那么好。
大数(shù)据(jù)真的像说的那么(me)好?毫无疑问(wèn)大数据确(què)实是一个有(yǒu)价值的工具,并在某些(xiē)领域产生了至(zhì)关(guān)重要(yào)的影响。比如(rú),几乎近(jìn)二十年人(rén)工智能计算(suàn)机程序的成功,从谷歌的搜索(suǒ)引擎(qíng)到IBM的沃森电脑问答系统,都包括了大(dà)量数据的处理。但是正(zhèng)是因为它最近如此受欢迎并得到广泛应用,我们需(xū)要清晰的看待大数据究(jiū)竟能做什么和不能做什么。
大数据能告诉我们是什(shí)么,但(dàn)不能(néng)告诉我们为什么
首先(xiān),尽(jìn)管大(dà)数(shù)据能够非常(cháng)好地检测相(xiàng)关性,特别是那些用小数据集(jí)可能无法(fǎ)测(cè)出的微妙相关性,但(dàn)是它(tā)并不(bú)会(huì)告(gào)诉我们哪(nǎ)一(yī)种相关性是有意义的。比如,大数(shù)据分析可能会揭(jiē)示从(cóng)2006年(nián)到(dào)2011你(nǐ)那美国谋杀案比例(lì)与IE浏览器的市场份额是极度(dù)相关的,都呈急速下(xià)降趋势。但是很难(nán)相信这两(liǎng)者之间有什么因(yīn)果(guǒ)关系。又比(bǐ)如(rú),从1998到2007被诊断(duàn)出的自闭症患者与有(yǒu)机(jī)食物的销售具有相关(guān)性(都呈急速上升趋(qū)势),但是这种相关性本(běn)身不会告诉我们饮食和自(zì)闭症的(de)关系。
大(dà)数据只能是辅助工具
第二,大数据可(kě)以辅助(zhù)科学调查,但不可能成功(gōng)地完全代替(tì)。比如,分子生物学家很想(xiǎng)从潜在的DNA序列(liè)中推断出蛋白质的(de)三(sān)维结构,有一些科学家已经(jīng)在用大数(shù)据来解决这个难题。但是没有(yǒu)任何科学家认为你可以完(wán)全依靠处理数据(jù)来解(jiě)决这个难题,不论这个数据分析是多么的(de)强有(yǒu)力,你(nǐ)依旧需要基于对物理(lǐ)和生物化学的理解上来处理这些数(shù)据(jù)。
基于大数据的工具易造假
第三,基于大(dà)数据的很(hěn)多工具(jù)很容易造假。批改学生作文的大数(shù)据程序通常依赖于(yú)句子(zǐ)长度和(hé)用(yòng)词的复杂性,数据表明这和(hé)老师批改的分数很相关。但是一旦学(xué)生知道这个程序如何运作,他们就(jiù)开始(shǐ)写一些长(zhǎng)句子并用晦涩的词语而不是去学会如何规范清(qīng)晰的表达,组(zǔ)成连贯的(de)篇(piān)章。甚(shèn)至(zhì)谷(gǔ)歌(gē)的著名的搜(sōu)索(suǒ)引擎,这个(gè)通常被认为成功(gōng)的大数据案(àn)例也不能免于(yú)信(xìn)息繁杂,无(wú)用的搜(sōu)索结果,一些人为的原因使(shǐ)得一些搜索结果(guǒ)排在(zài)前面(搜索广告(gào))。
通(tōng)过大(dà)数据下(xià)结论是有风险的
第四(sì),即(jí)便大数据的(de)结(jié)果没(méi)有人为(wéi)地造假,但是它看上去也不那(nà)么有效。比如谷歌(gē)预测流(liú)感的案例曾经是大数据的典范。2009年,谷歌通过相当大的宣传称它可以通过分析与流(liú)感相关的(de)搜索预(yù)测流感爆发的趋势(shì),这种(zhǒng)准确性和快速甚至(zhì)超过了疾病控制(zhì)和预防中心(xīn)等官方机构。但是几年后,谷(gǔ)歌宣称的流感(gǎn)预测并没有得到好的结果,最近(jìn)两年,它做的更多地是不(bú)准的预测。
最近一篇《科学杂志》的文(wén)章解(jiě)释道,谷歌流感预测的失败很大程度上是(shì)因为谷歌搜索引擎自己在不断的更新,这个时候收集的数(shù)据未必能够适用于下一个时候收(shōu)集的数据。正(zhèng)如统计(jì)学(xué)家(jiā)冯启(qǐ)思(《数据统治世(shì)界》的作者)所说的(de),依赖(lài)于网站的(de)大数据收(shōu)集常常把(bǎ)一些用不同方法、有不同目的数据整合(hé)起来,有时候这会产生负面的影(yǐng)响(xiǎng)。从这样的数据(jù)样本得出(chū)结论(lùn)是(shì)需要冒风险的。
大数(shù)据的智能应用(yòng)会(huì)导致错(cuò)误被加强(qiáng)
第五个需(xū)要注(zhù)意的就是(shì)“恶性循环”,这也是因为(wéi)大(dà)量的数据都来自于网络。不论何时,大数据分析的信息(xī)源本身就是一(yī)种大数据(jù)产(chǎn)品,这很(hěn)可能会(huì)导致恶性循环。谷歌翻译等翻译程(chéng)序是从不同语言中抽取相(xiàng)似的文本去辨别这(zhè)些语言的翻译模式,比(bǐ)如同样的维基百科条目有两(liǎng)种语言。这是一个很合理的策略,要不是有(yǒu)很多语言并(bìng)不具有太多(duō)相似性,维基百科自己都(dōu)可以用谷(gǔ)歌(gē)翻译写条目。在这种情况(kuàng)下,任何谷歌翻译的错误都会影响维基(jī)百科,而(ér)这又会反映到谷歌翻译上(shàng),使(shǐ)这种错误不断加(jiā)强。
大数(shù)据(jù)可能会导致大错误
第六个需要担(dān)心的就是太多相关性导致的危险。如果(guǒ)你在两个变量中不断地寻找相关性,那(nà)么你很可能会纯粹(cuì)出于偶然发现虚假(jiǎ)的相关性,即便在这些变量中并没有(yǒu)实(shí)际意义(yì)的联系。缺乏谨慎的检查,大数(shù)据的(de)量级(jí)会扩大这些错误。
听上去科(kē)学的解释未必(bì)正确(què)
第(dì)七(qī),大数据(jù)很容易对那些无法精确的问题给出听(tīng)上去(qù)很科学(xué)的解释(shì)。比如在过去几个月,基于维(wéi)基百科的(de)数据给人们排名(míng)有两(liǎng)个不同的尝(cháng)试:根据历(lì)史重要性或者文化贡献。其中一本书(shū)叫做(zuò)《谁(shuí)更强(qiáng)?历史人物真实的(de)排名在哪里》,作者是电脑工程师Steven Skiena 和工程师Charles Ward,另一本叫做(zuò)《万神殿》,来自于麻省理工学院(yuàn)媒(méi)体实验室项目。
这些尝试在某些方(fāng)面(miàn)是正确(què)的,耶稣、林肯、莎士比亚(yà)确(què)实是极为重要的人物,但是(shì)两者(zhě)都犯(fàn)了一些(xiē)严重的错误。《谁更强?》指出法(fǎ)兰西斯(sī).史考特(tè).凯(kǎi)伊(Francis Scott Key )在历史上是19世纪最重要的作(zuò)家,远远(yuǎn)超过简·奥斯汀(第78名)和乔(qiáo)治(zhì)·爱略特(第380名)。更(gèng)严(yán)重的是,两(liǎng)本书呈现(xiàn)出了利用所谓的精(jīng)确(què)误导人,而在本质上是模糊(hú)升(shēng)值无意义的(de)。大数(shù)据可以把任何事都(dōu)简化为数字,但是你不(bú)应该被这些“科学”的表现愚弄(nòng)。
罕见(jiàn)事(shì)件,大数据不起作用
最后,大数据在(zài)分析那些普通事(shì)件(jiàn)很(hěn)在行,但是在(zài)分(fèn)析(xī)罕见事件常失败。比如,用大数(shù)据(jù)处理文(wén)本的(de)程(chéng)序如搜索引擎和(hé)翻译程序,常常依赖(lài)于所谓(wèi)的“三字”:连续(xù)三个(gè)词的序列(比如“in a row”)。可靠的数据(jù)信(xìn)息可以编制常规的三字模型,正是因(yīn)为他们常出现,但是(shì)现有的数据并没(méi)有(yǒu)多到足够包括人们(men)可能使用的所有“三字”,因为(wéi)人(rén)们在不(bú)断创造新语言。
随便挑(tiāo)一个例子,Rob Lowe 最近为报(bào)纸写的书评有九个(gè)“三词序列”比(bǐ)如(rú)“dumbed-down escapist fare”,这在谷歌的文本(běn)里从未出(chū)现过(guò)。对于这些新鲜(xiān)词汇(huì)谷歌有很多限制,谷歌(gē)将“dumbed-down escapist fare”西安翻(fān)译为德文然(rán)后再翻译为英文,最后出现了这(zhè)样一个不合逻辑(jí)的词语“scaled-flight fare.”Lowe先生的(de)本意(yì)和利用大数据的翻译真(zhēn)是(shì)完(wán)全(quán)不搭边。
等等,我们几乎忽略了最后一个问题:炒作。大数据的支持者宣称(chēng)它是革(gé)命性的(de)进步。但是即便是给出(chū)大数据的成功例子,比如谷歌流感(gǎn)趋势的预测,即便有用但(dàn)对于一(yī)些更大的事这些显(xiǎn)得微不足道。相比19世纪和20世纪的伟大发明比如抗(kàng)生素,汽车,飞(fēi)机(jī),大数据所得出的东西实在算不了什么。
我们需(xū)要大数据(jù),毫(háo)无疑问。但是我们也(yě)需(xū)要更加清醒的(de)认识到,这只是一种每个人都(dōu)可(kě)以分析的重要资(zī)源,并不(bú)是(shì)什么新技术。