怎样利用大数据(jù)变(biàn)废为(wéi)宝?
这几年很多人都在讨论大数(shù)据,如果数据不经过处(chù)理(lǐ),其实并不是有用的。例如每天跑步带(dài)个手环收集的也是数据,网上这(zhè)么多(duō)网站也是数据,简称为Data,数(shù)据本身并没有什么作用,但是数据(jù)里(lǐ)面包(bāo)含(hán)一些很重要的东西(xī),叫做信息(Information),数据杂乱无章,只有经过了梳理和(hé)清洗,才能够(gòu)称为信息(xī)。信息(xī)里面包含了很(hěn)多规(guī)律,我(wǒ)们需要(yào)从众(zhòng)多信息(xī)中将规律总(zǒng)结出(chū)来,才(cái)能称为知识,知识才能改(gǎi)变命运。
信息是很多的,但是很多人看到了信息相当于(yú)白看,但是有人就(jiù)能从信息中看到(dào)了电商的未来,有(yǒu)人看到(dào)了直播(bō)的(de)未来,所以(yǐ)人家就牛(niú)了,如果没有从信息中提取出知识,天天只知道刷朋友圈,也只能在如今互联网滚滚(gǔn)大潮中做个(gè)看(kàn)客(kè)。有了知识(shí),然(rán)后利用这些知识去应(yīng)用(yòng)于实践,有(yǒu)的(de)人就会做得非(fēi)常好,这个东西叫做智慧Intelligence。有知识并不一定有(yǒu)智慧,很(hěn)多学(xué)者(zhě)很有知(zhī)识,已经(jīng)发生的事情(qíng)可以从各个角度分析的头(tóu)头是道,但一到实践就(jiù)歇菜,并(bìng)不(bú)能转化成(chéng)为真正的(de)智慧。而很(hěn)多的创业家之所以(yǐ)伟(wěi)大(dà),就(jiù)是通过获得的知识(shí)应(yīng)用于实践,最后做(zuò)成(chéng)了很大的生意。
数据的处理分五个步(bù)骤,全部完成了才最后才会升华智慧。第一个步(bù)骤:数据(jù)的收集。首先得有(yǒu)数据,数(shù)据的收集有两个(gè)方(fāng)式,第一个方式是拿(Pull),专业(yè)点的叫爬(pá)取或者(zhě)抓取,常见的搜(sōu)索引擎就是这么(me)干的,它把网上的信(xìn)息都下载到它的数据中心,然(rán)后被你搜索出来。比如(rú)你去搜索的时候,返回的(de)是一个(gè)列表,这个(gè)列(liè)表(biǎo)为什么会在搜(sōu)索引擎的公司里面呢(ne),就是因为他(tā)把这个数据都(dōu)爬下来(lái)了。
但是你(nǐ)一点链接,点出来(lái)这个(gè)网站就不在搜(sōu)索引(yǐn)擎它们(men)公司了。比(bǐ)如说搜狐(hú)有个新闻,你拿(ná)百度搜出来,你不点的时候(hòu),那一页在百(bǎi)度数据中心,一点出来的网页(yè)就跳转到搜狐的数据中心了。另外一个(gè)方(fāng)式就(jiù)是推送,有(yǒu)很多终端可以帮我收集数据,比如说智能手环,可以(yǐ)将你每天跑(pǎo)步(bù)的数据(jù),血压的数据(jù),心跳的数据(jù)都(dōu)上传到数据中(zhōng)心里面。
第二个(gè)步骤是(shì)数(shù)据的传输。常见的(de)会通过队列(liè)方式进行,数据量实(shí)在是太大了,数(shù)据必须经过处理才会(huì)有用,但是系(xì)统处理不过来,只好排(pái)排队(duì),一条条地处理(lǐ)。
第三个步骤(zhòu)是数据的存储。现在数据就是Money,掌握了(le)数(shù)据就相当于掌握了金钱。要不(bú)然你看购物网站(zhàn)怎么知道你想买什(shí)么(me)呢?就是因为它有(yǒu)你历史的交易信息,然后通过这(zhè)个信息分析(xī)出你的购物习惯。
第四(sì)个步(bù)骤是数据的处理和分析。上面存储的数据是原始(shǐ)数(shù)据,原始数据多是(shì)杂乱的,还有很多垃圾数据,因而需要(yào)清洗和过(guò)滤。对于整理过的数据,就可以(yǐ)进行分(fèn)析,从而对数据进行归类(lèi),或(huò)者发(fā)现数据(jù)之间的相互关系。比如著(zhe)名的啤酒和纸尿(niào)布(bù)的故事,就是(shì)通过对(duì)人们的购买数据进(jìn)行比对分析(xī),发现(xiàn)了男人在买尿布的时候,会同时(shí)想要(yào)购买啤酒,这样就发现了啤(pí)酒和尿(niào)布之间的对应(yīng)关(guān)系,掌握了规(guī)律,然后应用到实践中(zhōng),将(jiāng)啤酒和尿布的柜台放(fàng)到一起,这就是一种智慧。
第(dì)五个步骤就是对于数据(jù)的检(jiǎn)索和挖掘。检索就是搜索,俗话(huà)说外事不决(jué)问(wèn)谷歌,内(nèi)事不决问(wèn)百(bǎi)度。两(liǎng)大搜索引擎都是将分析归纳后(hòu)的数据放(fàng)入搜索引擎,从而(ér)方便人们找(zhǎo)到想要(yào)的信息。还有一个(gè)就是挖掘,搜索出(chū)来的(de)信息还需要从中挖掘出(chū)相互的关系。例如财经检(jiǎn)索,当搜(sōu)索某个(gè)公司股(gǔ)票的时候,该(gāi)公司的管理层是不是也应该被挖掘出(chū)来?如果仅仅搜索出这个(gè)公司的(de)股票涨的特别好,你就去买了(le),结果第二天(tiān)就跌了,这(zhè)不坑人么?所以通过各种算法挖掘数(shù)据中的关(guān)系,形(xíng)成知识数据库,十分(fèn)重要。
数据分析是一项很有意思的技术,其功能就是帮我们梳理数据,存储信息,并(bìng)从(cóng)信息中总结规(guī)律。当数(shù)据量很小(xiǎo)的时(shí)候,几台机器就能分析(xī)并解决问(wèn)题。但是(shì),慢慢的(de)当数据量越来越大,大(dà)到最强的超级计算机都解决不了问题的(de)时候,该怎么(me)办呢(ne)?这时就要聚(jù)合多(duō)台机器的力量,也就是(shì)使(shǐ)用云计算的力量。
对于数据的收集,以物联(lián)网为例,外面部署这成千(qiān)上亿的检测(cè)设备,将大量的(de)温度,湿度,PH值,PM2.5等等数据统统收集上来(lái),对于网页的(de)搜索引擎来讲(jiǎng),需要将整(zhěng)个互联网所有(yǒu)的网页都下载下来,这显然一台服务器(qì)做不到,需(xū)要多台服务器组成(chéng)分布式系统(tǒng),每台(tái)机(jī)器下载一部分,同时工作,才能在有限的时(shí)间内,将(jiāng)海量的(de)网页(yè)下(xià)载完毕。
对于数据(jù)的传输,一个(gè)内存里面(miàn)的(de)队列肯(kěn)定(dìng)会被大(dà)量的数据挤爆,于是就产(chǎn)生了基(jī)于存(cún)储系统的分(fèn)布式队(duì)列,这样(yàng)的队(duì)列可以多台服(fú)务(wù)器同时传输,随你数据量多(duō)大,只要我的队(duì)伍足(zú)够(gòu)多,队列足够粗,就能够撑得住。
对于数据的存储也(yě)是一样,一台服务器的文(wén)件系统肯(kěn)定是放不下了,那我们就做一个(gè)很大的分布式文件(jiàn)系统来做这件(jiàn)事情(qíng),把多台(tái)机器的硬盘打成一块大的文件系统。再比如(rú)数据的(de)分析,可能需要对大量的数据做(zuò)分类(lèi),统计,聚合,一台服务器(qì)肯定搞不(bú)定,处理几百年(nián)也分析不完(wán),于是(shì)就有了分布式(shì)计(jì)算(suàn)的(de)方法,将(jiāng)大量(liàng)的数据分成(chéng)小份,每台服(fú)务器处理一小份,多台服(fú)务器并行处理,很快就能算完(wán)。