人(rén)工智(zhì)能里面有一部分算法(fǎ)是需要数据的,首(shǒu)先(xiān)要进(jìn)去(qù)数据,然(rán)后才能学(xué)习(xí)。
比(bǐ)如一个大数据库叫ImageNet,有十几亿(yì)张图片,用了这么大量的图(tú)片(piàn),我们才能(néng)训练(liàn)我们的深度神经网络(luò)去做(zuò)图(tú)片中(zhōng)猫(māo)猫、狗狗(gǒu)、车辆的识别。
如果没(méi)有(yǒu)这些海量的数据,很(hěn)多机器学习算法是不能(néng)用的,像我们现在看(kàn)视频网站它(tā)是面向百亿特征,千亿参数,万亿样本,你没有(yǒu)万亿样本就(jiù)支撑不了百亿特征(zhēng),你可能要有一个亿的样本才有可能支撑百万特征,而(ér)且深度学习是需要海量(liàng)特征做特(tè)征工程(chéng)的,所以这个时(shí)候大(dà)数据实际是很多机器学习(xí)算法得(dé)以能(néng)够(gòu)发展的基(jī)础,但是发(fā)展(zhǎn)到(dào)一定程度,有些算法它又突(tū)然脱离数据了,比(bǐ)如说我们做增强学习,像早期的阿法狗(AlphaGo),它学了几十(shí)万专业棋手之间的对(duì)局,它是大(dà)师,那它(tā)就(jiù)下得很好,后来的阿法Zero(AlphaZero),它是自己(jǐ)和自(zì)己下(xià)棋,反正有(yǒu)规则,所以它的数据实际不是(shì)真(zhēn)的数(shù)据(jù),是生成出来的,它没(méi)有用真实数据,但是它用了增强学习,所以说它(tā)最后下(xià)得比阿法狗还强。
我觉得从(cóng)大的范畴来说,大数据人工(gōng)智(zhì)能肯定是互(hù)相增益(yì)的,没有人工(gōng)智能很多数据发(fā)挥(huī)不了(le)价值,更多时候我们需要人工(gōng)智能算法才能挖掘大数(shù)据的价值,相当于一个是矿,一个(gè)是挖掘和(hé)提炼矿的这样一个设备和(hé)工厂,人工智(zhì)能(néng)是后者,很大程度上有了(le)数据我们才能开发出(chū)数据相关的(de)人工智(zhì)能算法,但是有些算法和数据无关,大体(tǐ)是这样的关系。