常见的(de)机器学(xué)习算法
诞生于1956年的人工智能,由于受到智(zhì)能算法、计算速度(dù)、存储水平等因素(sù)的影响(xiǎng),在六十多年的发展过(guò)程中(zhōng)经历了多次高潮和低(dī)谷。最近几年,得益于数据量的上涨、运算力的(de)提升,特别是机器(qì)学习新算(suàn)法的出现(xiàn),人工智能迎来了大爆(bào)发的时代。
提到机器学习这(zhè)个词时(shí),有些人(rén)首先想到的可能是科幻电影里的机器人。事实上,机(jī)器学习(xí)是一门(mén)多领域交叉学科,涉及概率论、统计学、算法复杂度理论等多门学科。专门研究(jiū)计(jì)算(suàn)机如何模(mó)拟或实(shí)现人类的学习(xí)行(háng)为,利(lì)用数(shù)据(jù)或以往的经验,以(yǐ)此优化计算机(jī)程序的性能标准(zhǔn)。
根据学习任务(wù)的不同(tóng),我们可以将机(jī)器学(xué)习(xí)分为(wéi)监督学习、非监督学习、强化学(xué)习三种类型(xíng),而(ér)每种(zhǒng)类型又对应着一些算法。
各种算法以(yǐ)及对(duì)应(yīng)的任(rèn)务类(lèi)型
接下来就简单(dān)介绍几(jǐ)种常(cháng)用(yòng)的机器学习(xí)算法及(jí)其应用(yòng)场(chǎng)景,通过本篇(piān)文章大(dà)家可以对机器学习的常用算(suàn)法有个常识性的认识。
一、监督学(xué)习
(1)支持向量机(jī)(Support Vector Machine,SVM):是一(yī)类(lèi)按监督学习方(fāng)式对数据进行二元分(fèn)类的(de)广义线性分类器,其(qí)决策边界是对学(xué)习样本求解的最大边距超平面。例如,在纸上有(yǒu)两(liǎng)类线(xiàn)性可分的点(diǎn),支持向量机会寻找一条直线将这两类点区分开来(lái),并且与这些点(diǎn)的距离都尽可能远。
优点:泛化错(cuò)误(wù)率低,结果易解释(shì)。
缺点:对大规模训练样(yàng)本难以实施,解决多分类问(wèn)题存在困难(nán),对参数调节和核函数的选择敏感。
应(yīng)用(yòng)场景:文本分类、人(rén)像识别、医学诊断等。
(2)决策树(Decision Tree):是一个预测模型,代表的是(shì)对象属(shǔ)性与对象值之(zhī)间的一种映射关系(xì)。下图是如(rú)何在决策树中建模的简单示例:
优点:易(yì)于理解和解(jiě)释,可以可视化分(fèn)析,容易提取出规则;能(néng)够(gòu)处理不相(xiàng)关的特征。
缺点:对缺失数据处理比较困难。
应用场景(jǐng):在决策过程应用较多。
(3)朴素贝叶斯(sī)分(fèn)类(Naive Bayesian classification):对于给出的待分(fèn)类项,求解此项出现的条件(jiàn)下(xià)各个类(lèi)别(bié)出现的概(gài)率,哪个最大,就认(rèn)为此待分类属于哪个类别(bié)。贝叶(yè)斯公式为:p(A|B)= p(B|A)*p(A/p(B),其中P(A|B)表示(shì)后验概率,P(B|A)是似(sì)然值,P(A)是类别的先验概率,P(B)代表预测器的先验概率。
优点:在数据较少的情(qíng)况下仍然有效,可以处理多类别问题(tí)。
缺点:对(duì)输入数据的准备方式较(jiào)为(wéi)敏感(gǎn)。
应用场(chǎng)景:文本分类(lèi)、人脸识别、欺(qī)诈(zhà)检测。
(4)k-近邻算法(K-Nearest Neighbor,KNN):是一种基于实(shí)例的学习(xí),采用测量不同特征值之间的距(jù)离方法进行分类。其基本思路是(shì):给定一个训练样(yàng)本集,然后输(shū)入没(méi)有标签的(de)新数据(jù),将新数据(jù)的(de)每个特征与样(yàng)本集中数(shù)据对应的特征进行比(bǐ)较,找到最邻近(jìn)的k个(通常是(shì)不大于20的整数)实例,这k个(gè)实例的多数属于某个类,就把该(gāi)输入(rù)实(shí)例分类到(dào)这(zhè)个类中。
优点:简(jiǎn)单、易于理解、易(yì)于实现,无需估(gū)计参数(shù)。此外,与朴素贝叶斯之类的算法比,无(wú)数(shù)据输入假(jiǎ)定、准确度高、对异常数(shù)据值不敏(mǐn)感。
缺点:对于(yú)训练数(shù)据依赖程度(dù)比较大,并且缺少训练阶段,无法应对(duì)多样本。
应用场景:字符识别、文本分类、图像(xiàng)识别等领域。
二、非监督(dū)学(xué)习
(1)主成分分析(Principal Component Analysis,PCA):是(shì)一种统计方法。其主要思想是将n维特征映射到k维(wéi)上,这k维是全(quán)新(xīn)的正交特征也被称为主成分,是在原有n维特(tè)征的基础上重(chóng)新构造出来的k维特征。
优(yōu)点:降(jiàng)低数(shù)据的复杂性,识别最重要(yào)的(de)多(duō)个特征。
缺点:主(zhǔ)成分各个特征维(wéi)度(dù)的含义具有一(yī)定(dìng)的模糊性,不如原始样(yàng)本特征的(de)解释性强;有可(kě)能损失有用的信息。
应用(yòng)场景:语音、图像、通(tōng)信的分析处理。
(2)奇异值分解(jiě)(Singular Value Decomposition,SVD):可(kě)以(yǐ)将一个比(bǐ)较(jiào)复(fù)杂的(de)矩阵(zhèn)用更小更简单的(de)几个子矩阵的(de)相乘来表示,这些小矩阵(zhèn)描述的是(shì)矩阵的重要的特性。
优点:简化(huà)数(shù)据,去除噪(zào)声点,提高算法(fǎ)的结(jié)果。
缺点:数(shù)据的(de)转(zhuǎn)换可能难(nán)以理(lǐ)解。
应用场景:推荐系统、图片(piàn)压缩等(děng)。
(3)K-均值聚类(K-Means):是一(yī)种迭代求解的聚类分析(xī)算法(fǎ),采用距离作为相似(sì)性指标。其工作(zuò)流程是随(suí)机确定K个对象作为初始(shǐ)的聚类中心,然后计算每个对(duì)象与各个种(zhǒng)子聚类中心之(zhī)间的距离,把每个(gè)对象分配给距离它最近的(de)聚类中心(xīn)。
优点:算(suàn)法简单(dān)容易实现。
缺点:可(kě)能收敛到局部最(zuì)小值,在大规模数据集(jí)上收敛较慢。
应用场景:图像(xiàng)处理、数(shù)据分析以及市场研究等(děng)。
三、强化学习
Q-learning:是一个基于(yú)值的强化学习算法,它根据动作值函数评估应该选择哪个动(dòng)作,这个函数决定了处于某(mǒu)一个(gè)特定状态以及在该状(zhuàng)态下采取特定(dìng)动作的奖励期(qī)望值。
优(yōu)点:可以(yǐ)接(jiē)收更广的数(shù)据(jù)范围。
缺点:缺乏通用性。
应(yīng)用场景:游戏(xì)开发。
以上(shàng)就是(shì)文章的全部内容,相信大家对常用的(de)机器学习算法应该有了大致(zhì)的了解。
现如(rú)今,我(wǒ)们越来越多地看(kàn)到机(jī)器学习算(suàn)法为人类带来的(de)实际价值,如它们提供了关键的洞察力和信息来报告战略(luè)决策。可以肯定的是,随着机(jī)器学习越来(lái)越流行,未(wèi)来还将(jiāng)出现越(yuè)来越多(duō)能很(hěn)好(hǎo)地处理(lǐ)任务的算法。