自然语言处理(lǐ)(NLP)的一般处理流程!
1. 什么是NLP
自(zì)然语言(yán)处理 (Natural Language Processing) 是人工智能(AI)的一个子领域。自然(rán)语言处理是研究在人与人交(jiāo)互中以及在人与计算机交(jiāo)互中的语(yǔ)言问题的一门学(xué)科(kē)。为(wéi)了建设(shè)和完善语言(yán)模型,自然语(yǔ)言处理建立计算框(kuàng)架,提出相应的方法来不断的完善设计各种(zhǒng)实用系统(tǒng),并探讨这些实用系统的(de)评测方法(fǎ)。
2. NLP主(zhǔ)要研究(jiū)方向(xiàng)
信息抽取:从给定文本中抽取(qǔ)重要的信息,比如时间(jiān)、地点(diǎn)、人(rén)物、事(shì)件、原因、结果、数字、日(rì)期、货币、专(zhuān)有名词等等。通俗说来,就是(shì)要(yào)了解谁在(zài)什(shí)么时候、什(shí)么原(yuán)因、对谁、做了(le)什(shí)么事、有(yǒu)什么结果。
文本生成(chéng):机器像(xiàng)人(rén)一样使用自(zì)然语言进行(háng)表达和写作。依据输入的不(bú)同,文本生成技术主要包括数据到文本(běn)生(shēng)成和文本到文本生成。数据到文(wén)本生成是指将包(bāo)含键值对(duì)的数据转化为自(zì)然语言文(wén)本(běn);文本到文(wén)本生成对输入文本进行(háng)转化和处理从而产生新的文本。
问答系统:对一(yī)个自然语言表达的问题,由问答系(xì)统给出一个精准的答案。需要对(duì)自然语言查询语句进行某种程度的语义分析(xī),包括实体链接、关系识别,形成逻辑表达式,然后到(dào)知识库中查找可(kě)能的候选(xuǎn)答案并通过一(yī)个排序机制(zhì)找出最(zuì)佳的(de)答(dá)案。
对话系(xì)统:系统通过一系列的对话,跟用(yòng)户进行聊天、回答、完成某一项任务。涉及到用户意图理解(jiě)、通用聊天引(yǐn)擎、问答引擎、对话(huà)管理(lǐ)等技术。此外(wài),为了体现上下文相关(guān),要具备多轮对话能(néng)力。
文本挖掘:包括文本聚类、分(fèn)类(lèi)、情感分析以(yǐ)及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于(yú)统(tǒng)计机器(qì)学习的(de)。
语音识(shí)别和(hé)生成:语音识别是将输(shū)入计(jì)算机的语音(yīn)符号识别转(zhuǎn)换成书面语表示。语音生成又称(chēng)文语转换、语音合成,它是指(zhǐ)将(jiāng)书面文本自动转换成对(duì)应的语(yǔ)音表征(zhēng)。
信息过滤:通(tōng)过计算机系统自动识别和过滤符(fú)合特定(dìng)条件(jiàn)的文档(dàng)信息(xī)。通常指网络有害信(xìn)息的自动识(shí)别和过(guò)滤(lǜ),主要(yào)用于(yú)信息(xī)安全和(hé)防护,网(wǎng)络(luò)内容管理等。
舆情分析:是(shì)指(zhǐ)收集和处理海量信息,自动(dòng)化地对网络舆情进(jìn)行(háng)分(fèn)析,以实现(xiàn)及时应对网络舆情(qíng)的(de)目的。
信息检索:对大规模的(de)文档(dàng)进行(háng)索引(yǐn)。可简单(dān)对文档中的词汇,赋之以不同的权重(chóng)来建(jiàn)立索引,也可建立更(gèng)加深层的索引。在查询的(de)时候,对输入的查询表达式比如一(yī)个检索词或者一个句子进行(háng)分析,然后在索(suǒ)引里面(miàn)查找匹配的候(hòu)选文(wén)档,再(zài)根(gēn)据一个排序机制(zhì)把(bǎ)候(hòu)选文档排序,最后输出(chū)排序得(dé)分最高的(de)文档。
机器(qì)翻译:把(bǎ)输入的源语(yǔ)言(yán)文本通过自动翻译获得另外(wài)一种(zhǒng)语言(yán)的文(wén)本。机器翻译从最早的基于规则的方法到二十年前(qián)的基于统计的方法,再到今天的基于神经网络(luò)(编码-解码)的方法(fǎ),逐渐形成了一(yī)套比(bǐ)较(jiào)严谨的方法体系。
3. NLP的发(fā)展
1950年前:图灵(líng)测试(shì) 1950年前阿(ā)兰·图灵图(tú)灵测试:人(rén)和机器进(jìn)行交流(liú),如果人无法判断(duàn)自己交(jiāo)流(liú)的对象是人还是机器,就说明(míng)这个机器具有智能(néng)。
1950-1970:主流:基于规则形式语言理论
乔姆斯基,根据(jù)数(shù)学中的公理化方法(fǎ)研究自然语言,采用代(dài)数和集合论把形式语言定(dìng)义为(wéi)符号的序列。他试图使用有限的规则描述无(wú)限的语言现象,发现人(rén)类普遍的语言(yán)机制,建立所谓的普遍语法(fǎ)。
1970-至今:主流:基于(yú)统计 谷歌、微软、IBM,20世纪70年(nián)代,弗(fú)里德里克·贾里尼克(kè)及其领导的IBM华生实(shí)验室(shì)将(jiāng)语音(yīn)识别率从70%提升到90%。 1988年,IBM的彼(bǐ)得·布朗(lǎng)提(tí)出了基(jī)于(yú)统计(jì)的机器翻译方(fāng)法。 2005年,Google机器翻译打败(bài)基(jī)于规则(zé)的Sys Tran。
2010年以后:逆袭:机(jī)器学习
AlphaGo先后(hòu)战胜李世石、柯洁等,掀起人工(gōng)智能(néng)热潮。深度学习、人工神经网络(luò)成为热词。领域:语音(yīn)识别、图像(xiàng)识别、机器翻译、自(zì)动驾驶、智能家(jiā)居。
4. NLP任(rèn)务的一般步骤
下(xià)面图片看不清楚的(de),可(kě)以百度脑图查看,点击链接
5. NLP、CV,选哪个?
NLP:自然语言处理,数据是(shì)文本。
CV:计算机视觉,数据是图像。
两者属(shǔ)于不同的(de)领域,在遇到这个(gè)问题(tí)的时候,我也是犹豫了很久,想了很多(duō),于是乎得(dé)出一个结(jié)论:都是利用深度学习去解(jiě)决现(xiàn)实世界存在的问题,离开了CV,NLP存活不了;离开了NLP,CV存活不了。两者就像兄弟姐(jiě)妹一样,整(zhěng)个“家庭”不能分割但个体又(yòu)存在差(chà)异!
NLP/CV属于两个不(bú)同的(de)研究(jiū)领域,都是很好的领域,可(kě)以根据自己的爱好作出适合自己的选择,人(rén)工(gōng)智能是一(yī)个多学(xué)科交叉的领(lǐng)域,需要的不仅仅是单方面的能(néng)力,而是多方面的能力。对于(yú)每个人(rén)来说都有自己的侧重(chóng)点,选择自己擅(shàn)长的领域(yù)里持续深耕,就会(huì)有所成就!