开云

    咨询(xún)热线:021-80392549

    开云 QQ在线 开云 企业微(wēi)信
    开云
    开云 资讯 > 人(rén)工智能 > 正文

    自然语言处(chù)理(lǐ):人工智能(néng)领域的重要研究课题

    2021/07/29投稿714

    自然语(yǔ)言处理(英文Natural Language Processing,简称NLP)是人工(gōng)智(zhì)能(英文Artificial Intelligence,简称AI)领域的(de)重要研究课(kè)题,被誉为人工(gōng)智(zhì)能技(jì)术的一(yī)个掌上明珠;它研究能实(shí)现人与计算机之间用自然(rán)语(yǔ)言(yán)进行有效通信的各种理论和方法,涉及(jí)面极为广泛。国际知名学者周海中先生(shēng)曾经(jīng)指出(chū):“自然(rán)语言处理是(shì)极有吸引力的研究(jiū)领(lǐng)域,它具有重(chóng)大的理论意义和实用价(jià)值。”目前,NLP已成为推动科技发展的强大(dà)动力,并成为(wéi)世界各国综合国力竞争的(de)焦点。

    自然语言处理:人工(gōng)智能领域的重(chóng)要研究(jiū)课题(tí)


    NLP主要研究能实现人与计算(suàn)机之间用自然(rán)语言进行有效通信的各(gè)种理论和(hé)方法(fǎ)。而用自然(rán)语言与计算机进(jìn)行通信,有着十分重要的实(shí)际应用意义,也有着(zhe)革命性的理论意义。实现人机间自(zì)然语(yǔ)言通信意味着要使计算机既能(néng)理解(jiě)自然语言文本(běn)的意义,也能以自然语言文本来(lái)表达给定的意图、思想(xiǎng)等;前者称为自然语言理解(jiě)(英(yīng)文Natural Language Understanding,简称NLU),后者称为自然语言生成(英文Natural Language Generation,简称NLG)。因此,NLP大体包括了NLU和NLG两个部分;因为(wéi)处理自(zì)然语言的关键是要(yào)让计算机“理解”自然语言(yán),所以通常把NLU视为NLP,也称为计算语言(yán)学。


    NLP是一(yī)门融(róng)语言(yán)学、计算机科学、数学于一体的科学。因此(cǐ),这一领域的研究(jiū)将(jiāng)涉及自(zì)然语言,即人们日常使(shǐ)用的(de)语言,所以(yǐ)它与语(yǔ)言学的研究有着密切的联系,但又有重要的区别。NLP并不(bú)是一般地研究自然语言,而(ér)是研制(zhì)能有效(xiào)地实现自然(rán)语言(yán)通信的计算机系统,特别是其中的软件(jiàn)系统(tǒng)。因而它是计算机科学的(de)一部(bù)分。可以说,NLP是计(jì)算机科(kē)学、语言学、AI等(děng)关注计算机和人类(lèi)语(yǔ)言之间的相互作用的领域。目前,人们对AI的需求也(yě)从计(jì)算智能、感(gǎn)知(zhī)智能到(dào)了以NLP为(wéi)代表的认知智能的层面(miàn)。没有(yǒu)成功的NLP,就(jiù)不会有真正(zhèng)的认(rèn)知智能。


    由于AI包括感知(zhī)智能(néng)(比如图像识别(bié)、语言识别和手势识(shí)别(bié)等)和认知智能(主要是语言理解知识和推(tuī)理),而语言在(zài)认知智能起到最核心的作用(yòng)。如果能(néng)把语言问题解决了,AI最难(nán)的部分也就基(jī)本(běn)解决了。美(měi)国微软公司创始人比尔·盖茨先生曾经表示,“语言理解(jiě)是(shì)人工智能领(lǐng)域皇冠上的明珠”。前微软公司全球执行副总裁沈向洋先(xiān)生也(yě)在公开演讲时说(shuō):“懂语言者得天下(xià)……下一个十年,人工智能的突破在自然语言的理解……人工智(zhì)能对人类影响(xiǎng)最为深刻的就是自(zì)然语言方面”。由于理解自然(rán)语言需(xū)要关于外在(zài)世界(jiè)的广泛知识以及运用(yòng)操作这些知识的能力,所以NLP也被视为解决AI完备(AI-complete)的核心问题之一(yī)。可以说,NLP目前是AI领域的重要研究课题,对它的研究也是充(chōng)满(mǎn)魅力和(hé)挑(tiāo)战(zhàn)的。


    当(dāng)前AI技术在(zài)认知智能层面(miàn)仍(réng)面(miàn)临诸多挑战。如果我们有所推(tuī)进的话(huà),我们的认知智(zhì)能就(jiù)会进一步提升,包(bāo)括(kuò)语言(yán)的(de)理解(jiě)水(shuǐ)平、推理水(shuǐ)平、回答问题能力、分析(xī)能(néng)力、解决问题的能力、写作能力(lì)、对话能力等。然(rán)后(hòu)再加上感知智能的进步,声(shēng)音、图象、文字的识别和生成的(de)能力,以及(jí)多模态文、图交叉的能力,通过文字(zì)可(kě)以生成图象(xiàng),根据图(tú)象(xiàng)可以生成(chéng)描述的文(wén)字等等,我们就可以推进很多人类的应(yīng)用,包(bāo)括搜索引擎、智能客服,包括教(jiāo)育(yù)、财政、电子商务(wù)等各(gè)个方面的应用;也可以把AI技术(shù)用在我们的产(chǎn)业上,帮助(zhù)产业实现数字化转型。


    最早的NLP研究(jiū)工作是机器翻译。1949年,美国(guó)知名科学家沃伦·韦弗先生(shēng)首先提出了机器翻(fān)译(yì)设计方案。20世纪60年代,许多(duō)科学家对机器翻译曾有(yǒu)大规模的研究工作,耗费了巨(jù)额费用;但他们显然是(shì)低估了自(zì)然语言(yán)的复杂性,语言处理的理论和技术均(jun1)不成熟,所(suǒ)以进展不(bú)大。当时的主要做(zuò)法是存储两种语言的单词、短语对(duì)应译法的大辞(cí)典,翻(fān)译时一一对应,技(jì)术上只是调整语言的同条顺序。但日常生(shēng)活中语言(yán)的翻译远不是如此简单(dān),很(hěn)多时候还要参(cān)考某句话(huà)前后的意思,需要上下文联系起(qǐ)来才能正确翻译(yì)——这就是机(jī)译技术难度(dù)高之所在。


    大约20世(shì)纪(jì)90年代开(kāi)始(shǐ),NLP领域发生了巨大的变化。这(zhè)种变化有两(liǎng)个明显的特征:(1)对系(xì)统的输入,要求(qiú)研(yán)制的NLP系统(tǒng)能处理大规模的真实文本(běn),而不是如以前的研(yán)究性系统那(nà)样(yàng),只能处理很少的词条和典型句(jù)子。只有这样(yàng),研制(zhì)的系统才有真正的实用价值。(2)对系统(tǒng)的(de)输出,鉴于真实地理(lǐ)解(jiě)自然语(yǔ)言是(shì)十分困(kùn)难的,对系统并不要求能对自然(rán)语言文本进行深层的(de)理解(jiě),但要能从中抽取有用的信息。同时,由于(yú)强调了“大(dà)规模”和“真实文本”,所以下面两(liǎng)方面(miàn)的基础性工(gōng)作也得到了重视和加强:(1)大规(guī)模真实语料库的研制。大规模的经过(guò)不同深度(dù)加工的真(zhēn)实(shí)文本的语料库,是研究自然语言统计性(xìng)质(zhì)的基础(chǔ);如果没有这样的语料(liào)库,统(tǒng)计方法只(zhī)能是无源之水。(2)大规(guī)模(mó)、信息(xī)丰富的词典的(de)编制工作。因(yīn)此规模为几万,十(shí)几万,甚至几十万词,含有丰富(fù)的信息(xī)(如包含(hán)词的(de)搭配信(xìn)息)的计算机(jī)可用词典对NLP的重要性是很明显的。


    系统的输入与输出这两个特征在NLP的诸多领域都有(yǒu)所(suǒ)体(tǐ)现,其(qí)发展直接促(cù)进了计算(suàn)机自(zì)动检(jiǎn)索技术(shù)的出现和兴起(qǐ)。实际上,随着计(jì)算机技术的不断发展,以海量(liàng)计算(suàn)为基础的机器学(xué)习、数据挖(wā)掘、数据建模等(děng)技术的(de)表(biǎo)现也愈发优异。NLP之所以能够(gòu)度过“寒冬”,再次发展(zhǎn),也(yě)是因(yīn)为计算机科学(xué)与统计科学的不断结合,才让人(rén)类甚至机器能够不断从大(dà)量数据中发现“特征”并(bìng)加以学习(xí)。不过要实现(xiàn)对自(zì)然语言真正意义上的理(lǐ)解,仅(jǐn)仅从原(yuán)始文本中进行(háng)学习是不够的(de),我们还需要(yào)新的(de)方法和(hé)模型。


    目(mù)前存在的(de)问题(tí)主要有两(liǎng)个方面:一方面,迄今为止的语(yǔ)法都(dōu)限(xiàn)于(yú)分析一个孤立(lì)的句子(zǐ),上下文关系和谈话环(huán)境对本句(jù)的(de)约束和影响还缺乏系(xì)统的研究,因此分(fèn)析歧义、词语省(shěng)略、代词(cí)所指、同(tóng)一句话在不(bú)同场合(hé)或由不同(tóng)的人(rén)说出来所具有的不同含义(yì)等问题,尚无明确规律可循,需(xū)要加强(qiáng)语义学和语用学的研究才能逐步解(jiě)决。另一方面,人理解一个(gè)句子(zǐ)不是单凭语法(fǎ),还运用了大量的有关知识,包括生活知识和专(zhuān)门(mén)知识,这些(xiē)知识无(wú)法全部贮存在计算机里(lǐ)。因此一(yī)个书面理解系(xì)统只能建立在有限的词汇、句型和特定的主题范(fàn)围内;计算机的(de)贮存量和运转速度大大提高之后,才有可能适当扩大范围。


    由于语言工程、认知科学等主要局限于(yú)实验室,目前来看数据处理可能是NLP应用场景最多的一个发(fā)展(zhǎn)方向。实(shí)际上,自从(cóng)进入大数据时代(dài),各大平台就没(méi)有停止过对用户数据的深度挖(wā)掘。要想提取出有用(yòng)的(de)信息,仅提取关键词、统计词频等是远远(yuǎn)不够(gòu)的,必须对用户数(shù)据(尤其是发言、评论等(děng))进行语义上(shàng)的理解。另外,利用离线大数据统计分析的(de)方法进(jìn)行NLP任务的研(yán)究是目前非常有潜力的一种研究(jiū)范式,尤其是谷歌、推特、百(bǎi)度等大(dà)公司在这类应(yīng)用上的成功经验,引领了目(mù)前(qián)大数据研究的(de)浪(làng)潮。


    NLP是为各类企业及开发者提供的(de)用(yòng)于文本分析及挖掘的核(hé)心(xīn)工(gōng)具,已经(jīng)广泛(fàn)应(yīng)用在电(diàn)商、金融、物流、医疗、文化娱乐等行业客户(hù)的多项业务(wù)中。它可帮助用户搭建(jiàn)内容搜索、内容推荐、舆情识别(bié)及分析、文本(běn)结(jié)构化、对话(huà)机器人等智能产品,也(yě)能够通过合作(zuò),定制个性化(huà)的解决方案。由于(yú)理解自(zì)然语言,需要(yào)关(guān)于外在世(shì)界的广泛知(zhī)识以及运用操作(zuò)这些(xiē)知识(shí)的能力,所以NLP也被视为解决(jué)强AI的核心问题(tí)之一,其未来一般也因此密切结合AI发展,尤(yóu)其是设计一个模仿人脑(nǎo)的神(shén)经网络(luò)。


    训练NLP文本解(jiě)析AI系统需要采集大量多源头数据集,对(duì)科学家来说是(shì)一项持续的挑(tiāo)战:需要使(shǐ)用最新的深度学习(xí)模型,模(mó)仿人类大脑中神经元的行为,在数百万甚至数(shù)十亿的注释示例(lì)中进行训练来持续改(gǎi)进(jìn)。当(dāng)下(xià)一种流行的(de)NLP解决(jué)方案是预训练(liàn),它改进了对未(wèi)标记文本进行训练的通用语言模型(xíng),以执行特(tè)定任务;它的思想(xiǎng)就(jiù)是,该模型的参(cān)数(shù)不再(zài)是随机初始化,而是先有一个任务进行训练得到一(yī)套模型参数,然后用这套参数对模(mó)型进行初始化,再进行训练(liàn),以获得更好的预测性(xìng)见(jiàn)解。


    目前我(wǒ)们(men)已(yǐ)经(jīng)进入(rù)了以互联网为主要标志的海量信(xìn)息时代,这(zhè)些(xiē)信(xìn)息大(dà)部分(fèn)是以自然语言表示的。一方面,海(hǎi)量信息也为计算(suàn)机学习人类语言提(tí)供(gòng)了更多的“素材”;另(lìng)一方面,这也为NLP提供了更加宽广的(de)应用舞台。例如,作为NLP的重要应用,搜索引擎(qíng)逐渐成(chéng)为人们获取信息(xī)的重要工具,出现了以谷(gǔ)歌、百度等为代表的搜索引擎巨头(tóu);机(jī)器翻译也从(cóng)实(shí)验室(shì)走(zǒu)入寻常(cháng)百姓家;基于自然语言处理的中文输入法(如搜狗、微(wēi)软、谷歌等输入法)成为计算机用户的必备工具;带(dài)有语音识别的计算(suàn)机(jī)和手机也正大行(háng)其道(dào),协助用户更有效地生活、工作和学习。


    现在,NLP领域已(yǐ)经(jīng)有了大量的人工标注知识,而深度学习可以通过有监(jiān)督学(xué)习得到相关的语义知识(shí),这(zhè)种知识(shí)和人(rén)类总结的知识应该存在某种对应关(guān)系,尤其是在一些浅层语义方(fāng)面(miàn)。因为人工标注,本质上已(yǐ)经给深度学习提(tí)供了学习的目标(biāo);只是深度学习可以不眠不休地(dì)学习,这种逐(zhú)步靠拢(lǒng)学习目标的过(guò)程,可能(néng)远比人类(lèi)总(zǒng)结过程来得(dé)更快(kuài)更好。这一点,从(cóng)谷(gǔ)歌公司旗下DeepMind研究团队开发的围棋软(ruǎn)件AlphaGo短时间(jiān)内连胜两位人类围棋高手(shǒu)的事(shì)实,似乎能够(gòu)得到(dào)验证。


    深度(dù)学习在NLP中的应用非常广泛,可以(yǐ)说横扫NLP的各个应(yīng)用,从(cóng)底层的分词、语言模型、句法分(fèn)析、语音(yīn)识别(bié)等到高层的语(yǔ)义(yì)理解、语用阐释、对话管理(lǐ)、知识(shí)问答等方面都几(jǐ)乎都有深(shēn)度学习的模型,并且取得了不错的效果。有关研究已从传(chuán)统(tǒng)的机(jī)器学(xué)习算法转变成更有表现力的深度学(xué)习模型,如卷积神经网络和回归神经网络。不过,目前的深度学习技(jì)术还不具备(bèi)理解和使(shǐ)用自(zì)然语言所必需的概念抽象(xiàng)和逻辑推理能力,还有待今后进一步的研(yán)究。


    互联网搜(sōu)索引擎已经有一(yī)段时间让(ràng)人们使用会话(huà)语言和术(shù)语来在线搜索事物。现在,谷(gǔ)歌(gē)公司(sī)的云端硬盘用户已经可以使(shǐ)用(yòng)这一功能。用户可以搜索存储在谷歌云(yún)端(duān)硬盘(pán)中(zhōng)的文件(jiàn)和内容(róng),就像使用谷(gǔ)歌搜索提供的对云端硬盘内置NLP的(de)新(xīn)支持一样。该功能使用户可(kě)以使用通常(cháng)用词组表达的(de)查询以及在实际对(duì)话中将要使用(yòng)的查询来更轻(qīng)松地找(zhǎo)到所(suǒ)需的内容。谷(gǔ)歌公司在在线和移动搜索、移动应用程序以(yǐ)及(jí)GoogleTranslate等(děng)服务中广泛(fàn)使用NLP;该公(gōng)司在这一(yī)领域的(de)研究是为提高机器阅(yuè)读和理解人类语言能力所(suǒ)做的更广泛努力的一部分。随着(zhe)谷歌调整其算(suàn)法,NLP应(yīng)该会随着时间的推(tuī)移变得更好。


    前不久,英国剑(jiàn)桥量(liàng)子计算(suàn)公司(CQC)宣布,他们利用自(zì)然语言的“固(gù)有量子”结构,开辟了一(yī)个全新的可能(néng)应(yīng)用领域。其通过将(jiāng)语法句子翻译成量子线(xiàn)路,然(rán)后在量子计算机上实现(xiàn)生成的程序,并实际执行问(wèn)答。这是第一次在量子计算机上执行NLP。通(tōng)过使用CQC的一流的、平台无(wú)关的可重定目(mù)标(biāo)编译器t|ket)™,这些程序(xù)在IBM量子计算机(jī)上(shàng)成(chéng)功执行并(bìng)得(dé)到结果,整个突破朝着实现“意义感知”和“语法知悉”的NLP方向(xiàng)迈(mài)出了有意(yì)义的(de)一大(dà)步——这是计算(suàn)机(jī)时代(dài)早期以(yǐ)来计算机科(kē)学家及计算(suàn)语言学家追寻的梦想。


    美国哈佛大(dà)学医(yī)学院的研究(jiū)人(rén)员(yuán)借助NLP技术最近开发出一种工(gōng)具,可以(yǐ)评估新冠(guàn)肺炎(COVID-19)患者的病(bìng)例、社交媒体和健康卫生数据。他(tā)们率(lǜ)先(xiān)努(nǔ)力通过使用机器学习技(jì)术查看(kàn)来自各种(zhǒng)来源(yuán)的数据和(hé)信息(包括患者记录、社交媒体和公共卫生数(shù)据)来寻找新冠肺(fèi)炎病毒的(de)解决方案。借助NLP工具,他们还可以搜索有关新(xīn)冠肺炎病毒的在线信(xìn)息,并了解爆发的当前位置。另外(wài),研究人员还利用NLP技术对新冠肺炎、药物(wù)和疫(yì)苗等密集展开(kāi)研究,同时包括临床诊断与(yǔ)治疗以及(jí)流行病学(xué)研究等。


    中国阿里达摩院的NLP研究团队提出了(le)优化(huà)模型Struct BERT,能让机器(qì)更好地掌握人(rén)类语法,加深对自然语言的理(lǐ)解。使(shǐ)用该模型好比给机(jī)器内置(zhì)一个“语法识别器”,使机器在(zài)面对语序错乱(luàn)或不(bú)符合语法习惯的(de)词句时,仍能准确理(lǐ)解(jiě)并给(gěi)出正确的表(biǎo)达(dá)和回应,大大提(tí)高机(jī)器对词语、句子(zǐ)以(yǐ)及语言(yán)整体的理解(jiě)力。这一技术已广泛使用(yòng)于阿里旗下阿里小蜜(mì)、蚂(mǎ)蚁金服、优酷等业务。阿里达摩院(yuàn)的语(yǔ)言模(mó)型(xíng)和阅读理解技术也(yě)被用于行(háng)业赋能,推进AI技术在医疗、电力、金融等行(háng)业的落地。据悉,StructBERT模型在2020年被评为全球性能最(zuì)强的NLP系统。


    知名市场分析(xī)机构(gòu)Mordor Intelligence的一份报(bào)告指出,在过去(qù)的几年中,深度学习架(jià)构(gòu)和算法在市场格局中取得了(le)令(lìng)人瞩(zhǔ)目的进步,而语音分析解(jiě)决方案(àn)正(zhèng)在主导着这(zhè)一市场(chǎng),因为(wéi)传统的(de)基(jī)于文本的分析已不足以处理复杂的业(yè)务问题。据(jù)估计(jì),2025年NLP市(shì)场(chǎng)规模将比2017年增(zēng)长14倍,从30亿美元(yuán)左右增长到430亿美元以上。


    总之,随(suí)着互联(lián)网的普及和海量信息的涌现,作为AI领域的重要研究课(kè)题(tí)和掌上明珠,NLP正在人们的(de)生活(huó)、工作、学(xué)习中扮演着越来越重要的角色,并将在科技进步与社会发展的过程中发(fā)挥越来越重要的作用(yòng)。


    文/林峰、李炎(作者单位分(fèn)别为美国波士顿大学工学院、普渡大学科技学院)


    关(guān)键词:




    AI人(rén)工智能网声明:

    凡(fán)资讯来源注明为其他媒体来源(yuán)的信息,均为转载自其他媒(méi)体,并(bìng)不(bú)代表本网(wǎng)站赞同其(qí)观点,也(yě)不代表本网站对其真实(shí)性(xìng)负(fù)责。您若对该文章内(nèi)容有(yǒu)任何疑问或质(zhì)疑,请立即与(yǔ)网站(www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com)联(lián)系,本网站将(jiāng)迅速给您回(huí)应(yīng)并做(zuò)处理。


    联(lián)系电话:021-31666777   新闻、技术(shù)文章投(tóu)稿QQ:3267146135   投稿邮(yóu)箱:syy@gongboshi.com

    精(jīng)选资讯更多

    相关资(zī)讯更多

    热门搜索

    工博士人工智(zhì)能(néng)网
    开云
    扫描二维码关(guān)注微信(xìn)
    扫码反(fǎn)馈

    扫(sǎo)一扫,反馈当前(qián)页面

    咨询反馈
    扫码(mǎ)关注

    微信公众号

    返回顶(dǐng)部(bù)

    开云

    开云

    相关信息

    "开云 开云咨询为企业提供一站式企业咨询服务。

    更新时间:2025-07-15 00:41 来源:www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com