据VentureBeat报道,在语(yǔ)音嘈(cáo)杂的环境中,要想分辨出有几(jǐ)个人讲话、在什(shí)么时(shí)间讲话,对于(yú)机器来(lái)说非常困难。但谷歌人工智能(AI)研究部(bù)门在语音识别(bié)方面取得(dé)了新(xīn)进展,能以92%的准确率识(shí)别出每个(gè)人(rén)声音的专属模式(shì)。
谷歌AI研究(jiū)部门在最(zuì)新名(míng)为(wéi)《FullySupervisedSpeakerDiarization》的(de)论文和相关(guān)博客文章(zhāng)中(zhōng),研究人员描述了一(yī)种新的(de)AI系统,它(tā)“能以一种更有(yǒu)效的方式识别声音”。
这套系统涉及到Speakerdiarization任务(wù),即(jí)需要标注出“谁(shuí)”从“什么时候”到“什(shí)么时候”在(zài)说话,将语音样本分(fèn)割成独特的、同构(gòu)片段的过程。强大的AI系统(tǒng)必(bì)须能(néng)够将新的演(yǎn)讲者发音(yīn)与(yǔ)它以前从未(wèi)遇到过的语音片段关联起(qǐ)来。
这篇论文的作者声称,核心(xīn)算法已经可在Github上的(de)开源软件中可(kě)用,它(tā)实现了(le)一个在线(xiàn)二值化错(cuò)误(wù)率(DER),在NISTSRE2000CALLHOME基(jī)准上是7.6%,这对(duì)于实时应用来(lái)说已经足够低了,而谷歌之前使用的方法(fǎ)DER为8.8%。
谷歌研究人员的新方法是通(tōng)过递归神经网(wǎng)络(RNN)模拟演讲者的嵌入(如(rú)词(cí)汇和短(duǎn)语的数(shù)学表示),递归神(shén)经网络是一种机(jī)器学习模型,它可以利(lì)用内部状(zhuàng)态来处(chù)理(lǐ)输入序列。每个演讲者都从自己的RNN实例开(kāi)始,该实例不断(duàn)更(gèng)新给定新嵌入(rù)的(de)RNN状态,使系统(tǒng)能(néng)够学习发(fā)言者共(gòng)享的高级(jí)知识。
研究人(rén)员在论文中(zhōng)写道:“由于该系(xì)统的(de)所有组件都可(kě)以在监督环境(jìng)下学(xué)习,所以在有高质量时间标记演(yǎn)讲者标签训练数据(jù)的情况下,它比无监督系统更受(shòu)青睐(lài)。我们的系统受到全(quán)面监督,能够从带有时间戳的演讲者标签例(lì)子中学(xué)习。”
在未来的工作中,研究团队计划改进模(mó)型,使其能够集成上下(xià)文信(xìn)息来执行脱机解码,他们希望这将进一步减少DER。研究人员还希望(wàng)能够直接对(duì)声学特征(zhēng)进行建模,这样整个Speakerdiarization系统就可以进行端到端训练。