今年3月,重庆车企(qǐ)欧尚(shàng)汽车智(zhì)慧快乐座舱在渝发(fā)布,将人工智(zhì)能技(jì)术与汽车使用场景深度(dù)融合,打造(zào)了全(quán)球(qiú)首发的车外语音交互(hù)系统。
这一(yī)系(xì)统的成功发布,是一批批汽车研发人员的共同努力。科(kē)大讯(xùn)飞智能汽车重庆分中心总经(jīng)理马鸿鹏带领团队攻坚克(kè)难乘势(shì)而上,用(yòng)人工智(zhì)能(néng)赋能(néng)智能汽车发展,助力重庆汽车产业转型发展。
马鸿鹏(中)与团队进行技(jì)术交流。科(kē)大讯飞供图
研发:技术攻坚开创人机交互新格局
马鸿鹏与重庆(qìng)的(de)结缘,从(cóng)2018开始。
2018年智(zhì)博会(huì)上,科大讯飞董事长(zhǎng)刘(liú)庆(qìng)峰宣布将(jiāng)西南总部(bù)落地重庆,同时落地(dì)的还(hái)有科大讯飞智能汽车的重庆分(fèn)中心,马鸿鹏也成为该中心的总经理(lǐ)。与(yǔ)此(cǐ)同时,科大讯飞还与长安汽车等重庆车企共建联合实(shí)验室,在汽车电子智(zhì)能化的技(jì)术研发、产品设计、以及(jí)整车应用领域(yù)展开合作。
“小安你(nǐ)好,帮我(wǒ)查一下北京的天气。”
“好(hǎo)的,北京(jīng)天气晴,白天气温20度。”
“再(zài)帮我订(dìng)一张去那儿的机票。”
……
这样的对话(huà),在人与人交流中再(zài)平常不过(guò),但是对(duì)于人(rén)机互动而言(yán),想要和机器(qì)持续对话,并让机器理解“那儿”就是上文所指的北京,技术难(nán)度不言而喻(yù)。
“在车内一次唤醒(xǐng)实现多个指令,还要实(shí)现上(shàng)下(xià)文理解(jiě),这种交互方(fāng)式是(shì)之前没有(yǒu)的,但却是用户的痛(tòng)点。”马鸿鹏(péng)解(jiě)释到(dào),对于机器来说,机器(qì)需要记忆和理解当前说话人的意图和场(chǎng)景,就需要覆(fù)盖尽可能多(duō)的场景和可能问法,这种会呈几何(hé)级(jí)数增长(zhǎng)的(de)算(suàn)法复杂(zá)度(dù),使软件的开(kāi)发和维护都有较大(dà)难度。
为了实现这一智能操作,马鸿鹏带领着20多人组成的团队入驻长安汽车,反复测试形(xíng)成庞大的场景知(zhī)识库,“通(tōng)常车内常用指令不(bú)超过2000种,但我们在车机上(shàng)内(nèi)置了常用指令(lìng)近(jìn)6000条,不常(cháng)用指令近2万条,才精(jīng)准实现(xiàn)了用户指令(lìng)。”马鸿鹏说。
另一项(xiàng)技术难点是,怎样才能(néng)让语音控制(zhì)系统保(bǎo)持(chí)收音状态,同时(shí)车内对非指令(lìng)正常交(jiāo)流(liú)不(bú)作反馈?马鸿鹏(péng)说,他(tā)们(men)在车(chē)内研发设置了声(shēng)纹(wén)识别、声源(yuán)定(dìng)位(wèi)等系统,能够(gòu)准确识别(bié)指令发出者的指(zhǐ)令,而非指(zhǐ)令者和日常车内交流(liú)则不会被接收进语音控(kòng)制系统(tǒng),让车内语音操作更加智能和人性化。
如(rú)今,搭载了这些技术的飞鱼OS已经在(zài)长安CS95、CS75等(děng)车型上使用,也(yě)加速(sù)了重(chóng)庆汽车智(zhì)能(néng)化发展的进程。
马鸿鹏(右)与(yǔ)同事进行智(zhì)能车载(zǎi)系统测试。科大讯(xùn)飞供图
攻(gōng)坚:攻克(kè)关(guān)键技术助力(lì)重(chóng)庆造(zào)汽(qì)车(chē)走(zǒu)出(chū)去
随着智(zhì)能汽车产业发展(zhǎn),不(bú)少重庆汽(qì)车品牌(pái)也走向国际(jì)市场(chǎng)。马鸿鹏说(shuō),智能汽(qì)车在海外使用,必须适用(yòng)当(dāng)地的语种,而在过(guò)去外语的车载语音识别(bié)及(jí)合(hé)成(chéng)系统(tǒng)被国外企业垄断,国内车(chē)企只(zhī)能使用国外企业的语音(yīn)技术。“比(bǐ)如过去很长一段时间长安汽车在面向中东、南美(měi)等海外发行的车型(xíng)中,语音识别(bié)系(xì)统一直是采用(yòng)的(de)国外技术,安全问题是(shì)最大的考量。”
为(wéi)了解决这(zhè)一技术难题(tí),马鸿鹏团队联(lián)合科大讯(xùn)飞研究院展开长安汽(qì)车车载外(wài)语语音识别及合(hé)成系统研发。
“做(zuò)车载外语(yǔ)识别,不仅需要听懂,还要理(lǐ)解其他国家的语(yǔ)言文化习惯,甚至同一语(yǔ)种不同地区的(de)口(kǒu)音,这(zhè)就需要有强大的识别模型和机器学习做支撑。”马鸿鹏解释(shì)说,车(chē)载语音的“识别”分为“语音识别”和“语义识别”两个技术层(céng)次,“语音(yīn)识别(bié)”相当于人的嘴巴(bā)和耳朵,负责(zé)表(biǎo)达和获取,而(ér)“语义识别”相当于人的大脑,负责思考和信息处理。为此(cǐ),团队开创性(xìng)地采用(yòng)实体抽取+动态模板(bǎn)、融合深度(dù)学习的框架,将语言(yán)和语义技术剥离,构建(jiàn)出云+端多(duō)语(yǔ)种语(yǔ)义(yì)平台,基于该平(píng)台可快速实(shí)现多语种的语义理解。
2021年,这套车(chē)载外语语音(yīn)识别系统已成功实现了国产化,长(zhǎng)安(ān)汽车海(hǎi)外发行的车型均采用了这一国产系统,“关键技术的国产化(huà)不(bú)仅更稳定安全(quán),在生产成本上也实现了降(jiàng)低,助力国内自主品(pǐn)牌出海(hǎi)。”马鸿鹏说。
未来:“语音+视觉”开创人机交(jiāo)互新体验
“身居汽车行业(yè)内,我们在不(bú)断思考,如(rú)何发挥(huī)人工智(zhì)能(néng)优势,通过‘AI+汽车’赋能重庆汽车制造开创新(xīn)格局。”马(mǎ)鸿鹏说。
“以前汽车的语音交(jiāo)互都在车内,实际上车(chē)外智(zhì)能交互也是用户(hù)的需(xū)求,一门之隔下,研(yán)发道阻且(qiě)长。”马(mǎ)鸿鹏举(jǔ)例说(shuō),以往用户在用车场景中(zhōng),常会有开门难、挪车难(nán)等痛(tòng)点,而这套车外语(yǔ)音交互系统可以让车主在车外唤醒车辆,比如在拥挤的停车场(chǎng),可以叫(jiào)它“把车开出来(lái)”,车辆(liàng)即可自动向前驶出,购物归来双(shuāng)手不方便开门,也可(kě)以说一声“打开后备箱”,后备箱即(jí)可自动开(kāi)启。
“车外语音交互相较车内(nèi)语音交(jiāo)互来说,难(nán)点在于如何保(bǎo)障车外噪音等复杂环(huán)境(jìng)下,机器能听清楚(chǔ)并执行指令。”马鸿鹏说,为了实现(xiàn)车外的人车交(jiāo)互,他和团队独创了神经网络降噪算法和“冷启动”系统两项技术,让(ràng)车(chē)外语音交互系(xì)统做(zuò)到360度语音(yīn)降噪(zào)和无死角(jiǎo)识别(bié)覆盖(gài),实现稳定高效的车外(wài)语音交互。
未来(lái),汽车智能化转型(xíng)升级之(zhī)路怎(zěn)么走?
“汽车(chē)革命的下半场是智能化、网联化、共享化。”马鸿鹏说(shuō),他(tā)正在和团队开发多模(mó)态(tài)交(jiāo)互的新(xīn)技(jì)术,未(wèi)来的智能汽(qì)车除了在语(yǔ)音(yīn)交互(hù)外(wài),还将增加视(shì)觉感应交互。比如,当(dāng)你看向左边车窗,发出“打开(kāi)车(chē)窗”指令,那么车(chē)机将只打开左侧车窗(chuāng);正在(zài)通过中控看地图,说放大一点,车机将为用户放大地图。
汽车产(chǎn)业作为(wéi)重庆重要的(de)支柱产(chǎn)业,从车端、零部件、电池(chí)、软(ruǎn)件(jiàn)等全产业链聚集,为重庆在智能汽车领域弯道超车奠定基础(chǔ)。马鸿鹏表示(shì),科大讯飞将发(fā)挥人工(gōng)智能(néng)优势,进一步从技术提(tí)供商,向(xiàng)信息娱乐系统(tǒng)、音响(xiǎng)系统等迈进(jìn),走向软硬一(yī)体化发展,助力重庆汽车产业(yè)智(zhì)能(néng)制造。