开云

    咨询热线:021-80392549

    开云 QQ在线 开云 企业微信
    开云
    开云 资讯 > 人工智能 > 正文

    HoloLens2的(de)幕后故事:人工智能(néng)如何打(dǎ)造微软的普(pǔ)适计算愿景

    2019/11/12机器人221

    华盛(shèng)顿州(zhōu),雷德蒙德——当人们(men)第(dì)一次戴上全新(xīn)HoloLens 2时,设(shè)备会自动(dòng)开(kāi)始识别他(tā)们:它会测量(liàng)包括用户手的准(zhǔn)确形状(zhuàng)、精准的瞳距在内的一(yī)切(qiē)数据(jù)。在英国剑桥(qiáo)领导HoloLens科学(xué)团队的资深科学家Jamie Shotton表示,实现这(zhè)些功能的人工(gōng)智能研发过程“惊人的复(fù)杂”,但如果想让(ràng)使用该(gāi)设备(bèi)的体验(yàn)变成一种“本能”体验,这些研发工作至关重要。

    “我们希望用户不用专门学(xué)习,就知(zhī)道如何使用HoloLens。”他补充到:“我们知道如何与现实世界中的事物(wù)进(jìn)行交互:我们(men)拿起东(dōng)西,按下(xià)按钮(niǔ),然后(hòu)指向目(mù)标物(wù)。我们致力于将(jiāng)其直接(jiē)转化为混合现实(shí)。”

    微软今天宣布HoloLens 2正式开始向客户发(fā)货。这款内置传感器的(de)全息计算头戴显(xiǎn)示设备利用人工智能代(dài)替时间和空间,创造出一个由人、位置和物(wù)体组成的混合现实,以促进我们最基本的人类冲动之一:交换知识。

    微软技术(shù)院士Alex Kipman表示,我们希(xī)望(wàng)这款头戴(dài)显示设备可(kě)以展示智(zhì)能边缘设备的优秀(xiù)能力——支持人工智(zhì)能(néng)技术,即使没(méi)有稳定(dìng)的互联网(wǎng)连接(jiē),也能(néng)收集和处理(lǐ)数据——并在联(lián)网时与智能云共享部分或全(quán)部数据。

    不久之前,Kipman在(zài)他(tā)办公室的数字(zì)白板上勾勒了这(zhè)种普适计算结构的(de)示意图(tú)。他说:“HoloLens是微软首个基于这种世界观开(kāi)发的设备(bèi)。” HoloLens 2中的人工智能与微软云计算平台Azure的(de)人工(gōng)智能功能相结合,让那些需要腾出双手操作(zuò)的一(yī)线工作人员能够学习有助于职(zhí)业发展的技能,并使地(dì)球两端说不同语言的人能够通过对(duì)物(wù)体的(de)互(hù)通认(rèn)知进行(háng)协作。

    微软公司(sī)Microsoft Azure部门副(fù)总裁Julia White说(shuō):“你可以(yǐ)通(tōng)过HoloLens做真正有(yǒu)趣的(de)事,也(yě)可以通过云来做真正有趣(qù)的(de)事(shì)。但是当这两者相结合时,你会发现,它(tā)改(gǎi)变了人们实际做事的方式方法。”

    通过人工智(zhì)能交付(fù)混合现实

    为了实现与HoloLens 2的自然交互,Shotton和(hé)他的(de)同事共(gòng)同开发、训练人工智能模型,并将其部署在设备上,以(yǐ)跟踪人们的手部动作和视线,比如人们可以感(gǎn)知(zhī)漂浮在自己眼前的全息影像并伸手(shǒu)调整大小或对其重新(xīn)定位。

    为了构建手部跟踪系统,该团队(duì)制作了一(yī)个带有向内指(zhǐ)向的圆顶(dǐng)摄像头(tóu)设备,用(yòng)来记(jì)录人们各种各样的手形。之(zhī)后团(tuán)队会使用离线的云处理技术来构建能够代表所有人(rén)手形(xíng)和(hé)动作的3D模型。通过这个3D模型,团队(duì)能够使用计算机图形来渲染逼真的(de)合成(chéng)人手图像和合成标签,从而(ér)使该模型(xíng)能够适用于各种手形、姿势和运动。Shotton说:“你可以(yǐ)有效地生成(chéng)无(wú)穷多的训练(liàn)数据。”

    该团队使用这些数据来训练一个紧凑(còu)型深度(dù)神经网络,这是一种适(shì)用于(yú)HoloLens的机载处理(lǐ)器的人工智能算(suàn)法(fǎ),能够对来自设备的深度(dù)传感(gǎn)器的(de)每一帧画面(miàn)进行高效处理。当新用户戴上(shàng)HoloLens 2时(shí),系统(tǒng)会利(lì)用(yòng)这个神经网络构(gòu)建(jiàn)一(yī)个适(shì)合用户手(shǒu)掌(zhǎng)大小的个性化3D模型,从而实现与全息影像自然交互所需的(de)精确跟(gēn)踪。

    Shotton的团队(duì)采用了类似的方法来构建和训练眼球跟踪模型,密切关注(zhù)瞳孔间(jiān)距——即双(shuāng)眼瞳孔中心之间的距离,瞳(tóng)距因人而异(yì),它会影响(xiǎng)一个人看近处或远处物体(tǐ)的(de)方式。最终这个眼(yǎn)球跟踪模型,可以让HoloLens 2能够在客户面前精确显示(shì)全息影(yǐng)像,让他(tā)们(men)用手(shǒu)和眼(yǎn)睛同HoloLens 进行交互和(hé)操作。

    Shotton表示(shì):“眼球(qiú)追踪(zōng)、全(quán)息(xī)影像(xiàng)和现实世界的匹配、人(rén)手的(de)互动,所有这一(yī)切(qiē),如果(guǒ)没有足够的精度,根本谈不上本能自然的交互体验。”

    贯穿边缘到云端的人(rén)工智能

    不仅(jǐn)仅是手部(bù)和眼球跟踪功能,其它的智能功能,比(bǐ)如SLAM(同步定位与地图构(gòu)建),都已经被嵌入(rù)到HoloLens 2的第二(èr)代全息处理单(dān)元中(zhōng),该芯片也(yě)被称为HPU2.0。

    Kipman把这(zhè)种设备上(shàng)的人工智能功能称作感知人工智能。他说:“感知就像爬行动物的(de)大(dà)脑,它执行的是(shì)脑部本能、想都(dōu)不用想的操作(zuò)。”对于人来说,这类智能使我(wǒ)们的心脏(zāng)保持跳动、我(wǒ)们的(de)肺部(bù)自主呼吸、我们(men)的眼睛进行微跳动(dòng)以测量景深(shēn)。比如当我们口渴并想(xiǎng)要喝水(shuǐ)时,我们的眼睛(jīng)会本能地(dì)测量(liàng)到(dào)手举(jǔ)水杯到唇边的距离。

    HoloLens 2上的感知人工智(zhì)能(néng)使人们(men)能够操控全息(xī)影像并(bìng)与之(zhī)进行交互,而(ér)无需担心所谓(wèi)的(de)延迟(chí)——通常,数据传输到云端、进行(háng)处(chù)理并返回到(dào)边缘需要花数百毫秒(miǎo)的时间。当你在全(quán)息影像上(shàng)按下一个按钮,或(huò)者用眼球在(zài)全息影像上浏(liú)览(lǎn)文本时,“即使几十毫(háo)秒也会产生显著的感知差异。”Shotton指出:“运转时长至(zhì)关重要。”

    对隐(yǐn)私的保护是在设备上进(jìn)行本地人(rén)工智能计算的另(lìng)一个原因(yīn),例(lì)如(rú)HoloLens 2用来验证客户(hù)身份的虹(hóng)膜扫描信(xìn)息——人(rén)们可能不希望将这类私人数(shù)据发送(sòng)到云端(duān)。然而,对于许多其它(tā)类型的数据来说,将其发送到云端是有好处的:因(yīn)为一旦这(zhè)些数(shù)据(jù)到达云端(duān),客户(hù)就可(kě)以利用Azure AI和混合现实服务,将他们设备上的数(shù)据与整个普适计算结构中的数据相结合(hé),“这(zhè)使很多更高(gāo)级的运算和认知功能得(dé)以运行。”Kipman说。

    云端(duān)协作

    微软混合现(xiàn)实与人工智能苏黎世实验(yàn)室主(zhǔ)任Marc Pollefeys表示(shì),智能云赋能的(de)全息计算的(de)一个关键优势就是,它可(kě)以与其他拥有HoloLens或类似设备的人共享信息。Pollefeys正在领导一个团队研发用于混合现实云服务的核心计算机视(shì)觉算法——Azure Spatial Anchors,该服务能够让全息影像保(bǎo)留并锁定在现实世界(jiè)中,供任何具有适当访(fǎng)问权限的人查看。

    比如(rú)说,Spatial Anchors技术让(ràng)工厂管理者能够把全息影像放在装配线上的(de)设(shè)备旁(páng)边,包含重要的实(shí)时(shí)操作和(hé)维护信息,任何获得(dé)认证(zhèng)并拥有混合现(xiàn)实(shí)设(shè)备的工人都可以访问这些信息。

    Pollefeys说(shuō):“如(rú)果我(wǒ)只能(néng)在我自己的设备上回看这些信息,那这样(yàng)的全息影像就毫无意义。但是,如果我(wǒ)能够在全息影像中对现实世界进行(háng)批注和(hé)标(biāo)记,并且公司里任何有访问权限(xiàn)的人都(dōu)可以看到这些信息,那么这就实现了(le)价值飞跃。”

    为了创建(jiàn)这一功能(néng),Pollefeys和他(tā)的团队(duì)开发(fā)了人工智能(néng)计算机视觉算法,该(gāi)算法可(kě)处(chù)理来自传感(gǎn)器(qì)的数据,提取周围环境的3D几何信息(xī),并将其(qí)整(zhěng)合(hé)、上(shàng)传到云平(píng)台(tái),创建出基(jī)于这些(xiē)相关区域数字孪生系统或视图。

    Pollefeys指出,HoloLens总是通过解读3D或空(kōng)间信息的方式,了解其所在的(de)运行环(huán)境。Azure Spatial Anchors创建、优化这(zhè)些视(shì)图(tú),并(bìng)在各(gè)种设备上(shàng)进行(háng)共享,这(zhè)就是为什(shí)么要把来(lái)自各个设备的视图拼凑在(zài)一起并存储在(zài)云中。他说:“只在(zài)一台设备上存储这些数(shù)据是没有意义的。就好比我有一(yī)小块拼(pīn)图、其他(tā)人也有一小块拼图(tú),只有当我(wǒ)们把各(gè)自(zì)设(shè)备中生(shēng)成的拼图整合(hé)到(dào)一(yī)起,才可以覆盖整个空间。”

    随着(zhe)各种支持(chí)混(hún)合(hé)现实功能的设备(bèi),包括(kuò)HoloLens以及(jí)适当配置的手机、平板电脑和笔(bǐ)记本电脑,绘(huì)制出的环(huán)境信息不断整合(hé),并共享在云端,这些视图将随着(zhe)时间的推移变得更加详实、更加精确、更加强大。

    以工厂为例(lì),随着越来越多(duō)有访问权限的工人(rén)用自己的设备查看全息影像,工(gōng)厂车间的整体视图将会不(bú)断(duàn)地改进,最终完整全息影像将会被经理放置在装配(pèi)线设(shè)备的(de)上方(fāng)。该功能还支(zhī)持其它一(yī)些场景,例(lì)如(rú):建筑师和客户开会(huì)时,每个(gè)参会人员都佩戴一个混合现实设备(bèi),将(jiāng)可(kě)以从自己的(de)视角(jiǎo)查看该建(jiàn)筑的全息3D设计图,并与(yǔ)之(zhī)进行交(jiāo)互。

    Julia White指出,Azure包含(hán)预构建服务,可在HoloLens和任何(hé)其它混合现实设备上(shàng),包括运(yùn)行ioses和安卓操(cāo)作系统的智(zhì)能手机和平板电脑,为这类体(tǐ)验编写应用程序(xù)。她指出:“这种协作(zuò)体验不仅仅限于(yú)HoloLens。而且开发(fā)者在编写这些(xiē)令人惊叹的应用时的成本、操作难度和技(jì)能要求都随之大大降低。” 例如,跨设备和(hé)平台功能(néng)可以优化《我的世界(jiè):地球》的游戏体验。将流行(háng)的视频游戏与(yǔ)混合(hé)现实融合在一起,一(yī)个玩家(jiā)可以在现实世(shì)界中搭建并放(fàng)置可(kě)持久存在的虚拟结构,这样,其他玩家就可以(yǐ)在自(zì)己的设备上与之进(jìn)行交互。

    Julia White说(shuō):“我们都参与其中,因为它基(jī)于云技术,能够被各种(zhǒng)类(lèi)型的(de)设备解读和诠(quán)释。”

    以人为本的技术

    Kipman指出,要想让(ràng)HoloLens达到我(wǒ)们预想的那样去工作,支持这(zhè)种体验的技术就必(bì)须(xū)以类似人(rén)类的方式来理(lǐ)解(jiě)这个世界。因此,他和微软各个部门(mén)的同事合作,一(yī)同(tóng)在这普适计(jì)算的数(shù)据网中开(kāi)发、部署这些(xiē)技术,并(bìng)充分利(lì)用人工智(zhì)能技术(shù)研究解决方案(àn)——从HoloLens 2的芯片到Azure AI和混合(hé)现实服务。

    我们的目光(guāng)再次回到(dào)Kipman的数字(zì)白板,他(tā)现在已经勾勒出一个普适计算的(de)愿(yuàn)景,这个(gè)白板上有文字(zì)、方框、箭(jiàn)头,还有(yǒu)一(yī)幅简笔(bǐ)画——画中的两人在一(yī)个智能设(shè)备旁交谈。

    他说,这就是普(pǔ)适计(jì)算的终极(jí)目标——让人们以自然的方式(shì)与他人进行(háng)交互。为了强调(diào)这一点,他特(tè)意停顿了一(yī)下,与观众进行眼神交流,并说:“希(xī)望你们能从这次的谈话(huà)中得到更多收获,因为(wéi)在真实世界中(zhōng)大家现在就在我身边。”

    他继续说(shuō)道:“我们本可以通过(guò)电(diàn)话或者Skype来交流,我甚至可以(yǐ)录下我的演讲,然(rán)后把磁带寄给你们。但大家没有(yǒu)选(xuǎn)择这么做,而选(xuǎn)择(zé)了面对面交流。为什(shí)么?因为这就是(shì)我(wǒ)们人类(lèi)习(xí)惯的做事方式。”

    “但这(zhè)样面对面的(de)缺点是,大家必须和我同时在同一个地点。而全息技(jì)术(shù)的力量就在于,它能够帮助我们打破(pò)空间和时间的界限。”

    关键词:




    AI人工(gōng)智能网声明:

    凡资(zī)讯来源注明(míng)为(wéi)其他媒体来源的信息(xī),均为转(zhuǎn)载自其他媒体,并(bìng)不代(dài)表本网站赞同其观(guān)点(diǎn),也不代表本(běn)网(wǎng)站对其真实性负责。您若对(duì)该文章内容有任(rèn)何疑问或质疑,请立即与(yǔ)网站(www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com)联系,本网站将迅速给(gěi)您回应并做处(chù)理。


    联系电话(huà):021-31666777   新闻、技术文章投稿(gǎo)QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选资讯更多

    相(xiàng)关资讯更多(duō)

    热(rè)门搜索

    工博(bó)士人工智能网(wǎng)
    开云
    扫描二维码关注微信
    扫码反馈

    扫一扫,反馈当前页面

    咨询反馈
    扫码(mǎ)关注

    微信公(gōng)众号

    返回顶部

    开云

    开云

    相关信息

    "开云 开云咨询为企业提供一站式企业咨询服务。

    更新时间:2025-07-15 02:09 来源:www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com