开云

    咨询(xún)热线:021-80392549

    开云 QQ在(zài)线 开云 企业微信
    开云
    开云 资讯 > 人工智能 > 正(zhèng)文

    从8小时到80秒(miǎo),NVIDIA如何实现AI训练用时大突破?

    2019/07/12572

    “天下武功,唯快不破”,你需要以“快”制胜。

    如今,全(quán)球(qiú)顶级(jí)公司的研究人员和数据科学家(jiā)团队们都(dōu)在致力于创建更为复杂的AI模型(xíng)。但是,AI模型的创建(jiàn)工作不仅仅是(shì)设计模型,还需要对模型进(jìn)行快速地训练。

    这就是为什么说,如果想在AI领域保持领导力(lì),就(jiù)首先需要(yào)有赖于AI基础设施(shī)的领导力。而这(zhè)也正(zhèng)解释了为什么MLPerf AI训练结(jié)果如此之重要。

    通(tōng)过(guò)完成(chéng)全部(bù)6项MLPerf基准测试,NVIDIA展现出了全球一(yī)流的性能表(biǎo)现(xiàn)和(hé)多功能性。NVIDIA AI平台在训练性能方面(miàn)创下(xià)了八项(xiàng)记录,其中包(bāo)括三(sān)项(xiàng)大规模(mó)整体性能纪录和五项基(jī)于每个加速器的性能纪录。

    从8小时到80秒,NVIDIA如(rú)何实现AI训练用时大突破(pò)?

    表1:NVIDIA MLPerf AI纪录

    每个加(jiā)速器的比(bǐ)较基于早前报告(gào)的基于单一NVIDIA DGX-2H(16个 V100 GPU)、与其他同规模相比较的MLPerf 0.6的性(xìng)能(除MiniGo采用(yòng)的(de)是基(jī)于8个V100 GPU的NVIDIA DGX-1 ) |最大规模MLPerf ID:Mask R-CNN:0.6-23,GNMT:0.6-26,MiniGo:0.6-11 |每加(jiā)速(sù)器MLPerf ID:Mask R-CNN,SSD,GNMT,Transformer:全(quán)部使用0.6-20,MiniGo:0.6-10

    以上测试结果数据(jù)由谷歌、英特尔、百度、NVIDIA、以及创建MLPerf AI基准测试的其他数十(shí)家顶级技(jì)术公司和大学(xué)提供背书,能够转化为具有重要意(yì)义的创新。

    简(jiǎn)而言之,NVIDIA的AI平台如今(jīn)能够在不到两分钟的时间内(nèi)完成此(cǐ)前需要(yào)一个工作日才(cái)能完成的模型(xíng)训练。

    各公(gōng)司都知道,释放生产力是一件(jiàn)重中之重的要务。超级计算机如今已经(jīng)成为了AI的必备工具,树立AI领域的领导力首先需要强大的AI计(jì)算基础设施支(zhī)持。

    NVIDIA最新的MLPerf结果很好地展示了将NVIDIA V100 Tensor核心GPU应用于超(chāo)算级基础设施中所(suǒ)能带(dài)来的益处。

    在2017年春季的时候,使用搭载了V100 GPU的NVIDIA DGX-1系(xì)统训练图像(xiàng)识别模型ResNet-50,需要花费整整一个工作日(8小时)的时间。

    而如今,同样的任务,NVIDIA DGX SuperPOD使用相(xiàng)同的V100 GPU,采(cǎi)用Mellanox InfiniBand进行互联,并借助可用(yòng)于分布式AI训练的最(zuì)新NVIDIA优(yōu)化型AI软(ruǎn)件,仅需80秒即可完成。

    80秒的时间,甚至都不够用来(lái)冲一杯咖啡。

    从(cóng)8小时到80秒,NVIDIA如何实现AI训练用时大(dà)突破?

    图1:AI时(shí)间机器

    2019年MLPerf ID(按图表从上到下(xià)的顺序):ResNet-50:0.6-30 | Transformer:0.6-28 | GNMT:0.6-14 | SSD:0.6-27 | MiniGo:0.6-11 | Mask R-CNN:0

    AI的必备工具:DGX SuperPOD 能够(gòu)更快(kuài)速地(dì)完成工作负(fù)载

    仔细观察今日的MLPerf结果,会发(fā)现NVIDIA DGX SuperPOD是唯一在所有六个MLPerf类别中耗时都少(shǎo)于20分钟的AI平台:

    从(cóng)8小时到80秒,NVIDIA如何实现(xiàn)AI训练用时大突破?

    图2:DGX SuperPOD打破大规(guī)模AI纪录

    大规模(mó)MLPerf 0.6性能 | 大规模MLPerf ID:RN50 v1.5:0.6-30,0.6-6 | Transformer:0.6-28,0.6-6 | GNMT:0.6-26,0.6-5 | SSD:0.6-27,0.6-6 | MiniGo:0.6-11,0.6-7 | Mask R-CNN:0.6-23,0.6-3

    更进(jìn)一步(bù)观(guān)察会发(fā)现,针对重量级目标检测和强化学(xué)习(xí),这些最困(kùn)难的AI问题,NVIDIA AI平台在总体训练(liàn)时间方面脱颖(yǐng)而出。

    使(shǐ)用(yòng)Mask R-CNN深度神经网络(luò)的重量级(jí)目(mù)标检测可为用户提供高级实例分割(gē)。其用途包括将(jiāng)其与多个数(shù)据源(yuán)(摄像头、传感器、激光雷达、超(chāo)声波等)相结合(hé),以精确(què)识别并定位特(tè)定目标。

    这类AI工作负载有(yǒu)助于(yú)训练自动驾驶汽车,为其提供(gòng)行人和其(qí)他目标的精确位置。另外,在医疗健康领域,它能够帮助医生在医(yī)疗扫描中查找并识别肿瘤。其意义的重要性非同小可。

    NVIDIA的“重(chóng)量级目标检测”用时不到19分(fèn)钟,性能几乎是第二名的两倍。

    强化学习是另一有难度的类别。这种AI方(fāng)法能够用于训练工厂(chǎng)车间(jiān)机(jī)器(qì)人,以简化生产。城市也可以(yǐ)用这种方式来控(kòng)制交通灯,以减少拥堵。NVIDIA采用NVIDIA DGX SuperPOD,在(zài)创纪录的13.57分钟内完成(chéng)了对MiniGo AI强化训练模型的训练。

    咖啡还没(méi)好,任务已完成:即时AI基(jī)础设施提供全球领先性(xìng)能

    打破基准测(cè)试纪(jì)录不是目的,加速创新才是目(mù)标。这就是为什么NVIDIA构建的DGX SuperPOD不仅性能强(qiáng)大(dà),而且易于(yú)部署(shǔ)。

    DGX SuperPOD全面配(pèi)置了可通过NGC容(róng)器注册表(biǎo)免费获取的优化型(xíng)CUDA-X AI软件,可提供开箱即用(yòng)的全球(qiú)领先AI性(xìng)能。

    在这个由130多(duō)万名CUDA开发者组成的(de)生态系统中,NVIDIA与(yǔ)开发者们合(hé)作,致力于为所有AI框(kuàng)架(jià)和开发环境提供有力支持。

    我们已经助力(lì)优化了数百万(wàn)行代码(mǎ),让我(wǒ)们的客户能够将其AI项目落地,无论(lùn)您(nín)身在何处都可以(yǐ)找到(dào)NVIDIA GPU,无论是在云端,还是在数(shù)据中心,亦(yì)或(huò)是(shì)边缘(yuán)。

    AI基础设施如(rú)今有够快,未来会更快

    更好的(de)一(yī)点(diǎn)在于,这一(yī)平台的(de)速度一直(zhí)在(zài)提升。NVIDIA每月都会(huì)发布CUDA-X AI软件的新优化和性能(néng)改进,集成(chéng)型软件堆(duī)栈可在NGC容器注(zhù)册表中免费(fèi)下载,包(bāo)括容器化的框(kuàng)架、预先训(xùn)练好的模型(xíng)和脚(jiǎo)本。

    借助在CUDA-X AI软件堆栈上的创新,NVIDIA DGX-2H服务器的MLPerf 0.6吞吐量比NVIDIA七个月前发布的结果提升了80%。

    图(tú)3:基于同一服务器,性能提升高达80%

    从8小时到80秒,NVIDIA如何(hé)实(shí)现AI训练用时(shí)大突(tū)破?

    对单个历元上单一(yī)DGX-2H服务器的(de)吞吐量(liàng)进(jìn)行比较(jiào)(数据集单次通过神经网络)|  MLPerf ID 0.5 / 0.6比较:ResNet-50 v1.5: 0.5-20/0.6-30 | Transformer: 0.5-21/0.6-20 | SSD: 0.5-21/0.6-20 | GNMT: 0.5-19/0.6-20 | Mask R-CNN: 0.5-21/0.6-20

    关(guān)键词:




    AI人工智能网声明:

    凡(fán)资讯(xùn)来源注明为其他媒(méi)体来(lái)源的信息,均为转载自其他媒(méi)体,并不代表本网站赞同其(qí)观点(diǎn),也(yě)不代(dài)表本网站(zhàn)对(duì)其真实性(xìng)负责。您若对该文章(zhāng)内容有任何(hé)疑(yí)问或质疑,请立即与网站(www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com)联系,本网站(zhàn)将迅速给您回(huí)应并(bìng)做处理。


    联系(xì)电话:021-31666777   新闻、技(jì)术(shù)文章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选资讯更(gèng)多(duō)

    相关资讯更多

    热门搜索

    工博士人工智能网
    开云
    扫描二维码关(guān)注微(wēi)信
    扫码反馈

    扫(sǎo)一扫,反馈当前页面

    咨询反(fǎn)馈
    扫码(mǎ)关注

    微信公众号

    返回顶部

    开云

    开云

    相关信息

    "开云 开云咨询为企业提供一站式企业咨询服务。

    更新时间:2025-07-15 10:23 来源:www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com