大多数围绕人(rén)工智(zhì)能(AI)的讨论都集中在自动(dòng)车辆、聊天(tiān)机器人、数(shù)字孪生技术、机器人技术以及使用基(jī)于人工智(zhì)能(néng)的“智(zhì)能(néng)”系统从大型数(shù)据集中提取商业(yè)洞察力。但(dàn)是(shì)人(rén)工智能和机器学习(xí)(ML)总(zǒng)有(yǒu)一天会在企业(yè)数据中心内部的服务器(qì)机架中扮演重要角色。
人工智能在提升数据中心效率以(yǐ)及扩展业务方面(miàn)的潜力可分为以下四个主要类别:
电源管理:基(jī)于人工(gōng)智能(néng)的电源管理有助于优化加热和冷却系(xì)统,从而降低电力成本,减少员(yuán)工人数(shù),提高(gāo)效率。该领域的代表性供(gòng)应商(shāng)包(bāo)括施耐德(dé)电气、西门子、Vertiv和(hé)伊顿公司。 设(shè)备(bèi)管理:AI系统(tǒng)可以监(jiān)控服务器、存储和网络设备的运行状况,检查系(xì)统是否保持正确配(pèi)置(zhì),并预测(cè)设备何时会出现故障。据Gartner称,AIOpsIT基础设施管理(ITIM)类(lèi)别的(de)供应商包括OpsRamp、Datadog、Virtana、ScienceLogic和(hé)Zenoss。 工作负载(zǎi)管理:人工(gōng)智能系统可以自动(dòng)将工(gōng)作负载实时移动到(dào)最(zuì)高效(xiào)的基础设施上,包括在数据中心内部(bù),以及在混合云环境(jìng)中,在prem、云和边缘(yuán)环(huán)境之间。有越来越多的(de)小型公司提(tí)供基(jī)于(yú)人工智能(néng)的工作负(fù)载优化,包括Redwood、TidalAutomation和(hé)Ignio。思科(Cisco)、IBM和(hé)VMware等(děng)重(chóng)量级企业也(yě)有产品。 •安全性:人工智能工(gōng)具可(kě)以“了(le)解”正常网络流量的(de)情况,发现异常情况,区分需要安全从业者注(zhù)意的警报的优先级,帮助对出了什么问题的(de)事(shì)后分析,并为填补(bǔ)企(qǐ)业安全防御漏洞提供(gòng)建议。提供(gòng)此功(gōng)能的供应商包括VectraAI、Darktrace、ExtraHop和Cisco。
综(zōng)上所述,人工智能(néng)可以帮助企业创建高度自动化、安全、自我(wǒ)修(xiū)复的数(shù)据(jù)中心,这些数据中心几(jǐ)乎不需要人工干预,并(bìng)且能够以高水平(píng)的效率(lǜ)和弹性(xìng)运行。
戴尔技术(shù)公司全球CTO办公室(shì)的(de)杰出工程师(shī)Tabet解(jiě)释说:“人工智能(néng)自动化可以扩展到(dào)超出人类能力的水平(píng)来解释数据,收(shōu)集优化能源(yuán)使用、分配工作负载和最(zuì)大化效率(lǜ)所需的必(bì)要见解,以实现更高的数据中心(xīn)资产(chǎn)利(lì)用率。”。
当(dāng)然,就像(xiàng)自动驾驶汽车(chē)的(de)承诺一样,自动驾(jià)驶(shǐ)数据中心(xīn)还没有出现。在数据(jù)中心,存在着阻碍(ài)人(rén)工智能突破(pò)的重大技术、操作和人员配备障(zhàng)碍。如今,采用技术才刚刚(gāng)起(qǐ)步(bù),但潜(qián)在(zài)的好(hǎo)处将使企业不(bú)断寻找机会采取行动(dòng)。
电源管理利用(yòng)服务器工作(zuò)负(fù)载管理
据估计(jì),数据(jù)中(zhōng)心将消耗全球3%的(de)电力供(gòng)应,造成约2%的温室气体排放,因此,无论是为了省钱,还是(shì)为(wéi)了环保,那么多企业(yè)都在(zài)认真研究数据中心的电源(yuán)管理。
451Research的高级分析师丹尼尔·比佐(DanielBizo)表示,基于人工智能的系统可(kě)以帮(bāng)助数据中心操作员了解当(dāng)前或潜在的冷却问题,例如,由于高密度机(jī)柜堵(dǔ)塞气(qì)流、HVAC装置(zhì)性能不佳或冷热通道之间的空气(qì)密封不足而导致的冷空气(qì)输送不足。
Bizo说,人工智(zhì)能承诺提供(gòng)“不仅仅是良好(hǎo)的设施设计所(suǒ)能带来的好处”。人工智能(néng)系统在数据中心层“可以通过关联暖通空调系统数(shù)据和(hé)环境感知读数来学(xué)习设备”。
IT咨(zī)询和咨(zī)询公司StorageIO的创始人格(gé)雷格·舒尔茨(GregSchulz)补充说:“电(diàn)源管理是一个(gè)很容易实现的成果(guǒ)。”今(jīn)天,它是关于生(shēng)产力(lì)的,关(guān)于每(měi)BTU完(wán)成更多(duō)工作,每瓦能(néng)源完成更多工作,这意味着(zhe)工作更智能(néng),让(ràng)设备工作更智能。”
还有一(yī)个容量规划的角度。除了寻找热点和冷点之外(wài),人工智能系统(tǒng)还可以确保数据中(zhōng)心为适当(dāng)数量的物理服务器(qì)供电,并(bìng)且在需求临时(shí)激增的情况下,有能力启动(和关闭)新的物理服(fú)务(wù)器。
Schulz补充说,电源管理工具正在开(kāi)发连接到管理设备和工作负(fù)载(zǎi)的系统的挂钩。例如,如果传感器检测到服务器(qì)运行太热,系(xì)统可能(néng)会快速自动(dòng)地将工作负载转移到未充分利用的服务(wù)器上(shàng),以(yǐ)避免可能影响任务关键型(xíng)应用程序的潜在停机(jī)。然后(hòu)系统(tǒng)可以调查服(fú)务(wù)器过热的原因——可能是风扇出故障(HVAC问题)、物理组件即(jí)将崩溃(设备问题),或者服务器刚(gāng)刚过载(工作负载问题)。
人工(gōng)智能驱动的健康监(jiān)控、配置管理监督(dū)
数据中心充满了需(xū)要(yào)定期维护的物(wù)理(lǐ)设(shè)备。人工智能(néng)系统可(kě)以(yǐ)超越定期维护(hù),帮(bāng)助收(shōu)集和分析遥测数(shù)据,从而确定需(xū)要(yào)立即(jí)关注的特定(dìng)区域。”人工智能工具可(kě)以嗅出所有这些(xiē)数据和斑点模式,以及(jí)异常点(diǎn),”Schulz说。
Bizo补充说:“健康(kāng)监测从检查设备配(pèi)置是否正确以(yǐ)及性能是否(fǒu)符(fú)合预期开始。”由(yóu)于有成百上千(qiān)个(gè)IT机(jī)柜和(hé)数(shù)万个组件,这(zhè)些(xiē)平凡的任务可能是劳(láo)动密(mì)集型的,因此并(bìng)不总(zǒng)是能够及(jí)时彻底地执行(háng)。”
他指出,基于(yú)大(dà)量感官数(shù)据日志的(de)预测性设备(bèi)故障模型可以“发(fā)现一个即将出现的(de)组件或设备故障,并评估其(qí)是(shì)否需要立即维(wéi)护(hù),以(yǐ)避免(miǎn)任(rèn)何(hé)可能(néng)导(dǎo)致服务中断的容量损失。”
JuniperNetworks负(fù)责企业和(hé)云营销的(de)副总裁MichaelBushong认为,企业数据中心(xīn)运营(yíng)商(shāng)应(yīng)该忽略一些与(yǔ)人工智能相关的过(guò)度(dù)宣(xuān)传和炒作,而专注于他所(suǒ)说的“无聊的创(chuàng)新”
是的,人工(gōng)智能系统可(kě)能有一天会“告诉我问题出在(zài)哪里,并加以解决”,但是到了这一点(diǎn),许多数据中心运营商(shāng)会接受“如(rú)果出了问题,请告诉我(wǒ)要(yào)去哪里看”,Bushong说依赖关系映射也是AI有用的一个重要(yào)但不是特别令人(rén)兴奋(fèn)的领域。如果数据中心(xīn)经理正在对防火墙(qiáng)或其他设备进行策略(luè)更改,可(kě)能会(huì)产生什么意外(wài)后果?”如果(guǒ)我提出一个改变,知道爆(bào)炸半径(jìng)范围内可能有什么是很有(yǒu)用(yòng)的。
保持设备平稳、安全运行的另一个重要(yào)方面是(shì)控制所谓的配置漂移(yí)(configurationdrift),这是一个数据中(zhōng)心术(shù)语,指(zhǐ)的是(shì)随着时(shí)间(jiān)的(de)推移,临时(shí)配置的变化(huà)会导致问题的产生。Bushong说(shuō),人(rén)工智(zhì)能(néng)可以作为“额外的安全检查”来识别即将发生的基于(yú)配(pèi)置(zhì)的数据中心问题。
人(rén)工智能与安(ān)全
Bizo认为,人工智能(néng)和机器学习(xí)“可以(yǐ)通过对事件进行(háng)快速分(fèn)类和聚类来简化事件处(chù)理(事件响应),从而识别(bié)出重要事件并(bìng)将(jiāng)其与噪(zào)声(shēng)分离开来。更快的根本原因分析有助于(yú)操作员做出明智的决定并采取(qǔ)行动。”
人工(gōng)智能在实时入侵检(jiǎn)测中特别有用,Schulz补充道(dào)。基于人工智能(néng)的系统可(kě)以检测、阻止和隔离威胁,然后(hòu)可(kě)以(yǐ)回去进行法医调查(chá),以确定到底发生(shēng)了什(shí)么(me),黑客能够利(lì)用哪些漏(lòu)洞。
在安全操(cāo)作中心(SOC)工作的安(ān)全专业人员经常会收到(dào)过多的(de)警报,但基(jī)于人工智能的系统可以扫描大量的遥(yáo)测数据和(hé)日志(zhì)信息,从而清(qīng)除日(rì)常任务,从而使安全专家能够腾出(chū)时间来处(chù)理更深(shēn)层次的调查。
基于人(rén)工(gōng)智能的(de)工(gōng)作负载(zǎi)优化
在应用程序层,AI有(yǒu)可能自(zì)动将工作负载移动到(dào)适当的着陆(lù)点,无论(lùn)是在内部部署(shǔ)还是(shì)在云(yún)端。”AI/ML将(jiāng)来应该(gāi)根据(jù)性能、成本、治理、安全、风险和(hé)可持续性的众多规范,实时(shí)决定在哪里放(fàng)置工作负(fù)载。
例如,工作负载(zǎi)可以(yǐ)自动移动到最省(shěng)电的服务器,同时(shí)确保服(fú)务器以最高效率运行,即70-80%的利用(yòng)率。Bizo说,人工智能系统可以将(jiāng)性能数据整合到等式中,因此对时间(jiān)敏感的应用程序在高效服务器上运(yùn)行,同时确保不需要快(kuài)速执行的(de)应用程序不(bú)会(huì)消耗过多的(de)能量。
基于人工智(zhì)能的工(gōng)作(zuò)负载优化引起了(le)麻(má)省理工学院(yuàn)研(yán)究人员的注意,他们去(qù)年宣布(bù)他们开发了(le)一个人工智能系统,可以(yǐ)自动学(xué)习如何(hé)在数(shù)千(qiān)台服务器上调度数据处(chù)理(lǐ)操作。
但是,正如Bushong所指出的,现实情况是,如(rú)今的(de)工作负载(zǎi)优化是像亚马逊、谷歌和Azure这(zhè)样的超大规模公司的专利,而不是一(yī)般的企业数据中心。原因有很多(duō)。
实施人工(gōng)智能的挑战
优化和自动化数据中心是正在进行的数字化改造计划的一个组成部分。戴尔的Tabet补充道,“借助COVID-19,许(xǔ)多公司现在都在(zài)寻求(qiú)进一(yī)步的自动化,推动人工(gōng)智能驱动、能够自我修(xiū)复的‘数字(zì)数(shù)据中(zhōng)心(xīn)’的理念。”
谷(gǔ)歌在2018年宣布,已将其数个(gè)超规模(mó)数据中(zhōng)心的(de)冷却系统控制权转为人工智能程序,该公司报告称,人工(gōng)智(zhì)能算(suàn)法提供(gòng)的建议使能源(yuán)使(shǐ)用量减少了40%。
但是,Bizo说,对于那些(xiē)名字不是谷歌(gē)的公司来说,在数据中心使用人工(gōng)智能“在很大程度上(shàng)是一种理想”。一些AI/ML特性(xìng)在(zài)事件处理(lǐ)、基础设施(shī)运行状况和冷却优化(huà)中可用(yòng)。但是(shì),AI/ML模型要取(qǔ)得比(bǐ)目前标准数据中心基(jī)础设(shè)施管理(DCIM)更明显(xiǎn)的突破还需(xū)要更多年的时间。与自主汽车开发非常相似(sì),早期阶段可(kě)能很有趣,但(dàn)与它最终承诺的突破性经济(jì)/商(shāng)业案例(lì)相去甚(shèn)远。”
Tabet认(rèn)为,一些障(zhàng)碍是(shì)“需(xū)要雇佣或培训(xùn)合适的人员来管理系(xì)统(tǒng)。另一个需要注(zhù)意的问题(tí)是数据标(biāo)准和相(xiàng)关(guān)体系结构的需要。”
Gartner这样说:“AIOps平台成(chéng)熟度、it技能和运营成(chéng)熟度是主要的(de)阻碍因素。高级部署面(miàn)临的其他(tā)新(xīn)挑战包(bāo)括数据质量和(hé)“IT基础设施和(hé)运营(yíng)团队”缺乏数据科(kē)学技能。
Bushong补充(chōng)说,最大的障(zhàng)碍一直是人。他指出,外(wài)雇数据科学家对许多企业来说是一个挑战(zhàn),对现有(yǒu)员工的培训也(yě)是一个障碍。
另外,Bushong说,员工抵制技术的历史(shǐ)由(yóu)来已久(jiǔ)。他(tā)指出,软件定义网络(SDN)已经存在了十年,但仍(réng)有四分(fèn)之(zhī)三以上的IT运(yùn)营仍由CLI驱动(dòng)。
“我们必(bì)须相信,各种基础(chǔ)设施(shī)的运营商准备(bèi)把控制权让给人(rén)工智(zhì)能,”Bushong表示。“如果一群人(rén)还(hái)不相(xiàng)信空管员能做(zuò)出决定,那么你怎么训练、教育和(hé)安慰一群人,让他们(men)做出如此重大的转变呢?业(yè)内普遍的态(tài)度是,如果(guǒ)我这么做,我就会失业。”
这就是为(wéi)什么Bushong建议企业在人工智能(néng)方面采取(qǔ)那(nà)些小而(ér)乏味的步骤,而不是陷入经常(cháng)围(wéi)绕一项新(xīn)技术(shù)的炒作(zuò)中。