过(guò)去我(wǒ)们过多地把目光聚焦于“人工智能三(sān)要素”中(zhōng)的算力和模(mó)型(xíng)上;但(dàn)随着人工智(zhì)能的深入,好(hǎo)的(de)算力和模型已不再是稀有物种(zhǒng),被标注好(hǎo)的优质数据却成为时下最为稀(xī)缺的“黑金(jīn)”。AI的崛起离(lí)不开“好的(de)”数据作为(wéi)地(dì)基,这也是云(yún)测数据成(chéng)立的初衷所在。现在戳(chuō)右边链接上新智元小程序了解更多(duō)!
算力、模型和数据(jù)构成了人工智能的三要素,过去,我们过多的把目光聚焦于算力和模型上,殊不(bú)知,随(suí)着(zhe)人工智能的深入,好的算力和(hé)模型已不再是稀有物种,反而那些被标注好的(de)优质数(shù)据成(chéng)为时下最(zuì)为稀缺的“黑金”。
“公司的壁垒不再是算法,而是(shì)数据。让算法利用足够的数据,使得产品(pǐn)运(yùn)行(háng)起来。”人工智能(néng)和(hé)机(jī)器学习领域国际的权威(wēi)学者吴(wú)恩达在发表以“AI is the new electricity”为主题的演讲时,就重(chóng)点(diǎn)强调了(le)数据的(de)重(chóng)要(yào)性。无(wú)独有(yǒu)偶,李开(kāi)复在清华大学(xué)“清华(huá)学堂计算机科学实验班”题为《人工智能(néng)的黄金时代》的演(yǎn)讲中也讲到了此类观点,“如果你(nǐ)有(yǒu)垄(lǒng)断性的大数(shù)据,你就会(huì)有(yǒu)很(hěn)大的优势(shì)。”
以上(shàng)种种,都(dōu)表明着一件事,即(jí)AI的崛起离不开(kāi)“好的”数据作为地基,这也是云测数据成立的初衷所在。
溯源云测数据的AI数据服务之路
“自(zì)2011年(nián)切(qiē)入(rù)企服市场以来(lái),Testin云测(cè)不(bú)断致(zhì)力于助力产业(yè)智能化,除了测(cè)试业务我们已经成为(wéi)专业领域(yù)的垄(lǒng)断品(pǐn)牌,专注(zhù)于AI数据服务的(de)云测(cè)数据也(yě)成为数据领域的标杆(gǎn)品(pǐn)牌。目(mù)前我们整个数据服务(wù)团队规模已超(chāo)过1000人,通过标审(shěn)分离的流程化作(zuò)业(yè)模式和数据安全机制,更好的保(bǎo)证数据的(de)高质量产出和数(shù)据隐(yǐn)私性,从而更好地为人(rén)工智能落地(dì)提供定(dìng)制化‘数据养料’。”在接受钛媒体专访(fǎng)时,云测(cè)数据总经理贾宇航如是说。
AI数据服务作为一个非标(biāo)领域,往往需要根(gēn)据不同(tóng)行业领域、不同的需求进(jìn)行特定化的(de)场(chǎng)景定制,而数据(jù)标注的(de)过程,规范化、标(biāo)准化以及可机读性(xìng)又(yòu)不可或缺,这就意味(wèi)着云测数(shù)据所从事的领域,并没有捷径可以走。
早(zǎo)期的数(shù)据标注服(fú)务门槛并不高,几个人、几台电(diàn)脑便可展开操作,导致了行业鱼龙混杂、同质(zhì)化竞争等现(xiàn)象,而这时的人工智能(néng)也处在初期(qī)发展(zhǎn)阶段。但当人工智能驶入深水区,“应用(yòng)人智能”声势逐渐火热(rè),相对应的算(suàn)法对数据的精准程度和质量要(yào)求也(yě)水涨船高,就要求(qiú)着作为AI数据(jù)服务的提(tí)供者,要为人(rén)工智(zhì)能(néng)提供定制化(huà)的、还原应用场景的优质数据。
针对(duì)于此(cǐ),贾宇(yǔ)航告诉钛媒体,“以人脸关键(jiàn)点识别为例,早先的相关(guān)数据标注往往用一句话便可描述(shù)完(wán)它的任务需求(qiú),到了(le)现在(zài),已经发展到(dào)几(jǐ)百个(gè)关键点。通常数量级的人脸数据标注任务,有时候4张(zhāng)A4纸都未(wèi)必能写(xiě)完这些需求,而人脸(liǎn)的数据标注(zhù)只是众多领域的任务需求之一。”
庞大数(shù)据标(biāo)注(zhù)任务量级之(zhī)下,是当下业内需求端对精准和高质数据(jù)的普遍共识。
这(zhè)就(jiù)要求(qiú)着数据服务(wù)要(yào)在数(shù)据标注和采(cǎi)集(jí)上下足功夫,而(ér)小(xiǎo)团队的能(néng)力范围则显得捉襟见肘。回归到(dào)数据(jù)标注面向多领域这(zhè)件事的本质时,你又会发现,光(guāng)靠人多或者说(shuō)采用“众包”模(mó)式往往只能解决量的需求,数据标注人员是否(fǒu)能统一化协同(tóng)管(guǎn)理以及是否具备相关领域(yù)知识(shí),才是决定某项数(shù)据(jù)任务(wù)完成(chéng)质量(liàng)的好坏。
同时(shí),这也(yě)是云测数据当下正专注的事情。正如医生(shēng)可以标注得好ct诊疗(liáo)片,而云测数据团队在进行自(zì)动驾驶(shǐ)车外环(huán)境数据(jù)标注(zhù)时发现,那些能(néng)够(gòu)快(kuài)速、精(jīng)准进行数据标注(zhù)的人(rén)员往往(wǎng)拥有驾驶(shǐ)经验。
云测数(shù)据快速成长(zhǎng)的秘诀是什么?
至此,我们还需要思考(kǎo)一个问题,为什(shí)么云测(cè)数据能做(zuò)到且做好AI数据服务(wù)?
通过观察Testin云(yún)测(cè)的发展历史,我们便(biàn)能找到答案。
自2011年Testin云测成立(lì)到现(xiàn)在,已经(jīng)为全球超过百万的企业(yè)及开发者提供服务,积累了丰富且完善的(de)技术能力和流程化管理能力。而云测(cè)数据AI数据服务正式开展于2017年,换句换说,Testin云测(cè)的数据业务线从一出生便拥有7年企业(yè)服务所积攒的(de)经验,并继承了行业独立第三方的角(jiǎo)色,天然的“以客户为中心”的企服(fú)基因是(shì)云测数(shù)据(jù)区别于同行的最大护(hù)城河(hé),而客户最为关(guān)键的诉求则是“降本(běn)增效”。
“与企业(yè)服务(wù)在美国环境更侧重标准不同的是,中国更重服务,通过这么多年的观察(chá)我们发现,是否能切实满足用户的真(zhēn)实需求(qiú),其实(shí)是一个非常重要的点,并不(bú)是说企业一定要做出一(yī)个平台或者一个工具,更多是(shì)从企业(yè)或行业需求出发,构建对应(yīng)的服务模式。”贾宇航对钛媒体补充到。
以(yǐ)新零售门(mén)店巡检为例,通常来说,每个门店每月都(dōu)要巡检一(yī)次(cì),门店巡检模式是让一(yī)个人拿着(zhe)调研表(biǎo)去盘点(diǎn),随(suí)着人(rén)工(gōng)成本(běn)的增加(jiā),而门店数(shù)越来越多现实情况,已(yǐ)经让这成为一笔不小的开销。通过引入AI数据服务,现在工作(zuò)人员可(kě)以拿一个手机APP直(zhí)接(jiē)巡(xún)检,物(wù)品的(de)数量、sku的数量(liàng)以(yǐ)及对(duì)应(yīng)的sq数量,都能一目了然。
“从不同(tóng)客户反馈(kuì)得知(zhī),通过我们(men)云(yún)测数据的数据标注服务而(ér)落地(dì)AI产品(pǐn)的企业,可为企业减(jiǎn)少大概1/3的(de)人工成本。”贾宇航如是说。
门店巡检只(zhī)是案例之(zhī)一,就目前来说(shuō),云测数据主(zhǔ)要关注(zhù)智能驾驶、智慧(huì)城(chéng)市、智(zhì)慧金融和(hé)智能家居几大方向(xiàng),这也是当下市场需求最大(dà)的几个领域。面对(duì)不(bú)同(tóng)的数据领域,云测(cè)数据通过流水(shuǐ)化作业(yè),将(jiāng)各个环节打造成(chéng)不同模块,并配(pèi)合自己的流(liú)程管理工具,优(yōu)化人(rén)员管(guǎn)理(lǐ)、数据采集、数据清洗(xǐ)和(hé)数据标注的各个环节流程,确保内(nèi)部的(de)持续高效能运转(zhuǎn),最终保证AI数据高质产出。
根(gēn)据IDC调查(chá)显示,目前中国大(dà)数据发展处于应用落地阶(jiē)段,整个市场预计(jì)未来五年将保持持(chí)续增长的趋势,年复合增长率将达到17.3%。而得益于(yú)人工智能、5G、区块链、边缘计算(suàn)的发展(zhǎn),未来多方技术融合,数据增长必然呈(chéng)现井喷态(tài)势,数据采集(jí)和标(biāo)准业务作为其(qí)伴生体(tǐ),必然有(yǒu)较(jiào)大的增长空间。
得(dé)益于对AI趋势的判断,Testin云测认为,“人工智能正(zhèng)在逐渐往应用人(rén)工智能(néng)”方向(xiàng)发展(zhǎn),因而云测(cè)数据在成(chéng)立之初(chū),就确定了定制化“精准高质、独立(lì)安全(quán)”业(yè)务方针。本(běn)着这张“王牌”,云测数(shù)据部(bù)门迅速扩充,在以往企业服务(wù)经验(yàn)的完(wán)美嫁接之下,最终让云测数(shù)据成为AI数据(jù)服务领域的头部企(qǐ)业。”
“云测数据(jù)业务规模量每年(nián)都在以倍数的规(guī)模增长,这也与我们所(suǒ)处赛(sài)道的市场深(shēn)度息息(xī)相关,在我看来,整个市场仍(réng)然呈(chéng)现非线性的几何增长(zhǎng)态势(shì),还有很多机(jī)会蕴含其中,有待挖掘。”谈及云测(cè)数据业务线(xiàn)发展状态时,贾(jiǎ)宇航如是说(shuō)。
“安(ān)全”是AI数据服(fú)务提(tí)供商绕不开的命(mìng)题
机会之下,企(qǐ)业端在提供优质数据的同时,也(yě)要注(zhù)意数据(jù)服务过程(chéng)中的规范和安全。
在这方面(miàn),云测(cè)数据通过(guò)自建数据(jù)采集实验室和自建(jiàn)数据标注基地的方式,规范管(guǎn)理(lǐ)专职数据服务团队。这种措施(shī)除了保证标注(zhù)数据的(de)质量(liàng)和效率,也最大限度地保(bǎo)证了数据产出的安全隐私性。
贾宇航(háng)对钛媒体强调到(dào),云测数据自伊始便将数据(jù)安全放在首位,集中表现在以(yǐ)下(xià)几(jǐ)个方面:
第一,不滥用(yòng)数据,数据交付后清毁数据不(bú)留底,绝不(bú)二次使用(yòng);
第(dì)二,不(bú)侵(qīn)犯隐私(sī),与所有数据采集的用户都签订(dìng)数据授权协议,确保AI企(qǐ)业(yè)用(yòng)于训练(liàn)的数据合法合规;
第三(sān),建立相关(guān)的数据保障机制,如从防火墙的设置、内部信息系(xì)统的(de)管护、乃(nǎi)至标准化的流程(chéng)作业体系等。
正如Testin云测CMO张(zhāng)鹏飞多次强调:“即便(biàn)说云测数据(jù)从安全到隐(yǐn)私防护这套体系会加重运(yùn)营成本,但从我们行业大局发展来看,只有以这种(zhǒng)负责的态度来执行(háng)工作,我(wǒ)们的行业才能(néng)‘良(liáng)币驱除劣币’。”