“抬头是山,低头是煤。”曾在山西传统煤矿工作8年, 整(zhěng)天盯在电脑屏幕(mù)前监测矿井瓦(wǎ)斯浓度的郭梅(méi)从(cóng)来没有(yǒu)想过,有一天(tiān)自己的工作会和(hé)人工(gōng)智能有(yǒu)了联系。
两(liǎng)年前,因(yīn)为孩子来省会城市(shì)太原上学,郭梅在附(fù)近(jìn)求职,做起了数据标注。同样(yàng)是盯在电脑屏幕前(qián),现在郭梅每(měi)天的工作是给图片、文本或者(zhě)声音进行标(biāo)注,再把它们交给(gěi)机器训练(liàn)和学习。从(cóng)一开始(shǐ)每天只能标(biāo)注两三百(bǎi)张(zhāng),到现在的(de)日均完(wán)成1300多张,郭梅按件计酬(chóu)的收入(rù)逐渐提(tí)升(shēng),已(yǐ)高于当地(dì)平均收入水平。
人(rén)工智能行业里有(yǒu)句(jù)话:有(yǒu)多少智能,背后就(jiù)有(yǒu)多少人工。像郭梅一样,AI数据(jù)标注师成为了随着(zhe)人工智能(néng)发(fā)展而出现的新兴就(jiù)业(yè)岗位。2020年2月,“人工(gōng)智能训练师”正(zhèng)式成为新职业并纳(nà)入国家职业(yè)分类目录。
他(tā)们被称为人工智能(néng)背后(hòu)的人。数据采集和标注是他们(men)的主要工(gōng)作,目(mù)的就是(shì)要教会(huì)AI认识(shí)数据,转化成AI能消化和吸收的“语言”。有(yǒu)了足(zú)够(gòu)多(duō)、足够好的数据,AI才能够学(xué)会像人类(lèi)一(yī)样(yàng)去感知、思(sī)考和决策(cè),更好(hǎo)地为人类服务。
这项工(gōng)作看起(qǐ)来简单枯燥,但(dàn)意义非常。“就像一台车没有汽油走(zǒu)不了(le),数据就是人工智(zhì)能发展的燃料(liào)。有了(le)我们的(de)数据,机器(算(suàn)法)不断迭代,就(jiù)能推动(dòng)人工智能(néng)往更好的方(fāng)向发展。” 从事数据标注(zhù)的山(shān)西麟诺公司总经(jīng)理李应维对第一财(cái)经表示。
“从没(méi)想(xiǎng)过做(zuò)人(rén)工智能”
20出头的李宇(yǔ)龙从未亲眼见(jiàn)过自(zì)动(dòng)驾驶汽车,但他的工作却和自(zì)动驾驶的AI算(suàn)法息息(xī)相关。
他曾经在(zài)生产电子(zǐ)类产品的(de)工厂工作,转做AI数据(jù)标注后,老板交给他的(de)第一个项目(mù)就是“车道线打点”。
简单来说,就是给无(wú)人驾(jià)驶进行车道线标注(zhù)。当无人车行驶(shǐ)到(dào)一(yī)段路时,会自动连续拍摄图片,李宇龙要做的,就是对图片(piàn)上(shàng)车辆(liàng)所行驶的(de)车道旁边两侧的线进行(háng)标注,识(shí)别虚线还是实线,匹(pǐ)配所对应的属性,从而告诉人工(gōng)智能(néng)遇(yù)到虚线时车辆可以进行变(biàn)道,实线不可以进行(háng)变道。
当时(shí)的李宇龙(lóng),还不知(zhī)道(dào)数据标注师到底(dǐ)是什么(me),更对人工智能没有具(jù)体概念,老(lǎo)板只交给他一套规则,让他按照规则在电脑(nǎo)上(shàng)认车道线(xiàn)。好学的(de)他在短时间内就掌握了规则和难点,总结出了(le)标注车道的规(guī)律。
他把自(zì)己的工作比(bǐ)作“幼教“,当他(tā)拿出一个红苹果给(gěi)机器并教会它(tā)识别,再拿一(yī)个(gè)绿苹果给它(tā)时,因为颜色(sè)差异,机器就(jiù)无(wú)法认出了。李宇龙的工作就是不断地帮助机器(qì)识别不同的颜色、大(dà)小,甚至是被咬了一口的苹果或是坏(huài)苹(píng)果,直到随便拿出一个苹果,它都能认出来。
李宇龙告诉第一财经记者,数据标(biāo)注的工作是“按件计(jì)酬”,他的日均收入在300元左右。数据显示,2019年,太原市的城(chéng)镇居民全年人均可支配收入36362元。他(tā)说,自己的工资(zī)水平在整个(gè)基地(dì)标注师日均(jun1)收入(rù)中处于中等(děng)水(shuǐ)平,“据我了解,有人(rén)日均收入甚至能破千。”
对于自己(jǐ)的(de)工作,李宇龙说,刚开(kāi)始(shǐ)接触时,只把它看做一(yī)个重复性(xìng)的工作,并没有想太多。直(zhí)到后(hòu)来(lái)接触项目多了,涉(shè)及(jí)的领域包括教育、安防、金融、交(jiāo)通(tōng)医疗和(hé)电商等,每天都在挑战学习能(néng)力,也会想要更深(shēn)入了解自己标注的内容可以应用到的行业。 虽然还(hái)没有坐过无人车,但(dàn)他说,现(xiàn)在看到无人驾驶的时候,会想到这里(lǐ)面也(yě)包含了自己的标注(zhù)成果。
像李(lǐ)宇龙(lóng)、郭(guō)梅的工作一样,第一财经(jīng)记者看到,在每一间数据标注的办(bàn)公室里,都是(shì)类似的工(gōng)作场景:一排(pái)排电脑屏幕前,年轻的数据标注师根据(jù)各自分配(pèi)的(de)任务,对文本、图片(piàn)、语(yǔ)音和视(shì)频做标(biāo)记、标重点、打标签、框对象(xiàng)、做注释等(děng)方式(shì)对(duì)数据集(jí)作出(chū)标注,他们可能在为无人车标注车道线、红(hóng)绿灯,也可能是在为(wéi)肺部影像标注病(bìng)毒数据。
以人脸为(wéi)例,目前能实现对约(yuē)150个特征点的标注。疫情期间,采(cǎi)集大量(liàng)的戴(dài)口(kǒu)罩的(de)人脸照片后,数据标注师(shī)对人脸(liǎn)的眉毛(máo)、眼镜、颧骨等(děng)人脸关键点(diǎn)进行精准标注,标注特征(zhēng)点越多,AI就(jiù)越能精确识别出戴口(kǒu)罩场(chǎng)景下(xià)的(de)人脸。最终实现(xiàn)即使不(bú)摘(zhāi)口罩,也能精(jīng)确测量体温,或是通(tōng)过人脸闸机(jī)。
是不是“AI富(fù)士康(kāng)”?
数据标(biāo)注产业促进了不少城镇和农村就业,在河南、河北、贵(guì)州等地,还出(chū)现了一些特色的“数据标注(zhù)村”。
据IDC统计,全球每年生产的数据量将从(cóng)2016年的16.1ZB猛(měng)增至2025年(nián)的163ZB,其中80%-90%是(shì)非结构化数据,这些数据经过清洗与标注才(cái)能被唤醒价值。在我国,每年需要进行标注的语音(yīn)数据超过200万小时(shí),图片则(zé)有数亿张(zhāng),这就产生(shēng)了(le)源(yuán)源不断的清洗(xǐ)与标注需求。 李应维对第一(yī)财经记者说, 他预计(jì)明年(nián)企(qǐ)业(yè)的用工将翻一倍,从(cóng)160多人(rén)扩展到300人左右(yòu)。
李应维公司所在(zài)的百度(山(shān)西)人(rén)工智能基础(chǔ)数据(jù)产业基地,已经成(chéng)为中(zhōng)国人(rén)员和产(chǎn)值规模(mó)第一的单体数据标注(zhù)基地。AI数据(jù)标(biāo)注师从业人(rén)员超过(guò)2000人(rén),实现营业(yè)收(shōu)入超(chāo)亿元,企业入(rù)驻35家(jiā)。该基地计(jì)划在未(wèi)来(lái)5年培(péi)养5万名AI数据标(biāo)注师,并(bìng)引入更多AI合作伙伴。
百度(山(shān)西)人工(gōng)智能基础数据产(chǎn)业基地负责人尉(wèi)赤告诉记者,人工智(zhì)能是个高速发展(zhǎn)的行业,数据(jù)服务又与人工智能息(xī)息相关(guān)。“我(wǒ)们的线上众包注(zhù)册用户有将近2000万人,目前每个(gè)月在线上(shàng)为我(wǒ)们提供(gòng)服务的人将近5万人(rén)。如果(guǒ)按(àn)照行业增长速度来看(kàn),培养5万人还(hái)不一定(dìng)够。”
不(bú)过,数据标注师看上去是(shì)人(rén)工智(zhì)能领域一个“入门”工种:技术门槛低,招工人群范围广泛。他们通(tōng)过每(měi)天数千次的重复动作(zuò),和最(zuì)前沿科技的人(rén)工智能(néng)产(chǎn)生联系。也因此,外(wài)界(jiè)给这(zhè)个行业贴上了“AI富士康(kāng)”的标(biāo)签。
数据标注带来了技术红利,但如果人工智能发展到一定(dìng)程度(dù),甚(shèn)至有可能够取代(dài)数据(jù)标注师的工作。
艾(ài)瑞(ruì)咨询在一(yī)份(fèn)人工智能相关报告指出,随着(zhe)算法需求越来越(yuè)旺(wàng)盛,依赖人工标注不能满足(zú)市场(chǎng)需求,因此(cǐ)增强数据(jù)处理平台持续学习能力(lì),由机器(qì)持续学习人(rén)工(gōng)标注,提升预标注和自动标注能力(lì)对(duì)人(rén)工的替(tì)代(dài)率将成趋势。此外,随着 AI对数据的要(yào)求越来(lái)越高,数据标注行业也(yě)正逐步进入精(jīng)细化阶段(duàn)。
对于数据标注这一职业的未(wèi)来,李应维对记(jì)者举例,自(zì)己(jǐ)公司一名员工入职后,因为(wéi)表现优异,不久已被百度公司聘用。而且,数据标注(zhù)师也在(zài)为人(rén)工智能培(péi)养和(hé)发(fā)现人才。
尉赤则认为,目前大家更多地(dì)聚焦在数据加(jiā)工这件事(shì),但如果再往(wǎng)前看,更多的是数据的优化、还有一些相关的解决(jué)方(fāng)案。数据(jù)标(biāo)注(zhù)是一个很好的(de)入门,进来之后(hòu)有机会更深度(dù)参与到(dào)产业链协(xié)作当中,例(lì)如后续当数据(jù)标注越来越机器化,人工(gōng)和自动(dòng)化之(zhī)间要有(yǒu)机(jī)的协同,这也(yě)对员工提出了(le)更(gèng)高的要求(qiú)。
此外,当数据标注越来越机(jī)器(qì)化,人(rén)工智能(néng)训(xùn)练师是一个转换工种的机(jī)会,标注员们现在标注数(shù)据,未来可能(néng)向数据治理、数据(jù)解决方案设计(jì)和项目管理等方向发展。
例(lì)如,现在李宇龙(lóng)的工作(zuò)重心已经转(zhuǎn)向培训(xùn),同(tóng)时(shí)接触到更多(duō)的(de)项目管理,根据每个(gè)项目对应(yīng)的特点判断与之匹配的(de)能力。 在他看来,自己比很多传统行业的人们更早地(dì)接触到未来的发展(zhǎn)方(fāng)向和未来的生(shēng)活、工作(zuò)场景,“看到了未来的发展需求,也就比(bǐ)别人(rén)更早找到更多(duō)发展(zhǎn)机会。”