数据标注,从蓝领到白领_澎湃号·湃客_澎湃新闻-The Paper
自动驾驶和大模型极大激发了数据标注的需求,但这个行业也从之前的纯人工标准,开始向自动化标注和更智能的数据工程平台过渡。
文|徐鑫
编|任晓渔
AI应用落地热潮正推动数据标注市场进入新一轮洗牌期。
大模型和自动驾驶领域的AI需求搅动了数据服务市场,数据标注服务商整数智能CEO林群书告诉数智前线,今年以来他们接到了非常多基于大模型训练场景的订单,市场需求量呈现出了一条比较陡峭的增长曲线。
新的应用场景对服务商的能力提出了新要求。一方面,不同于传统深度学习算法,大模型场景下数据处理流程中,在数据需求量最大的预训练环节,使用的多是无标注或弱监督标注数据。更多的人工标注需求出现在预训练环节之后的微调(SFT)以及基于人类反馈的强化学习(RLHF)阶段。微调和对齐时,人工标注的质量会极大影响模型在生成内容时的智能水平,这对人工标注的数据质量提出了更高的要求。
另一方面,AI技术的进步正推动行业从人力密集型向自动化标注转变。
新一代数据标注服务商已经基于机器学习算法,探索构建更智能的数据工程平台,提升数据标注的自动化水平。而原本处于数据服务下游的算法研发平台及科技企业自身也在尝试把大模型技术用到了自身的数据标注场景,例如商汤科技在自动驾驶场景基于视觉大模型技术,降低了人工数据标注的数量,大幅提升了数据标注效率。
大厂也加速进入这一市场。由于看中了大模型训练的算力市场,不少模型提供商提供了AI训练全家桶,数据标注被纳入了大厂的服务范围,这可能正加剧行业的竞争。
数据标注自动化水平提升,拉高了服务标准,同时还在释放行业的降价空间。一位资深人士称,今年数据标注市场或许会加速向技术型玩家集中,单纯依靠人工标注的企业生存更为艰难,市场正开启淘汰赛。
01
AI落地潮催熟数据标注市场
数据被认为是人工智能智能化水平提升的燃料。过去两年里大模型和自动驾驶等领域里的AI落地热潮正在催热数据标注市场。
据信通院数据,OpenAI 2020 年推出 GPT-3 以来,超大预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长。大模型热潮使得国内的数据标注公司也受到了不小关注。今年以来,国内的老牌数据标注企业海天瑞声备受瞩目,该公司高管在接受采访时称收到了大量问询。
今年2月,海天瑞声还专门发布了公告,称公司尚未与OpenAI开展合作,收入结构中有大约90%的贡献来自于智能语音和计算机视觉业务领域,自然语言业务对公司整体贡献大约在10%左右。
虽然与大语言模型直接相关的训练需求,在这家老牌数据标注服务商的业务占比不大,但市场对数据标注厂商的热情依然迅猛。海天瑞声今年股价实现了大幅上涨,波动范围从31.28 元最高到过192.69元,虽然目前股价已回落到百元以内区间,但仍较年初水平翻倍。
除了老牌数据标注商的股价飙涨,新兴的数据标注创业公司也明显感知到了这股趋势。 整数智能CEO林群书告诉数智前线,今年他们能看到两个领域的数据标注需求非常明显,一个是自动驾驶场景,另外一个就是大模型,这也是他们重点布局的两大领域。
业界观察,大模型的训练方式与此前的深度学习算法的开发范式并不一样:大模型的预训练环节需要的数据量比较大,但这一环节通常会采用弱监督或无监督数据,对数据标注的需求增加并不明显。而在预训练环节之后的微调和基于人类反馈的强化学习阶段,则需要高质量的人工标注数据。比如,此前工行的技术专家在华为云论坛上分享训练自己的大模型应用时提到,在微调阶段需要体系内的业务专家们去标注金融相关的数据,这已不是普通数据标注员能完成的作业。
林群书介绍,目前他所在的整数智能已经针对大模型不同阶段的数据需求向企业提供不同的数据服务。比如针对需要做模型训练但自身没有专业获取数据来源的团队,提供从数据标注工具到定制数据集的整套服务。
自动驾驶也是近年来另一个对数据标注服务有大量需求的场景。根据德勤今年3月份的一份报告显示,2022年自动驾驶领域在人工智能基础数据服务的整个下游应用占比约为38%,到2027年这个比例将增长到52%。
这一场景的数据需求暴增与自动驾驶场景特性有关。车企对数据标注的要求相比其他行业更高。林群书告诉数智前线,目前国内车企也在对标特斯拉的数据闭环方案,能服务这个场景的数据服务商需要有专门的自动化标注平台与专业的标注工具,例如4D标注工具,同时需要一整套完整的解决方案。
另外,出于对安全考量,车企对数据标注的准确度要求通常在99%以上,这实际上也大幅提高了对数据服务商的要求门槛。
整体而言,数据标注市场需求在大量释放的同时,门槛也进一步拉高。
02
从“靠人工实现智能”到智能化工程平台
过去十年,深度学习和人工智能技术,基于标注好的数据,智能水平有了巨大的突破。
张宏江院士今年年初在一场有关大模型的演讲中提及,伴随算法的进步实际上数据层面发生的变化也非常明显,从最开始人工的标注,到开放的数据集分享,现在发展到数据自动标注和深层研究。这也是国内数据标注领域里正在发生的现实。
行业内最经典的人工数据标注工作,当属 ImageNet数据集。2007年开始,人工智能学者李飞飞在美国普林斯顿大学任教期间,启动了 ImageNet的标注工作。通过亚马逊 Mechanical Turk 在线众包,李飞飞团队利用了67 个国家的 49000 人次,花费两年半的时间,最终标注了1500 万张图片。这个庞大数据集为后来深度学习算法的良好表现打下了基础,无怪乎有人称李飞飞为深度学习之母。
而数据标注作业能从纯手工标注逐渐往自动化标注及更智能的数据工程平台过渡,实际上与这个细分行业的特性有关。
一位业界人士告诉数智前线,数据标注工作本质是要把日常生活中这些非结构化数据翻译成机器能理解的结构化数据。而无论是结构化还是非结构化数据,数据的模态是有限的,包含图像、音频、视频、文本、点云等有限种类。另外,在实现人工智能的数据工程任务时,不同模态数据要完成的是有限个子任务。以图像领域为例,要识别图像信息,共包含了目标检测、语义分割、目标跟踪等十个以内的子任务。
专业的数据服务商可以针对所有模态数据的子任务,做出针对性的数据标注工具,并从中提炼出标准化流程,更高效完成数据的采集和标注,从而服务和满足人工智能应用和不同场景的需求。
过去十余年,国内数据标注最初是纯人工完成,随着人工智能算法发展带来的数据标注任务增加,一些软件公司开始开发众包的数据标注平台,从而更高效组织和管理人工标注任务的分发,控制流程,推动人工数据标注及质检工作的流程标准。
数据标注作业朝向自动化迈开步伐,时间节点在2017年~2018年。当时行业里发现,随着自动驾驶这样需要处理海量数据的场景出现,一个场景要标注的数据体量可能达到几千万张图片规模。在这样体量的需求前,人工完成数据标注任务,一致性管理和进度追踪变得极为困难。
一方面人工要完成千万张图片级别的数据标注,通常需要几百人团队花费大半年以上的周期。
同时,众包平台的人工标注作业可能会因为一致性管理难,而出现准确率不达标等情况,需要返工,这可能进一步拉长作业周期。
业界开始探讨用人工智能来减少标注工作量。比如训练一个人工智能算法,对标注任务进行预标注,再由人工去做精加工。预标注过程能大幅减少人工标注数量,同时由于筛选标准统一,结果的一致性更高,数据标注的质量也能提升。
目前,国内已经有不少企业把大模型技术应用到了数据标注场景。商汤科技联合创始人、大装置事业群副总裁陈宇恒此前接受数智前线采访时提到,在自动驾驶场景里,商汤正通过大模型去对自动驾驶的路测回流数据做挖掘、自动标注、泛化与重建,大幅提升了自动驾驶算法迭代所需的高质量数据规模化生成效率。
商汤绝影产品总监Larry方面还透露,目前商汤绝影智能驾驶主要模型训练所依赖的标注已经大部分采用大模型自动标注技术,全自动标注和半自动标注(采用人工抽样质检)基本已经代替了人工标注,成本和时间周期均大幅下降。
今年4月,海康威视在一季度的财报电话会上向投资者答疑时也提到,他们也在将自研AI技术用到自动化标注场景,“用同样的人力投入, 数据标注的数量可以提升 10 倍”。数智前线获悉,网易旗下的伏羲有灵众包平台已经在控制成本、缩短任务周期、保证质量等方面融入了一系列的前沿算法,将人工标注数据反哺 AI算法,实现人机协作任务处理。
一些新兴的数据标注服务商们试图再往前一步,建设更通用的数据工程平台,在一些跨行业或跨场景的算法自动化标注减少工程师需要额外调试的时间。老牌厂商海天瑞声就计划启动领域里的垂直大模型研发,把大模型的泛化能力应用到数据标注领域。
整数智能则开发了智能数据工程平台(ABAVA Platform),希望适用所有的模态数据及更普遍的行业场景,他们还将MLOps模块集成在数据工程平台上,使得平台可以以插件的形式使用内外部的算法模型,用于提升数据标注以及智能审核的效率。林群书介绍,“通过把一套Machine Learning Ops的系统集成到了整个数据工程平台,每次完成的数据都可以用来迭代自动标注算法,使得自动标注算法不断学习垂直场景数据,变得更加聪明。数据标注也能形成数据应用的闭环和飞轮。”
在数据标注的智能化演进路径里,也有观察人士评价,人工标注师们的努力正推动算法进步,最终使得自身被算法汰换。
03
淘汰赛开启
对投资人工智能的企业而言,数据标注是项长期成本,只要企业还期望提升算法的智能程度,每年对数据标注的需求和投入就稳定存在。
也有应用开发方在训练算法时会干脆不靠外部标注商,自己投入力量来标注数据。例如不少互联网平台就建设了数据标注众包平台,这些企业有大量的人工智能算法及AI应用开发需求,自建团队对这些企业而言能更方便满足业务的数据需求。
但这个行当的进入门槛相对不高。据了解,前些年在一些人力资源充足地区如山东、山西、河南、贵州等地,出现了不少数据标注基地,大量廉价的劳动力资源是这些标注基地生存发展的重要原因。
大模型时代到来后,数据需求方对人工标注的数据要求在提升。例如,业界发现微调环节的反馈和数据质量正大大影响模型的智能度,在一些前沿的研究论文里就已经在指出,扩大数据量而不同时扩大提示多样性时,收益会大大减少,而在优化数据质量时,收益会大大增加。为了提升模型表现,数智前线了解到,今年4月国内某头部大模型提供商就专门组建了更专业的标注团队,标注员要求本科以上学历。
算法类企业自身离数据和人工智能算法近,他们也在用大模型来提升自身的数据处理能力,比如海康威视、商汤科技,此前被行业里划为应用开发或算法研发环节,现在他们也有一些智能化工具和应用来提升数据标注效率。
大厂内部的数据标注平台的服务方式也在发生变化。由于看中了大模型带来的算力市场,大厂正在提供一站式服务,其中包含了AI训练的工具链、数据标注的工具等。数据标注被纳入AI训练全家桶,统一对外服务。一些分析人士认为,这种模式下,大厂的数据标注服务可能变得比以前更有吸引力,可能会挤占第三方标注服务商的生意。
不过也有业内人士认为,大厂内部建的数据标注平台有一些局限。这些基于内部数据需求和业务场景出发来建的平台,通常很难应对市场多样化的数据标注任务需求。另外该资深人士也认为,一些企业还有私有化部署的需求,从合规角度需要把训练任务放在本地,专业的数据标注服务商更擅长满足这部分需求。
林群书也提及,医疗行业就更倾向用私有化部署去保护数据安全。医疗行业里的客户会从标注环节开始,整套系统和标注平台做私有化部署,整个平台放内网,然后这些机构会自己安排一些医生上来做数据标注。
同时,新兴的AI场景也对数据标注服务商提出了更高要求。例如自动驾驶领域,如果一家数据标注服务商没有4D标注工具和能力,现在可能没有办法跟主机厂合作。
总之,市场开始变得更卷。更多类的参与主体,行业里的智能化、自动化趋势使得从前单纯叠人力、没有技术含量的数据标注范式逐渐在丧失生存空间。
林群书透露,由于智能化工具减少了人工标注的工作量,同样的数据标注任务他们可以用更少的成本达到更高质量的标注。由于有了技术红利,他们还能释放一部分成本优势给客户,降低单位数据标注任务的价格。
这是一个持续有需求的市场。2019年艾瑞咨询的报告中评估,市场在2025年将达到百亿规模,但实际上,业界人士评估目前国内市场整体规模可能在今年就已经达到了百亿水准。市场需求正在加速释放,行业正在从劳动密集型向技术密集型转变。
一位业界人士称,一场淘汰赛已经开启,行业内竞争加剧,今年剩者为王更为明显。