逐浪AIGC⑲|AI催生“数据标注员”需求 数据质量或释放更多价值 - 21经济网
南方财经全媒体记者江月 上海报道 人工智能产业发展催生了“新流水线工人”,时薪介于10元至30元之间,它时髦的新名字叫“数据标注员”。
人工智能大模型给人们带来强烈的智慧冲击,令人惊叹于它前沿的神经网络研究、精密的计算机设备和光鲜亮丽的精英人才结构。然而,这种智慧背后还有极致枯燥的工作。
近期,南方财经全媒体记者留意到,全国多地数据标注招聘市场火热、相关创业模式也不断涌现。提升数据质量成为人工智能开发商“弯道超车”的一记策略,但为相关劳动者提升工作价值,也是长远发展中不容忽视的问题。
数据标注市场需求大增
“10元-30元/小时(与项目难度呈正相关,3D类>语音类>2D类>普通拉框转写类、打码类)。”4月13日,南方财经全媒体记者在招聘App“Boss直聘”上看到一则招聘广告中如是写道。在AI产业中,这类岗位令人联想起电子厂的“流水线”工作。
2023年春天,市场的关注度被“大模型”吸走了一大半,但有一批公司正转移到“数据端”另辟蹊径,这是他们抓住这波AI浪潮的机遇。
算力、算法、数据,是人工智能的“三驾马车”。一位从事计算视觉的程序员告诉南方财经全媒体记者:“对某些公司而言,算力、算法提优,远远没有数据提优的效益大。”
眼下,算力和算法的赛道上,头部公司最为耀眼。无论是微软、谷歌、OpenAI,还是华为、阿里、百度,对大模型斥下的资金成本令其他公司望尘莫及,购买芯片动辄上千万元,高薪聘请(或“挖角”)人才更不计代价。
不过变革席卷全行业,“幕后英雄”也浮出水面。4月初在复旦大学举行的一场研讨会上,计算机科学技术学院教授、MOSS系统负责人邱锡鹏提到,OpenAI的成功不止来自大家津津乐道的模型、微软提供的昂贵算力,也得益于外包的专业数据清洗公司。
美国某高校数据分析硕士专业毕业生李梦(化名)告诉南方财经全媒体记者,她目前正在一家生物医药公司实习,所做的工作正是优化数据标注程序。
“大模型依赖数据训练,但要先做好数据采集、清洗、标注和质检。”李梦介绍。
数据标注领域知名学术人物李飞飞,在2009年发布了ImageNet数据集的论文,激起一场算法竞赛。依托ImageNet海量得到标注的图片,算法公司展开了图像识别的竞赛,最低错误率者获胜。直到现在,很多人将ImageNet视为本轮人工智能浪潮的催化剂。
如今,数据标注依然如此重要,且有更大需求量。人工智能在哪个行业施展拳脚,就需要哪个行业给模型大量“喂料”,这不局限于城市安防、物联网、交通、生物制药。
数据标注的“颗粒度”也在提升。4月5日,Meta人工智能实验室发表了有关Segment Anything这一计算视觉模型和数据集的论文。论文中提到,需要人工标记的图片高达12万张,平均每张图片有44个图层,每个图层的标注时间需要14秒。总体计算之下,人工标注的时间需要20533个小时。如果聘用一个百人团队每天工作9个小时,这需要23天。
枯燥无味的流水线工作
“如果数据量太大,一般公司会雇外包公司承担。”李梦向记者指出。外包公司将数据标注变成了算计件工分的一种工作。
按照前述Boss直聘App上的广告,时薪价格依据工作内容不等。时薪能达到30元档的是指3D类工作,一般是对实际场景中的特定事物进行标注,例如对一条道路上的雷达车道线、雷达目标拉框。接着是语音类,是指对音转文、方言转写、唤醒助手等进行标注。
2D类被认为更简单,是指对平面图像、文字段落进行标注,或者是OCR(文字识别)转写,例如对交通违规图片里的人和车、红绿灯、交通标示进行识别。
价格最低的打码类,是指验证码里的计算题、哪些图片中含有火车这类工作。
“数据标注十分枯燥无味,纯体力活,每标注200个就有一种想吐的感觉。”正在浙江某高校读研的小何对南方财经全媒体记者表示。
以此谋生的数据标注师,工作强度可能更为难忍,除了需要耐心在电脑前面坐上几小时、耗尽眼力,可能还要面对原始数据里的限制级内容,涉及性、暴力、仇恨言论等。
数据标注产业正在持续爆发。早在2021年,人社部就发布了《人工智能训练师》国家职业技能标准,覆盖数据标注员、人工智能算法测试员两个工种,反映当时相关产业已经成势。这份标准将人工智能训练师分为5个等级,从初级工到高级技师。
数据标注看似“无脑”,但却因实际落地需要而需要严谨的工作态度。比方说,如果对自动驾驶领域的标注缺乏质量把控,那么相关软件就无法令汽车安全地行驶在道路上。
然而,围绕着数据标注员的低薪、长期伏案、内容重复和精神压力,社会舆论也正围绕着相关职业保护而发酵。如果无法改善数据标注师的工作环境、提升价值,这种职业的长久性仍令人存疑。
市场前景看涨
近期,南方财经全媒体记者从数个招聘渠道了解到,从北京、上海、广州到陕西榆林市清涧县、“大数据之城”贵阳市的惠水县百鸟河数字小镇,数据标注公司正在市场上急迫地发出招聘广告。与此对应的是,数据标识公司本身也被视为利益潜力大增的投资标的。
记者发现,数据标识行业“个体户”正大量涌现。在百度贴吧上,大量项目正在召集所谓“团队”接标,从发帖内容可以看出,只要有一个相对固定人数、固定工作时长的团队,就可以接下大公司分发下来的项目标。有从业者介绍,刨去场地租赁、电脑和桌椅配置、每月水电费、人工开支,这种个体分包商赚取的是中间差价。
不过,这个行业当然也正向着规模化、公司化的方向发展。行内有两种类型的公司,一种是大型互联网公司的内部部门、一种是外包公司。后者正成为资本市场上的“香饽饽”。
2021年登陆科创板的海天瑞声,今年股价从1月初的60元水平一度暴涨至超过200元。该公司从事语音识别、语音合成、自然语言处理、计算机视觉等数据集技术开发。2022年,该公司收入达到2.63亿元,和2021年相比仅增长27.3%,净利润则微跌6.56%至2953万元。尽管如此,按照4月12日收盘价每股187元计算,该公司市值已经达到80亿元,动态市盈率为326倍。
未上市的公司也获得了更多的资本青睐。2022年12月,星尘数据完成A轮融资5000万元,相距上一次2018年6月获得融资已经时隔4年半。这也反映,资本市场可能正重新关注这个新兴领域。
“由于‘廉价劳动力’常常是数据标注公司的招牌,致使其无法获得足够的重视。”星尘数据在其官方一篇新闻稿中这样写道。该公司称,正通过自动化来提升标注效率。
人工智能的飞轮滚动,数据还在海量增长。数据公司Exploding Topics的数据显示,2023年全球新增数据或将达到120ZB,2025年近一步达到181ZB。其中,美国、德国、英国、中国是排名前四的数据产生大国。
不过,业内正在争议“以数据为中心的人工智能”是否将取代“以模型为中心的人工智能”。知名人工智能学者吴恩达(Andrew Ng)是前一论点的持有者,他曾多次强调,有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展会更快。
基于原始数据增长而产生的数据标注,因此也仍继续扩大,并将市场需求而价值波动。华经产业研究院在近期的一份报告中预测,到2029年中国数据标注市场规模将达到204.3亿元。这和2019年的43.3亿元相比,增长了大约3.7倍。
数据标注行业能否在未来去除“人力工厂”的标签,又将如何用自动化和技术手段提升数据策略、融入AI更高阶的发展浪潮中?人们拭目以待。