数据标注分包怎么做(数据标注村)
该平台上的20万名零工分布在人力成本低廉的非洲和东南亚,甚至形成了特色「数据标注村」。他们标记的数据支撑着科技企业在AI上的探索。
而中国的上百万名标注员分布在贵州、山西、山东、河南等省份的二三线城市,并逐步向人力成本更低的县城渗透。他们或是依赖线上众包平台,或是加入线下的数据标注公司和标注基地。
标注内容根据场景区分为文本、图像和语音,对应着帮助机器获得识字、识图和听声音的功能。
早期的标注项目集中在互联网企业,主要标注语音和文本。现在则转向自动驾驶企业标注由激光雷达扫描获得的3D场景数据标注分包怎么做,比如点云标注;或是更垂直的文本和语音标注方向:帮助教育公司的大模型提供教辅类标注数据;或是为医疗机构的大模型提供校对后的医疗数据。
当AI迈入2.0时代,ChatGPT惊艳了投资者、企业家和创业者,大家对AI的期待已经不仅仅是死板地识别文本、语音和图片的信息了。人们还希望AI能像人一样真正理解事物之间的联系,识别微小的区别和动作背后的情绪,主动地分辨和搜集信息。
比如让自动驾驶汽车区分前方是一个空扁的塑料袋,而不是一块颜色体积相近的石头;让游泳池旁的摄像头不再只是记录泳池旁发生了什么,而是理解发生了什么,在有人溺水时发出警报。
这些依然需要依赖数据标注,并且对标注提出更高的要求——更垂直、更精确、更节约。
标注市场的热潮也由此开始。
2.“订单多到做不过来”
很难有数据直接说明新的标注需求激增,但这并不难判断。因为仅2023年一季度,中国就新增了17万家人工智能企业,而只要是用到AI的公司,就势必有数据标注的需求。
需求很快传导至数据标注市场。在数据标注从业者聚集的贴吧内,一天能刷新出十几条项目招人的帖子,包括且不限于文本标注、录题审核、无人机售卖视频标注、2D检测杆、3D点云等从文本到图片视频的标注项目。
一位从业多年的数据标注工作者察觉到,今年的无人车标注项目有所增加,而由AI2.0热催生的垂直领域大模型创业,让原本没落的文本标注项目细分至不同赛道,也增加了小众的数据标注的需求。
在需求的推动下数据标注分包怎么做,成立新团队淘金的不止代延。山东东营的张唯在去年底也开始投身数据标注创业,半年发展为一个十几人的小团队。依靠当地政府的补贴和扶持,张唯的公司不仅获得免费的办公室,政府还帮忙拉通甲方资源。
项目订单不少,从最初十几万的项目到最近的40万订单,紧迫的交付任务让张唯更积极地寻找标注工:前几天,张唯仅一天就添置了6台电脑。
在河南郑州,一家做数据标注的众包平台正迁移至能容纳百人的两层办公楼。它们在门口招牌、办公室里都写上公司的定位:“AI人工智能大数据研发基地”“重复的数据清洗,是为了你的AI更智能”。
“标注项目订单多到做不过来。”其负责人说。
一家数据标注公司的乔迁仪式现场(受访对象提供)
热钱也久违地进入了标注公司的口袋。数据标注龙头海天瑞声,在今年的3~5月股价最高涨了4倍。
根据36氪消息,今年以来B轮及以前的十余家数据标注平台,集体迎来了接近100%增幅的高估值。从去年下半年开始,自动标注公司陆续获得新融资。
2022年9月,博登智能获得千万元融资;12月,星尘数据完成A轮融资5000万元,相距上一次2018年6月获得融资已经时隔4年半。
2023年4月,数据标注解决方案公司「恺望数据」获得新一轮战略融资;6月,AI数据公司「整数智能」获得数千万Pre A轮融资。
他们斗志昂扬地打出替代人工标注的口号:“重构数据标签生产”“自动化产线+规模化人力”“打破自动驾驶标注的手工模式”。
显然,资本市场也正重新关注这个新兴领域。
3.更卷,也更严格
数据标注的链条由三部分组成。
上游:1~150人的数据标注公司、线上散兵和小作坊。
中游:数据服务商,一类是承接上下游的中介方众包平台,一类是企业为稳定投入产业而选择自建标注基地。
下游:科技公司、行业企业、AI公司、科研单位,在2018年左右以互联网企业为主导,现在转至车企、自动驾驶企业。
行业普遍采取分包模式,即先由甲方企业发标,第三方服务商参与竞标,竞标成功后进入企业的供应商梯队,其中核心供应商能享受优先任务选择权和更多订单。
企业对核心供应商的要求是拥有至少30人的交付团队,成熟的订单交付经验,建立培训体系、把控交付质量和数量的能力。稳定的生产团队,最终导向让公司更有竞争力的低报价。
然而,管控团队带来的低价优势已然被打乱。“今年竞标惨烈!”一位服务商告诉「甲子光年」,“一个项目我们报200元,有人报80元一天。”
最终项目由报价低的团队拿下,最后却回到更成熟的团队手上。“他们完不成又被甲方转回给我们,但价格已经上不去了。”
由于代延的线上团队不直接接触甲方。所以市面上多级分包层层压价的混乱局面,让他们倍感压力。
数据标注是资源型行业,谁能拿到和甲方的合作谁就有优势。代延透露,一些个体注册公司后,谎称有40-50人的专业团队,以极低的价格参与投标,拿下项目后,拆分成4-5份分给不同的团队,小团队再往下分,层层抽佣,中间商赚到差价,分给数据标注工的计件价越来越低。
只要有人接盘,就会一直螺旋向下。
「甲子光年」得到的一份价格表显示,从2D标注到3D激光点云标注,标注项目单价一般为0.5~1.5元/框。代延曾接到过打了对折的单框价,“至少转过四五手了”。
单价内卷直接导致标注人员的薪资缩水。代延和团队属于半全职状态,团队成员多为宝妈、大学生、自由职业者和职高学生,每天拉框6小时。保持着这样的状态,代延在2022年疫情期间,每月有4~5千元的收入。
“有电脑、有电就能操作”,这是数据标注招人贴中常见的吸引人入行的话。过去,这一度是数据标注行业最显著的优势。但今天这种优势却让整个行业陷入内卷。现在代延每月收入只有2~3千元。
虽然收入降低,但工作量并没有下降。恰恰相反,数据标注的工作更加复杂与细致。
数据标注的资深从业者们更怀念互联网时期的标注市场:单框价格高3倍,项目量大。一个60~70人的团队,能拿到月入30万的业绩。“现在市场上都是产值(单人每天标注产生的价值)不到百元的项目,以前一天大几百。”一位从业者说。
那时的项目操作简单且没有要求,比如给无人车做2D场景标注,对图片中的车辆拉框时,只要能框住就行,没有要求。
但现在不同,“贴合度”是甲方最看重的验收标准。“去年还要求误差在5~7毫米,今年就要3~5毫米了。误差要求越来越小。”代延说。
人工智能学者吴恩达多次强调,有标注的高质量数据才能释放人工智能的价值,高质量数据越多,人工智能的发展就会越快。
在无人车的标注数据中,表现为矩形框与标注对象的贴合度,贴合度越高算法精度越高,算法对车辆的控制越精准。
高质量的文本标注项目,表现为语义理解的正确性、答题的正确率等。正确率越高,被训练的大模型越聪明。
熟手才能保证数据交付又快又好。代延曾经让一个新手参与核验ChatGPT做完的数学题是否完整、逻辑是否正确、语言能否被小学生理解。新手标注的7500个数据因正确率太低,被甲方要求返工,代延和同事花了十几天才纠正完。
数据标注越来越不是一个没门槛的活。复杂的语音标注,医疗、法律、金融等专业数据集标注生产,更需要有学科知识储备的专业人才做专业标注。
代延认为,以无人车项目为例,新人成为2D标注熟手需要做3个月,成为3D熟手需要练习4~6个月。
这种练习是指,训练拉框的精确度,用鼠标在电脑的标注页面一气呵成拉出一个矩形框,能准确盖住标注对象,不踩线、不漏点,甚至是严丝合缝。
文章评论(0)