人工标注帮助AI快速落地

随着人工智能的发展，数据的训练量非常大，数据标注公司应运而生，这些公司以网络方式运作，一个平台有产品经理和项目经理，接到一个任务就找人来做，大家通过网络群组报名后，由产品经理来培训，之后各自领取自己的任务，登录账号进行标注，检验经理校验合格后就付钱，不合格则需要重新修正。

“目前已经形成庞大的数据加工队伍，仅北京就有一百多家专门从事数据标注的公司，全国从事这项工作的人大概超过千万，很多头部的互联网技术企业都有自己的数据标注公司。” “这个阶段数据对性能的贡献是最大的，数据越多越丰富、代表性越强、模型效果越好，算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利，但标注公司除外。

国外也是一样，无人零售、无人驾驶等都需要大量的人力，基于用工成本的问题，除了隐私数据之外，他们会把标注工作放在第三世界国家完成，马来西亚、泰国、印度等国家都有数据标注分公司。

(相关资料图)

常见的报道中，数据标注总被描述为“血汗工厂”，这项工作和从业者被描述得廉价低质，人被重复性机械式的劳动异化。

目前这种大量的人工标注是有价值的，因为理论上解决问题很难，但有了大量数据，设计深度学习网络，可以在特定场景特定应用中用数据训练神经网络，从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。

“比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中，无人机拍摄画面后，由人来检测，随着数据量增加，机器得到的训练越来越充分，机器慢慢可以自动检测，类似工作可以很大程度上由机器代劳。”目前人工智能的智能性虽然比较弱，但在各行各业都会带来改变，这是AI推动产业革命的机会。

数据标注需求持续增加

“现在科研界研究的都是无监督、小样本的深度学习，通过三维合成数据，用虚实结合的数据生成方式来训练机器，尽量减少数据的采集和标注，让机器自主学习、自主进化。”但由于缺乏理论上的突破性技术，所以虽然技术增长速度很快，但整体水平还比较低，目前的深度学习还是依赖基于统计意义的大数据模型，这要求数据足够多、足够均衡、基本满足真实世界的分布。

因此，标注这项工作会一直存在。

随着无监督、小样本深度学习的进步，重复性标注的工作量会越来越少。“机器的识别和人一样，人经过几千年的进化，用语言用文字记录和存储几千年的文明，所以看到桌子就知道是桌子，看到灵芝知道是灵芝。机器也需要不断理解更多的内容，有数据标签，它才能学习，才会有智能。数据的加工是一个长期存在的过程，由画框到基础词汇，慢慢形成自己的知识图谱，才能自我推理和思考。”

目前的数据标注公司基本采取“计件付费”的模式，标注员的待遇与任务量和难度直接相关，熟练工一天能标几千张图片，月收入最高过万。这项工作也有一定专业性，受过培训才知道怎么标、标得清楚，人也要认真细心。“每天产生的数据量太大了，数据量持续增加，对标注的需求也持续增加。”