数据标注是人类与AI合作最完美的途径之一

yingujun 2020-06-18 3499

电子说

1.4w人已加入

描述

众所周知，机器学习主要分为两类：监督学习（supervised learning）与无监督学习（unsupervised learning）。而监督学习离不开数据标注（data labeling），也就是依靠人工找到groundtruth。烧钱速度有多快？近年来，我们注意到，数据标注创业公司层出不穷。只要在图片中标注一辆汽车，只需一秒钟，就能轻轻松松一美元进账。标注一段几十秒视频中的汽车，就能几百美元进账。数据标注的成本与需求都在节节攀升。据市场研究预测，到2023年，数据标注市场将达到10亿美元的规模。这些数据标注公司一般会开发出基本的物体识别算法，然后在人工成本较低的地区招人，培训他们，让他们找到机器识别中的错误，改正之后提交。比如，一些总部在硅谷的公司会在比较偏远的州建立分部，进行数据标注。也有很多公司将业务外包给数据标注公司，这些公司的员工一般在非洲国家、印度或者其他人工成本较低的国家。对数据需求量大的公司，每个月支付给外包公司上百万美元，才能满足开发需求。数据标注不仅消耗资金，也是训练模型中最耗时的环节。从数据采集到最终标识，很可能要等待一个月的时间。严重影响了开发进度。因此，很多无人驾驶公司开始研究数据标识，希望不再依赖人力与第三方公司。

印度数据标注公司iMerit数据标注无处不在训练无人驾驶的模型就需要理解各种障碍物的含义，就离不开数据标识。无人驾驶的数据标识主要可以用两个维度来看。第一个维度是2D和3D的分别。2D一般指通过摄像头捕捉到的数据，3D指激光雷达捕捉到的数据。第二个维度是语义分割（semantic segmentation）与画框（bounding box）的分别。

3D语义分割的例子鱼和熊掌不可兼得数据标注的难点主要来源于两个方面：速度与质量。速度慢了就满足不了模型训练的需求，而太快就会影响质量，质量低了就会影响模型的准确性。在资源有限的情况下，速度与质量往往鱼和熊掌不可兼得。我们可以通过两种手段来解决这一矛盾：合理的流程和更自动化的机器学习技术。首先来看流程。数据标识速度慢，或是质量低，其实很多时候不是技术的问题，而是流程的问题。数据从采集到产出，首先要被“筛选”，分发到数据标识人员的手上，然后被标识，标识的结果再被传回来，最后需要抽检，保证质量。这些步骤中很多地方需要改进。比如，哪类数据应该被筛选？质量不合格的标识该怎么办？是否要退回重做？重做又需要时间，不重做就意味着需要更多的数据。对于资金不够充足的公司，改进流程往往是最合适的手段。从技术方面来看，近年来，AutoML（Automated Machine Learning）的概念越来越火，即端到端的全自动机器学习技术，可以自主调参，自主评估模型，从而缩短模型训练的周期。但是，AutoML不是万能的。至少在未来几年里，我们都无法摆脱对人工数据标识的依赖。我们需要找到一种人机共生的方式，将人类对机器的帮助最大化。

欧洲数据标识市场中，人工标识的占比始终占大多数人机共生（Human-in-the-Loop）2020-2030这十年，将是人类探索与AI合作机会的十年。数据标注就是人类与AI合作最完美的途径之一。利用机器学习技术进行视觉探测，虽然成本低、速度快，但是往往有一定的错误率。这时，就需要人类介入，告诉机器错在了哪里。机器会记住这些人类提供的回馈信息，进一步训练自己的模型，避免下次在类似场景中犯同样的错误，从而形成了一个循环。比如，AI探测结果是，某个交通信号灯的颜色是红色，而人类检查后发现应该是绿色，就通过某个前端工具点击“错误”。开发团队要尽快找到模型最需要的反馈信息，为人类标注员提供一个工具，将人类的反馈快速分享给机器。
责任编辑:pj

打开APP阅读更多精彩内容