Ground-truth数据面临哪些挑战？

佐思汽车研究 2019-03-12 4415

描述

Ground-truth（真值）是什么？

Ground-truth在机器学习中表示有监督学习的训练集的分类准确性，用于证明或者推翻某个假设。有监督的机器学习会对训练数据打标记，将那些正确打标记的数据成为ground truth。Ground truth就是参考标准，一般用来做误差量化，最终用于验证分类算法的准确性。真值标定的输入一般是视频文件。真值标定既可以手动一帧一帧地标定，也可以半自动化标定后再手工修正，最终可以将结果保存成真值数据库。

Ground-truth在自动驾驶汽车产业具有很高的的附加值，它涉及以下数据处理流程：数据采集、数据标注、模型训练、应用、验证。拥有最高质量Ground-truth数据的公司将会处于自动驾驶汽车的最前沿。

数据库

数据库

Ground-truth质量影响算法质量。

数据库

一、Ground-truth数据面临哪些挑战

丢失或模糊的对象

不一致的标记（行人手中有物体或没有物体）

不同种类车辆之间不明确的边界

系统性的标记误差

不精确性

定义不佳的需求

1.1 丢失或模糊的对象

数据库

1.2 不一致的标记（行人手中有物体或没有物体）

数据库

1.3 不同种类车辆之间不明确的边界

1.4 系统化标记误差

原始的标记框不精确，通过对顶部和底部的修正以及更详细的注释使得标记框更加精确。

数据库

数据库

二、实验：Ground Truth质量对于算法性能的影响

2.1 实验

我们展示了标记框实验的初步结果

1. 复合分类（定义不佳的标签需求）

2. 不精确的真值标记

复合分类

图中骑车人和行人被标记了出来，自行车没有被标记出来。

数据库

2.2 复合Caltech：新数据集

行人与携带行李的行人的对比

数据库

Caltech完成了从原始不精确标记框到更为精确的标记框，再到高质量复合型标记框的转变。

数据库

2.3 复合型Caltech训练

1. 用于重复性结果的框外物体检测器

2. 体系结构：更快的 rcnn_resnet101_coco （coco预训练）

3. Caltech数据库微调（任何一个变量都有一个独立的模型，没有超参数调优）

数据库

2.4 Caltech检测器评估

	Caltech	改进的Caltech	复合Caltech
mAP@0.5	0.2170	0.3030	0.2916

初步结果：复合Caltech降低了精确度

数据库

数据库

数据库

2.5 扭曲VOC边界框

数据库

数据库

数据库

2.6实验总结

标记不精确(质量)对高精度区域的性能影响显著。

三、解决方案

加速标注过程：更高速、精确并且具有成本效益

数据库

人工标注过程从90分钟压缩到35分钟

可视化不确定的地方，引导标记人员

四、Understand.ai 质量保证办法

一是依靠智能算法

深度学习推理，与不确定性计算共同加快标注员的工作

算法质量检测与物体追踪

二是依靠人类智慧

每一幅图像都经过人类标注员的验证

通过内部专家提供额外的质量保证

通过智能算法与人类智慧，共同完成高质量的标注。

数据库

通过算法推荐，计算不确定的地方，以及标记人员解决不确定性的地方，共同完成高质量的标注。

数据库

LIDAR标注

通过算法和工具，使得速度最高能提高5倍。

打开APP阅读更多精彩内容

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

全部0条评论

快来发表一下你的评论吧 !

×

20

完善资料，
赚取积分