3.2.4 语义分割
图3-7所示为机器视觉语义分割示例。
计算机视觉的核心是分割,它将整个图像分成一个个像素组,然后对其进行标记和分类。语义分割试图在语义上理解图像中每个像素的角色(例如,识别它是道路、汽车还是其他类别)。如图3-7所示,除识别人、道路、汽车、树木等外,还必须确定每个物体的边界。因此,与分类不同,需要用模型对密集的像素进行预测。
与其他计算机视觉任务一样,卷积神经网络在分割任务上取得了巨大成功。最流行的原始方法之一是通过滑动窗口进行块分类,利用每个像素周围的图像块,对每个像素
分别进行分类。但是其计算效率非常低,因为我们不能在重叠块之间重用共享特征。解决方案之一就是加州大学伯克利分校提出的全卷积网络(FCN),它提出了端到端的卷积神经网络体系结构,在没有任何全连接层的情况下进行密集预测,如图3-8所示。
图3-8 全卷积网络(FCN)实现像素分类演示
这种方法允许针对任何尺寸的图像生成分割映射,并且比块分类算法快得多,几乎后续所有的语义分割算法都采用了这种范式。
全部0条评论
快来发表一下你的评论吧 !