计算机视觉:Computer Vision
一门让计算机从图像中提取有用信息并加以分析的科学。这些信息后续可以用于辅助一些决策或者任务,比如医学图像分析、工程测量、自动驾驶、机器人学等等。
计算机图像学:Computer Graphics
通过使用数学模型和计算机算法来生成图像。
图像处理:Image Process
图像数字化:
空间采样、量化、与连通性策略是将图像做数字化表达过程中涉及到的重要概念。
量化: 将每个像素点在色彩通道内的亮度按照区间从连续分布转化为离散分布的过程。
四连通与八连通: 像素点计算领域的划分标准。
四连通:像素四条边相连的区域
八连通:比四连通多四个角。
距离:
欧式距离 (Euclidean) - 两点之间的直线距离
曼哈顿距离 (City Block) - 沿着方格线行走的两点间距(即仅水平和竖直四个方向移动)
切比雪夫距离距离 (Chess Board) - 沿着方格线及对角行走的两点间距(即水平、竖直、以及对角八个方向移动)
一张图片中往往有前景(foreground)和背景(background):
确定前景和背景的连通性策略,通常有:
背景四连通、前景八连通
背景八连通、前景四连通
一般有递归算法、顺序标记法。
递归算法消耗性能大:遍历图像中所有的像素点,遇到未标记区域编号的点即递归用当前的区域编号标记与之相连的所有像素点。
顺序标记法:运用与像素区域连通性问题
图像数据的收集和处理:
借助语义化分割对 UI 图像进行处理,得到轮廓、结构、上下文等特征。
借助超级像素的方法来降低特征的数量,合并像素达到降低干扰因素的效果。
采用 OpenCV 进行测量、计算,然后用规则尝试提取有用的特征数据,结果并不理想,它更加擅长测量和计算:需要大量的阈值约束才能达到比较好的效果:
用机器视觉的模型和算法来解决。这边介绍 2 个模型:
MaskRCNN
2017年,Kaiming He等人提出了Mask R-CNN,是一种目标检测和实例分割的算法
Mask R-CNN(Mask Region-based Convolutional Neural Network)是一种用于目标检测和实例分割的深度学习模型,它是 Faster R-CNN 的扩展,同时可以生成目标的二进制掩码(mask),因此可以实现精确的实例分割。
1、骨干网络:Mask R-CNN通常使用骨干网络(如 ResNet)来提取图像特征。这些特征用于目标检测和分割任务。
2、区域建议网络(RPN):RPN 用于生成候选区域,它是 Faster R-CNN 中的组件,用于确定可能包含目标的图像区域。
3、目标检测:Mask R-CNN 使用区域建议来检测图像中的目标对象,通常通过分类和回归来确定每个目标的位置和类别。
4、实例分割:除了目标检测,Mask R-CNN 还生成每个检测到的目标的精确二进制掩码。这允许对目标进行精确的像素级分割。
5、多任务学习:Mask R-CNN 采用多任务学习的方法,通过同时训练目标检测和实例分割任务,从而提高模型的性能。
6、ROI Pooling / ROI Align:用于从特征图中提取每个候选区域的特征,以供后续任务使用。
7、损失函数:Mask R-CNN 使用多个损失函数,包括分类损失、回归损失和分割损失,来训练模型。
Yolo V3
2016年,Joseph Redmon等人提出的 YOLO 是一种单阶段的目标检测算法,突破性地实现了实时目标检测。
实例分割(instance segmentation)是机器视觉研究中比较重要、复杂和具有挑战性的领域之一。在机器人,自动驾驶,监视等领域均有应用。
来源:大前端视野
全部0条评论
快来发表一下你的评论吧 !