视觉算法

好的，视觉算法（也称为计算机视觉算法）是指让计算机能够“看”和理解图像或视频内容的算法集合。以下是关于视觉算法的关键概念和常见任务的中文介绍：

核心目标

赋予计算机从数字图像或视频序列中提取信息、理解内容、做出决策的能力，模拟人类的视觉功能。

主要任务和算法分类

图像分类：
- 目标： 判断一张图像整体属于哪个预定义的类别（例如，猫、狗、汽车、风景）。
- 常用算法：
  - 卷积神经网络： 是目前绝对的主流方法。
  - 经典算法（通常作为特征提取器与分类器结合）：
    - SIFT、SURF、ORB：提取图像的局部特征点及其描述符。
    - HOG：提取图像的梯度方向直方图特征（常用于行人检测）。
    - 分类器：SVM、朴素贝叶斯、决策树、随机森林等。
目标检测：
- 目标： 找出图像中所有感兴趣目标的位置（通常用矩形框标出，称为Bounding Box）并识别它们属于哪个类别。
- 常用算法：
  - 两阶段检测器：
    - R-CNN系列：R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN（同时做实例分割）。
    - 先生成候选区域（Region Proposals），再对每个区域进行分类和位置精修。
  - 单阶段检测器：
    - YOLO系列：YOLOv1到YOLOv10等，速度快，精度不断提升。
    - SSD：在多个特征图上直接预测类别和位置。
    - RetinaNet：解决了单阶段检测器在训练时正负样本极度不平衡的问题（使用Focal Loss）。
  - 基于Transformer的检测器：
    - DETR：将目标检测视为集合预测问题，使用Transformer架构。
图像分割：
- 目标： 对图像中的每个像素进行分类，将其分配给某个对象类别或特定区域。
- 子任务：
  - 语义分割： 将图像中属于同一类别的所有像素标注为同一种颜色，不区分同类对象的不同个体。（例如，把所有“汽车”像素标为蓝色）。
    - 常用算法： FCN、U-Net、DeepLab系列、PSPNet。
  - 实例分割： 不仅要区分不同类别，还要区分同一类别中的不同个体。（例如，给每一辆独立的“汽车”赋予不同颜色）。
    - 常用算法： Mask R-CNN（最经典）、YOLACT、SOLO、PointRend。
  - 全景分割： 语义分割和实例分割的结合，既要识别“可数”的物体实例（stuff），也要识别“不可数”的背景区域（stuff）。
    - 常用算法： Panoptic FPN、UPSNet、Panoptic-DeepLab。
目标跟踪：
- 目标： 在视频序列中，随着时间的推移，持续定位一个或多个特定目标的位置和状态。
- 常用算法类型：
  - 生成式模型： 学习目标的外观模型，然后在后续帧中搜索与该模型最相似的区域。（如Mean Shift）。
  - 判别式模型： 将跟踪视为一个二分类问题（目标 vs 背景），训练一个分类器来区分目标和背景。（如KCF、SORT、DeepSORT）。
  - 基于深度学习： Siamese网络（如SiamFC, SiamRPN, SiamRPN++）、MDNet、ATOM、DiMP、TransformerTrack。端到端学习的跟踪器性能越来越强。
人脸识别/人脸验证：
- 目标：
  - 识别：在一组已知人脸库中找到与输入人脸最匹配的身份。
  - 验证：判断两张人脸图像是否属于同一个人。
- 常用算法：
  - 深度学习（主流）：
    - 训练一个深度网络（如ResNet、MobileNet、EfficientNet）来提取人脸的“特征向量”（Embedding）。
    - 核心在于设计好的损失函数来优化特征提取过程，使得同一个人的特征尽可能靠近，不同人的特征尽可能远离。
    - 关键损失函数： Triplet Loss、Center Loss、SphereFace、CosFace、ArcFace。
    - 关键网络： FaceNet（使用Triplet Loss）、VGGFace。
关键点检测/姿态估计：
- 目标： 检测图像中特定目标（如人脸、人体、手部）上预定义的关键点的位置。
- 常用任务：
  - 人脸关键点检测： 定位眼睛、鼻子、嘴巴等关键点。
  - 人体姿态估计： 定位人体关节（如肩膀、肘部、手腕、膝盖、脚踝）的位置。
    - 2D姿态估计： 预测关键点在图像平面上的2D坐标。
    - 3D姿态估计： 预测关键点在3D空间中的位置（更复杂）。
  - 手部关键点检测： 定位手指关节等位置。
- 常用算法： Stacked Hourglass网络、CPN、HRNet、OpenPose（多人姿态估计）、MediaPipe（轻量级实时方案）。
图像生成：
- 目标： 创建新的、逼真的图像。
- 常用算法：
  - 生成对抗网络： GAN极其众多变体（DCGAN, cGAN, StyleGAN, BigGAN, CycleGAN等）。
  - 变分自编码器： VAE。
  - 扩散模型： 当前最先进的方法（如DALL-E 2, Stable Diffusion, Imagen），通过逐步去除噪声来生成图像。
三维重建：
- 目标： 从一组或多张2D图像重建出场景或物体的3D模型。
- 常用方法：
  - 运动恢复结构： 通过一组不同视角的图像恢复相机运动和3D点云。
  - 立体视觉： 利用两个（或多个）相机之间的视差计算深度信息。
  - 深度学习方法： MVSNet、COLMAP（结合传统和深度方法）、NeRF及其变体（从2D图像生成连续的3D场景表示）。
光流估计：
- 目标： 估计图像中每个像素在连续两帧视频之间的运动方向和速度（2D矢量场）。
- 常用算法： Lucas-Kanade（稀疏光流）、Horn-Schunck（稠密光流）、FlowNet/FlowNet 2.0（基于CNN）、RAFT（当前先进水平）。
图像增强与恢复：
- 目标： 改善图像质量、去除噪声、模糊、雾霾等退化因素。
- 常用任务： 超分辨率（SR）、去噪、去模糊、去雾、图像修复、图像着色。
- 常用算法： 深度学习（CNN、GAN、Transformer）是主流（如SRCNN、ESRGAN、Restormer）。