计算机视觉的热门研究方向与发展趋势

新机器视觉 2022-11-29 3367

描述

计算机视觉产业链

计算机视觉

工业界：对学术研究提出需求

最火的两个概念：自动驾驶和元宇宙

相关热点研究方向：

（1）建图技术：三维重建技术，包括SLAM、定位、建图、更新等技术；（2）点云理解技术：三维理解技术，包括点云检测、分割等技术；

（3）街景理解技术：街景图像视频识别、检测、分割等技术；

（4）三维渲染技术。

学术界：自驱的学术研究

CVPR：检测、3D、分割、视频、表示学习;（2021）

CVPR：多角度三维视觉、图像视频生成、识别检测分类检索；（2022）

ICCV：视频，3D，检测，分割，表示学习和Transforer。（2021）

总结：（1）基于transformer的视觉；

（2）基于self-supervised的无标注视觉技术。

（3）生成式对抗网络图像生成

图像识别主要算法

图像识别流程：图像采集、图像预处理、特征提取、特征识别图像预处理：ROI提取、图像滤波与增强；特征提取：LBP、SIFT、HOG、CNN等等

计算机视觉

目标检测主要算法

（1）双阶段目标检测：RCNN、Fast RCNN、Faster RCNN、FPN、Mask RCNN；

（2）单阶段目标检测：YOLO、SSD、RetinaNet；

（3）基于transformer：Ralation Net、DETR。

自动驾驶主要算法

计算机视觉

7. 计算机视觉发展趋势

计算机视觉

五大发展趋势：

（1）优化数据质量

（2）应用于健康和安全领域

（3）应用于零售业（无人商店、掌脉识别等）

（4）自动驾驶汽车领域

（5）边缘计算领域

计算机视觉

8. 计算机视觉-学术界与工业界GAP有多大？

2020年7月31日，由中国图象图形学学会主办、视觉大数据专委会承办，北京智源人工智能研究院和美团协办的ECCV 2020中国预会议成功举办。本次ECCV预会议秉承传统，组织了圆桌论坛，邀请来自工业界、学术界大咖，他们围绕“计算机视觉：学术界与工业界GAP有多大”这个主题谈及了各自的理解并分享了一些精彩观点。

圆桌论坛由中科院自动化所的董晶博士主持，Wormpex AI Research 副总裁兼首席科学家华刚博士、华为云首席科学家田奇博士、微软亚洲研究院资深研究员王井东博士、美团AI平台视觉中心负责人魏晓林博士以及上海交通大学的熊红凯教授同框在线进行话题讨论。

精选观点

精选了圆桌论坛中10条专家观点，大家可以先睹为快：

在学术界的研究生需要有一种哲学的思辨能力。

对于做研究的人来讲，写作这个事情可能对你一生来讲都是非常有帮助的。

学生需要有“T型”的知识架构，不仅要在某个领域研究得深，而且还要有知识的广度。

那些真正能做产品的人才，能够从客户的角度，去发现社会和用户需要什么。对待新的研究方向也有很好的敏感性。

工业界跟学术界往往是一个Mix，工业界和学术界的紧密结合是一个双赢的局面。

可能工业界像是“市场经济”，学术界可以说一定程度上是更偏向于“计划经济”。

学术界和工业界之间的GAP就是从基础研究到落地，我们称为“使用鸿沟”。核心就是说，一般我们讲的学术界是从0到1，而工业界是从1到n。那么，怎么把“0到1”和“1到n”衔接到一起，就怎么缩短这样的“使用鸿沟”。

在学术界，你的论文发表了之后，研究就结束了。但在工业界是不一样的，论文发表可能意味这个工作才刚刚开始，后面还有很长的路要走，还要把技术经过一些改进，使它能够成熟到去支持业务的落地。

计算机视觉的发展趋势预测：深度学习与计算机视觉结合的可解释性、安全性、鲁棒性、透明性；小样本训练、自监督学习、知识图谱、模型压缩；数据高效、软硬结合。

计算机视觉应用的行业机会可能存在于以下几个领域：安防、无人驾驶、线下零售。

以下系对Panel讨论环节的文字实录，希望能对大家有所帮助或者启发。

熊红凯：工业界的话，相信其他几位老师比我更有经验。我就谈谈我在学术界的一些体会。以前我对计算机视觉是有一定偏见的，因为计算机视觉当时的目标是让计算机像人一样具有视觉的观感。小时候看书，说我们人类面临三个世界，一个是虚拟的意识世界，另一个是现实的物理世界，第三个是真理世界，也就是数学世界。过去我们做学术其实更多的是面向数学世界，去寻找和发现这个世界上所存在的真理和规律。后来计算机视觉打开了这个窗口，我感觉计算机视觉实际上是在把人的意识世界和现实物理世界做了某种关联。

从这个角度来讲，我觉得学术研究现在存在一个分歧，是应该更多的去面对真理和规律，还是说只去做现实世界与虚拟世界的一种关联。当然，我们可以比较客观地说，计算机视觉是让计算机去创造一种新的物种，像人一样具有可辨识、可观察的能力。但是，有一些理性的人也会认为，计算机视觉更多的还是一种麻痹人自身的娱乐方式。我原来对计算机视觉的偏见可能就是来自这方面。

但是今天，我们可以看到现代生活方式的变化已经不可逆转了。计算机视觉技术已经延伸到很多客观的方面，而并不仅仅在于娱乐或者是消费的方面。因此，我觉得学术界和工业界就会慢慢地有一些融合，因为工业界毕竟更多的重心还是在于应用和市场的开拓；而在学术界，现在慢慢从原来的真理探索开始向人类领域进行拓展，也在与工业界找到一些共通点。

我觉得计算机视觉方向的研究生，既然做研究，必然面临这些方面的思考，就是你做的东西到底有什么用？并不仅仅只是体现在经济效益上。所以我认为，在学术界的毕业生需要有一种哲学的思辨能力，而并不仅仅是做一种技术的应用，也并不仅仅是提高一些效率。我觉得学术型人才必须找到一些能够打动他自己的、确实存在的规律和真理，而不仅仅是把现实和虚拟做一些简单的融合。

打开APP阅读更多精彩内容