未来的深度学习应用应该朝哪个方向发力呢，才能做大蛋糕?

新机器视觉 2021-01-27 2111

描述

原提问：

计算机视觉伴随多个SOTA的完善和推进，已经进去深水区，各个论坛社区的毕业生和从业者都一片卷声，大呼卷的不行，各种劝退，认为NLP目前才是蓝海，是未来深度学习的自由之地。那么实际情况是怎么样的呢？是因为CV对硬件有要求而NLP不需要硬件还是技术门槛过低，亦或是从业人员众多等。那么未来的深度学习应用应该朝哪个方向发力呢，才能做大蛋糕?

谢凌曦：

我没看错吧？NLP是一片蓝海是自由之地？CV比较完善进入了深水区？一时间，我都不知道应该从哪个点开始吐槽了。

因为题主问到了CV和NLP的比较。如果一定要横向对比的话，那么CV和NLP长期以来是互相学习、互相赶超的关系。虽然同属于AI这个大领域，也同样具有不确定性因而概率类方法占据绝对优势，但两者的性质还是存在诸多不同。具体来说：

CV信号是天然存在的，而NLP信号是人类创造出来、用于存储知识的。因此，CV信号维度高、信息密度低，而NLP信号维度低、信息密度高。这就意味着在NLP信号上进行自监督学习更容易，也意味着要在CV信号上进行自监督学习，需要事先进行某种意义上的信息提纯。

CV信号描述了对象的细节，具有一定的冗余度，而NLP信号是对象的抽象化描述，具有一定的模糊性。CV信号是层次化的，而NLP信号是结构化的。这些明显的对比，意味着要想在CV和NLP领域产生初级技术应用，算法需要关注的点是不一样的。CV更关注特征的抽象和domain之间的迁移，而NLP更关注单词间的联系和消歧义，等等。

当前，CV和NLP面临的共同困难，都是标注信息的不完善——简单地说，人类提供的标签已经无法很好地指导学习过程，具体描述可以参考我昨天写的另一个回答：

目前计算机视觉中的很多自监督方法的下游任务用有监督分类的意义是什么？

这也就意味着，有监督学习的红利已经基本吃完，业界急需从无标签数据中获取迈向下一代人工智能的钥匙。虽然这把钥匙仍未找到，但是我们基本可以确定大规模上游预训练+小规模下游微调的套路。NLP已经部分走通了这条路——虽然现在的GPT-3被批评为只有记忆没有常识，但是长远看，这条路应该是通的；而CV也需要迎头赶上。

警告：以下是猜测

如果对CV的未来走向进行判断，我认为一种很可能发生情况是复刻NLP的轨迹，由大厂完成超大规模图像预训练模型，随后将模型release给广大开发者使用。这条路一旦走通，将会深远地改变当前CV的格局和开发模式。当然，对于广大开发者而言，适应新的算法并不困难，适应新的生态可能会有一定的挑战。

最后，谈到内卷的问题。内卷永远是存在的，只要大家认为这个领域的从业者的数量超过了它能够实际养活的数量。我对这个问题的看法是，CV在实际应用上的潜力远没有被发挥出来。如果更先进的技术路线能够达成，那么整个行业能养活的工程师数量一定会增加，到时候还会不会卷，就看会不会有更多人跳进这个坑里来了。

韦仕才：

作为一名入门炼丹师我来谈谈我的观点。

首先关于卷的这个问题，我觉得并不仅仅是因为或者所很大程度不是因为说cv入门门槛低，或者深度学习入门门槛低啥的，好歹它还需一块1080ti+是吧。看看隔壁的JAVA，那个真是有手就行（狗头），但是你看有人说开发岗卷吗？想必无数学长学姐都告诉过大家，遇事不决就学JAVA，或者再加点c++。而大家，至少我应该是几乎没听过说JAVA开发岗一片红海找不到工作啥的，至多就是入职的996，35岁的中年危机。甚至我认识的人很多是深度学习搞不下去了，找不到工作了，半年速成JAVA去找了开发的工作。同样都是那么多人入门，甚至转开发和JAVA的人更多，为啥就深度学习一片红海，问题出在哪呢？

问题的核心其实在于供需失衡。首先是供给方，注意深度学习的红利是真的曾经存在过的！！！，并不从一开始就是泡沫。在15-17年那会，前景看起来一片光明，学生们看到深度学习，计算机视觉带来的巨大福利，老师们看到这个东西好发文章，申项目，于是纷纷转向深度学习，计算机视觉。特别是随着深度学习框架的普及和硬件资源的不断升级, 深度学习的入门门槛越来越低, 两个月入门真的不是梦想。就连李飞飞，吴恩达，bengio，blabla等各路大神都纷纷离校创业或从业，所以大家没忍住诱惑走进了这个坑真怪不了什么，我也没忍住，毕竟那时候谁能想到会是现在这样，一切看起来都非常美好，智能时代仿佛近在眼前。但是现在在呢? 李飞飞又回到了斯坦福, 吴恩达开始去搞教育, bengio的公司或许将要贱卖（以低于融资成本的价格卖出），知乎上开始出现如何看待2019年算法岗一篇红海, 2020年算法岗灰飞烟灭, 而我前不久也还在吐槽如何看待深度学习复现难的问题。这中间发生了什么?

这就需要谈到需求方的问题。首先很明显的是目前公司对算法岗，深度学习需求并没有像大家所想象的那么大，不然也不至于出现现在大家所说的一片红海灰飞烟灭的问题。可是为什么呢？说好的工业4.0呢，说好的光明前景呢？这就要谈到另一个问题，什么决定了公司的需求？梦想？热爱？不，是利益，99.9%公司都是如此。剩下的0.1%也会慢慢变成如此。这里我想起了之前和师兄的聊天

我的一个博士师兄是工作之后才来读博的，他17年硕士毕业去了海信做图像算法，后来有一天我们一起回寝室，师兄突然说起还好辞职，不然现在海信大裁员指不定就裁到他了。我说你们不是做算法的吗，怎么会裁到你们。师兄说裁的就是研发部门…，也就是算法岗可能的来源。我当时心想，不应该啊，研发部门不应该都是像达摩院， FAIR这种，关乎一个公司能否把握未来机遇，抓住下一个风口的重要部门吗，怎么说裁就裁。师兄说，因为不挣钱啊，我们公司墙上挂满了各种专利，但是实际能用来产生效益的没几个。不是每一个公司都能有那么大的魄力和资金投入做自己的算法研发的。更多是用别人做好的接口开发产品。

而像阿里，旷视，商汤这种提供算法支持的不应该有很大的算法岗需求吗？为什么还是会卷。其实他们的需求也没那么大，原因还是一样的，计算机视觉，深度学习并没能带来大家所期望应用和盈利。说到这，其实大家眼里的眼里这些公司也不容易，也卷的不行，那么多公司就分人脸识别，智能安防等几个领域的蛋糕，而且技术壁垒也没有大到非某家不可的地步。而这归根到底就是现在深度学习，计算机视觉能落地的场景真的不多。

所以这就谈到第二点了，现在计算机视觉的瓶颈。以下观点更多是从算法落地角度考虑的，可能存在一些局限。

做过算法落地的人应该都深有体会，那些顶刊顶会上的sota算法，你用到实际场景里，如果不适用额外数据做微调，准确率掉一个30%到40%，再正常不过了。而且很多时候视任务的难易程度准确率从70%到85%甚至90%是可以靠数据堆出来的，但是再往上就没那么容易了。当然千万级别甚至更高数量级的数据那就另说了，毕竟人工智能人工智能，有多少人工就有多少智能。即使如此还会有极端情况存在你加数据可能都无法解决

研一那会跟着师兄参加过一个复杂环境下人脸检测识别挑战赛，做的就是监控视频下白天黑夜各种复杂场景下的人脸识别。大家一看人脸识别，这不是做烂了吗，还有什么好做的？我当时也这么想，师兄可能开始也这么想，然后师兄两年就花在了上面，后来表示非常后悔。当时的情况就是白天下还好，基本都能识别差不多，黑夜路灯下，准确率极剧降到了10%各种优化弄到20%就已经惨不忍睹了，就这还拿了第五名。前面的是一起参赛的还有大华，云从这些大厂，这里就说说大华，专业做安防的，他们最后黑夜环境下准确率大概是70%，而且这里还不确实他们是不是用了自己的数据，总之我们是没数据。

数据都不能解决，但还是要用，那怎么办，一般就只能限制场景，麻烦用户了。现在大家所能看到的落地应用多半是在一个尽量不影响用户体验的场景限制里，采集海量数据集，拟合一个模型然后使用。这个过程中真正起了大作用的，不是大家以为的那些sota模型，而是那些场景的约束和海量数据。以我做的活体检测为例，现在也有落地的应用了，阿里，小视科技，但是你们去用的时候它都会有请靠近远离摄像头让你距离摄像头的位置在指定距离，请保持静止blabla一些限制，甚至有时候我都已经在这个范围里还不给我检测，用的贼恶心。这些限制能不能不要？不行，因为不加这东西就解决不了。

紧接着上面就是关于计算机视觉的未来。我始终认为技术发展的终点就是产品，能够切实的落地影响或改变人们的生活，解决人们的实际需求。所以我一直觉得我今后会是一个工程师而不是科学家。而如果从这个角度看计算机视觉的未来那就是这样的。

我数据量不够的怎么办——小样本学习，迁移学习。

数据标注成本高怎么办——半监督，无监督。

我数据分布不均衡怎么办——长尾分布。

如何利用各种可能的数据来优化提高模型性能——多模态学习。

如何适应复杂场景（自然的，人为的）——深度学习的鲁棒性，泛化性研究，对抗学习。

算法出问题我怎么纠正和修改——深度学习可解释性问题。

我的模型怎么快速高效部署用于实际产品——机器学习系统，深度学习框架研究，模型压缩

吉恒杉：

在企业里从事三年多cv业务，感觉cv还是有很多东西没有解决，比如类别无关的检测问题，图像去模糊，画质评估，美学度量，以及和nlp的跨模态检索等。由于cv开源的好项目很多，整体开箱可用率高，入门门槛低，前两三年入坑的人也比较多，导致现在内卷严重，这是实情，所以在招聘cv岗位的时候动辄要求发表几篇a类文章，竞争还是很激烈的。加上今年经济形势严重，不挣钱的业务招聘名额会缩减，所以建议想从事cv的同事尽量挑选李业务线比较近的部门，比如阿里的电商部门(打个小广告，我们部门还有招聘名额，欢迎有意向点同事发简历到 hengshan.jhs@alibaba-inc.com)。关于nlp，现在算法几乎都是bert，transformer，关键看怎么抽象业务问题，由于nlp的落地比cv要好一点，所以nlp找工作确实比cv好找一点。但是nlp内卷也会越来越严重。至于长期cv的走向，可能还得跟学术的发展，可能跨模态检索最近会好过一点，cv一些问题用nlp的transformer可以解决，感觉cv和nlp有统一起来的趋势。

机器学习入坑者：

先来说说学界的写论文，CV领域的难度很小，为啥？

因为：代码开源+数据共享。

就拿目标检测或者图像分割来说，github上面一堆优秀的开源项目，只要一键clone就能省去繁琐的实验流程。

所以，搞CV的同学说：“我在辛辛苦苦做实验！！

”背后的潜台词可能是：“我下载了一份代码，有几个bug，应该是python或者是pytorch的版本不对应造成的，我重装一下框架和cuda吧！！”

或者是潜台词是：“我的数据集格式和这个作者的不太一样，怎么才能读进去呢？”

对于顶刊顶会论文，对于国内大部分的课题组是无关紧要的，只要能发个SCI就算达标了，有些学校只需要发中文核心。毕竟，每年发cvpr的几个实验室，无非就是几个名校和大厂。

对于导师来说，让学生跑CV的实验，数据可靠性也更高。为啥呢？

就拿图像分类问题来说，可以改一改ResNet的层数，然后应用到叶片病害分类、缺陷分类或者是其它的分类任务之中。

实验得到的数据，通过预估甚至都能猜个差不多。比如论文A采用ResNet在工业数据集上获得了88%的分类准确率，某个论文B通过对ResNet的层数进行增加或者删减，或者是采用多尺度的策略，总是可以提升1-2%的准确率。

都说深度学习的结果很玄学，但实际上，数据量充足的情况下总是可以通过提升算力来增强模型的性能。

fwtan：

多看看大佬的slides：Computer Vision: Looking Back to Look Forward, 觉得卷是因为大部分cv从业者未必能把里面的每一页都看懂

爱因斯坦：

cv小菜鸡说下自己的看法。

对于普通从业者来说，CV卷分为在学校卷和在企业卷。在学校卷原因是这个玩意入门门槛低，好发论文，和哪个领域都能排列组合一下，导致做这个的老师变多，进而导致做这个的硕博变多；在企业卷是因为CV资本泡沫还是有一些，各大独角兽吸纳了大量CV人才，之后饼画不下去了，这些人就要一起竞争。NLP看卷不卷同理，我认为是要比CV好不少的，不过难保成为下一个卷起来的方向。

从未来应用角度，感觉CV目标是取代低端重复工作，NLP对应的则是取代人，有点强ai的意思，有点遥远，至少未来感觉CV还是要比NLP应用广阔很多的，无人车/医疗/工业/测绘/ARVR等。

不管是CV还是NLP，都是偏技术线，建议读个博士，或者发几篇顶会，搞这些一个很大好处是可以最大限度发挥自己的科研经历的优势。选择一个领域肯定要有做好的信心嘛，所以虽然CV卷了点，但如果能做好觉得在十年的短期内选CV还是好点的。

个人见解，如有错误还请指正哈

责任编辑：lq

打开APP阅读更多精彩内容