人工智能的深度学习算法建立在大数据的基础上

dsnhgf 2018-10-31 8004

人工智能

636人已加入

描述

做人工智能的都是靠脑力劳动的高级程序员吗？

真相并不是这样的。

目前人工智能的深度学习算法是建立在大数据的基础上的，人工智能在工作过程中首先要对大数据进行挖掘，然后再利用大数据训练人工智能模型。

对于图片数据来说，这一工作说起来好像很简单，但实际上整个工作过程并不智能，这背后隐藏着一个赚钱十分辛苦而且工作内容非常枯燥的劳动密集型的产业。

人工智能女神李飞飞开创“数据标注”产业

2005年，当时还没有出名的李飞飞进入了斯坦福大学人工智能实验室，选择了当时还很冷门的研究方向——计算机视觉图像识别。

计算机视觉图象识别，主要目的让计算机读懂图像——对计算机来说，每一张图片都是3个矩阵按照不同权重叠加的结果，这3个数学上的矩阵被称为RGB颜色矩阵。

对于自动驾驶来说，计算机要从这三个矩阵中找出红绿灯与斑马线的位置，难度其实是很高的。对于人工智能安防监控来说，也是一样的道理，基础的人脸识别需要用到很复杂的算法。

这些事情看起来十分困难。因为要让计算机识别“斑马线”、“红绿灯”、“人脸”其实就好像我们要训练一只小狗，让它过马路的时候要走斑马线，要看得懂红绿灯标志，要记得住路上行人的相貌一样。但实际上小狗的智商远比计算机要高得多，因此训练计算机做机器视觉远比训练小狗来得困难。

在2005年，计算机可识别的物体非常稀少。李飞飞与她的研究团队从互联网上下载了近10亿张图片，然后试图对这些图片进行分类、打上标签，为计算机提供学习用的“题库”。这个“题库”后来发展为著名的ImageNet。

那么，怎么样才可以把10亿张图片分类打上标签呢？以一个人每天可以分类1000张图片来计算工作量，10亿张图片需要一个人干上100万天，也就是2740年。这是一个巨大的工作量。李飞飞曾想过雇用大学生来完成这个工作，预计支付给每人10美元一小时的工资来做人工归类，但用她能找到的大学生来人工完成这个项目需要90年的时间，而且开支是一个天文数字。所以，最后李飞飞只能去找更便宜更快速的方法。

后来，李飞飞找到了一种更快速的方式，这就是亚马逊的众包平台。通过众包平台，李飞飞在网上雇佣到了5万人，请他们为这10亿张图片分类、打标签。

到2009年，李飞飞主导的ImageNet数据库就包含了1500万张已经标注好的照片，这是一笔非常可贵的数据财富。李飞飞把这个图片数据库免费开放使用，极大地造福了全球所有致力于计算机视觉识别的研究团队。

李飞飞所开创的这个行业，后来在人工智能领域被称为“数据标注”。目前，这一行业已经在中国形成了一个劳动密集型产业。

数据标注产业是人工智能的“富士康”

在人工智能的光环背后，数据标注产业其实由一个个类似于“富士康”的劳动密集型工厂组成的。

在这些工厂里往往布满了一排排的电脑，这些电脑屏幕上是各个被放大的物体图像的细节，还有一个一个标注框。数据标注员的工作内容包括拉框标点，打标签，分割，批注等等。

其中对图片最常见的分类就是打标签，比如有一种打标签的方法是描点标注，一般用于细致的人脸标注：这需要在人脸的眉毛、眼睛、鼻子、嘴巴等关键部位做二十多个标记点——这个过程很像微软的KINECT的骨架图，也类似于数学上的“三角剖分”。

硅谷动力君在网上查阅了做数据标注的公司——“北京博雅海图数据服务有限公司”。该公司是这样介绍自己的：博雅数据相继成立以“博雅上海”、“博雅北京”、“博雅温哥华”三家子公司，同时又在衡水、济南、武汉、西安等城市建立了自己的数据加工中心，目前是国内生产规模较大的数据录入服务企业，现全职录入员超过200人，博雅的管理人员，均从事录入行业五年以上，具有良好的敬业精神和团队精神。

从“博雅海图数据服务”的相关介绍来看，该公司在河北、山东、山西与湖北建立了自己的数据加工中心，这些数据加工中心有一部分业务就是为人工智能企业提供“数据标注”服务。

另据报道，翊澳数据也是一家类似的数据标注公司，其在河南的十几个县市里建立了类似的数据标注工厂。为什么要在河南的县城建立这样的工厂呢？原来“下面这些地方场地租金更便宜，员工工资也低，更省成本。”所以，这也让这些工厂看起来像“富士康”，服务于“高科技”，但实际上却是“劳动密集型产业”。

因为数据标注其实没有什么技术难度，只要有会用电脑的初中生就可以胜任这样的工作。整个工作流程也相对单一，只需要把图片中的事物识别出来，然后在图片上标记出来就可以了。但这个工作需要一个工人每天处理上千张图片，工作内容相对单一，眼睛也十分疲惫。所以，很多人因为忍受不了如此高强度的视力劳动，选择了跳槽。但也有很多工人坚持了下来，虽然他们不一定懂得他们处理的这些图片是怎么用到人工智能行业的，但毫无疑问的是，这些工人是人工智能产业链上“沉默的大多数”，他们给人工智能行业提供了源源不断的原材料。

数据标注众包模式正在造就一个新产业

数据标注众包模式最早出现在美国，前面说过的人工智能女神李飞飞就是在2005年亚马逊刚推出劳务众包平台（Amazon Mechanical Turk）找到那批数据标注员的。

截至2017年底，亚马逊的数据劳务众包平台注册用户量已经累计超过50万，这其实类似于美团把很多送外卖的快递小哥连接在了一起，亚马逊的数据劳务众包平台也把众多的数据标注员连接在了一起。

目前在中国，还没有出现面向个人的众包数据标注平台，但已经出现了一批做数据标注的企业，这些企业相对于个人来说更加专业，工作效率更高，服务质量更有保障，所以得到了很多人工智能企业的好评。因为很多人工智能企业本身位于一二线大城市，很难承担这种劳动密集型工作的人员工资，于是把数据标注这部分工作外包给数据标注企业，可以节省很多用工成本。

因此，有人高幄建瓴地总结这个产业：没有“人工”就没有“智能”，这一幕很可能是人工智能产业发展史上的最为隐秘而壮观的一幕。

数据标注的工作内容非常枯燥而且需要极大的耐心，这处于人工智能高科技产业链的低端，这一工作内容看起来基本没有技术含量。

那么，中国有哪些从事数据标注的企业呢？除了前文提到的博雅海图与翊澳数据这两家公司，其他的相关公司还有BasicFinder、龙猫数据、星尘数据、爱数智慧、周同科技等。

除了图片标注，目前还诞生了语音标注与视频标注等相关的业务方向，其原则上与图片标注没有太大的区别，都是依靠大量的人力进行工作。

另外，像京东、百度、腾讯、阿里这样的大公司都有自己的标注平台和工具。

数据标注行业的转包现象与未来

数据标注行业属于劳动密集型行业，所以很容易出现层层转包地现象，上游的人工智能企业会把任务交给中游的数据标注公司，这些中游的公司会分包给下游的小公司与小作坊，有的小作坊还会进一步分包给个人，比如在校学生或家庭主妇。转包的中间过程产生了大量赚差价的“中间商”，这使得整个行业的利润空间越来越小，已经不利于整个行业的发展。所以，硅谷动力君认为，应该采取一定的措施禁止这种层层转包的事情发生。

另外一方面，我们需要展望未来，目前看来，数据标注员的工作是最不智能、最没有技术含量的。对于未来的人工智能来说，科学家们还必须研究如何让人工智能自主学习，自主标记，而不依赖人类对人工智能的标注与训练。这种更高级的人工智能，是未来的发展方向之一。

打开APP阅读更多精彩内容