电子说
唐文斌,男,出生于浙江绍兴,初中还未毕业就“毛遂自荐”进入绍兴一中高中部,先后获得全国信息学奥林匹克联赛一等奖、全国信息学奥林匹克竞赛金奖等大奖。高二时,被保送清华大学。清华大学计算机系研究生,旷视科技联合创始人兼CTO 。北京市海淀区十大杰出青年 ,全国青少年信息学奥林匹克竞赛、首届“Yao Award”金牌获得者。
2011年10月,唐文斌与两位同学(印奇和杨沐)共同创立北京旷视科技有限公司。
2009 首届“Yao Award”金牌(由图灵奖得主姚期智先生设立,每年金牌一名) 。
2012 创业家“克莱斯勒杯”黑马大赛 年度总冠军 。
2012 清华大学“挑战杯”科技创新竞赛特等奖 。
2016年,唐文斌被北京市海淀区团委评为海淀区十大杰出青年 。
去年,旷视科技Face++创始人兼CTO唐文斌接受了新智元专访,谈了旷视科技Face++的商业模式、公司定位以及人才和发展观。
“没有什么技术是不能被取代的。”唐文斌说:“算法也好,技术也好,都是手段,最后能够提供出去的是产品价值。”这位三十刚出头的旷视科技Face++联合创始人,对这家中国人脸识别独角兽有着很清晰的定位:“旷视不是一家技术公司,旷视是一家产品公司,是一家以人工智能技术为核心的产品公司。”他认为客户最终一定是为产品价值买单。旷视的团队人数从去年到现在翻了一番,增长到600多人,其中扩张速度最快、人数也最多的就是产品部门。
相比旷视更常出现在人们视野中的另一位联合创始人印奇,唐文斌说他们的搭配是“印奇仰望星空,我脚踏实地”,更加侧重工程的他关注如何选择场景结合技术,给用户带来最大增值,“不是nice to have,而是must have”。他认为旷视工程团队要做的事情是把算法边界内能够自动化的任务全部交给机器去完成。他在寻找的也是复合型AI产品经理,以及能够随时转变为researcher,时刻想着如何把research没有价值的工作砍掉的懂算法、懂编程、更懂体系结构的全栈AI工程师。
新智元:目前在人工智能领域尤其是深度学习技术落地,你认为真正的壁垒在哪里?
唐文斌:我认为深度学习技术的落地,核心的一个关键词是“结合”。我们有一些很好的算法,比以前的性能提高了很多,但一定要找到合适的场景,把算法用进去解决问题,给用户带来明确的价值,这些价值不是“nice to have”,而是“must have”。
我们内部有个说法,叫“用户价值增量”——当你把技术用在场景中后,给用户带来的价值和用他原来的方式相比增量有多大,如果很大,那么这就是一个非常好的场景,如果增量只有一点,说明这要么不重要,要么你没有看清本质。以人脸识别为例,就是要不断去思考,人脸识别到底是在哪些场景下,给谁、通过什么样的方式,带来了多大的价值。
卖技术的话,今天你能卖,明天他也能卖,所以一定要做深,深入行业,把产品做好,形成完整的一套业务服务,这并不是从用户价值的角度去思考,而是公司生存的角度。极端一点说,我认为没有哪家公司是无法取代的,客户为什么选择你而是不选择另一家,一定因为你给他带来的价值更大,他买单的是你产品的价值。
新智元:旷视如何找到这种技术跟场景价值增量高的结合点?
唐文斌:我们经历了好几个阶段。最早的时候,作为一家纯技术公司,我们做了一个面向开发者的开放平台,叫Face++,通过API的方式提供互联网服务,美图秀秀、快手等APP都用了我们的技术。第二个阶段,我们开始关注技术到底在哪些场景下能给客户带来重要的价值——去寻找那些用户需求感知非常强烈的场景。我们找了很多,最终决定在两个场景进行业务的深入。
第一个是互联网金融,通过人脸识别进行远程身份认证,把线下业务线上转化,让用户有更便捷的体验,银行这边也实现了安全,这个增量是非常大的。第二个场景是安防,现在有大量的安防数据,人根本看不过来,而用机器去看,可以识别里面每一个人是谁,还可以识别逃犯,根据观察到的人物行为模式进行预警,这是原本做不到的事情,这个业务价值增量也是巨大的。
同样一个技术,比如人脸搜索(或者叫图像搜索),你既可以用在搜索视频看哪个影星出现在哪些电影片段中,也可以检索监控摄像头视频,在后面一个场景你可以解决老人、小孩走失的问题。所以,我们在这两种场景下,一定选择后者,因为后者价值更大。
新智元:旷视现在的人脸识别做到什么程度了?
唐文斌:这个要取决于具体的场景和数据库。在不同的场景下需求是不一样的,比如说用人脸识别来做开门,员工走过来门就开了,这种个场景下要求召回率非常高,每个人都得识别出来,并且速度要非常快。我们给阿里集团做刷脸门禁,阿里现在几万人,基本上一天可以识别几十万次,大概误报1~2次。
在安防场景下,数据库会大很多,公安识别嫌疑人的诉求,最重要的一点就是不能老喊“狼来了”,这就要求识别出的尽量都是对的,我们一般会控制一个误报率。现在我们在安防场景下识别嫌疑人,基本上路过的嫌疑人都能够识别出来,并且误报不会超过30%。目前业界还没有一个基准,但我们参加了很多楼宇、安防竞赛,都是业界的最高水平。
现在经常听到99.9%,这只是在某个数据集上的表现,真正现实的问题和场景要比测试数据集难太多太多。其实最早是我们引领了刷benchmark这个风潮,后来我们又不怎么刷了。我们最早刷LFW,已经基本刷到顶了,最后即使出错,感觉好像也不是本质问题,所以我们就没有去管这个事情了。但现在大家还很疯狂地在刷99.9%后面的位数,这没有任何意义,LFW只有6000对数据,那个数据集早就已经过拟合了。我认为大家要更关注的点,应该是更结合实际场景去解决问题。
新智元:旷视现在很多行业落地都跟政府有着很强的相关性,ToG是否是人工智能发展的一个重要方向?这是否是旷视发展的一个重要方向?
唐文斌:面向政府绝对会是人工智能发展落地的一个新方向。就像我刚才说的,我们要做什么,不做什么,选择的逻辑是用户价值,图像识别或者人脸识别对于城市治理和公共安全能够带来非常大的价值增量,我们是非常愿意去做的。政府现在是我们最大客户之一。当然,政府也非常支持现在的人工智能产业发展,在这种需求里面也给我们提供了很多的机会。
Research负责寻找算法之外的东西。边界里面的全部通过工程实现自动化。
新智元:旷视的核心优势是什么?
唐文斌:深度学习有三个核心要素,算法、数据和系统,这三者是相乘关系——你有一个好的算法,用有很多数据去催它,当数据变多、算法变复杂后,还需要有一套很好的底层架构和引擎来支撑。
从算法的角度讲,我们请来了孙剑老师,希望孙剑老师带着同学们在现有算法基础上找到新的东西。算法就像人的智商,数据就像人的见识,见识决定了你能走到多高,而智商决定了你能走多远,两件事情都非常重要。我们的研究团队其实就在智商这个方向上探索。而数据是一个更产品或者更工程的事情,我们需要在产品中设计一个好的方式,形成数据的循环,让产品中的数据回来,不断加深算法的训练,让它变成更强的算法。
我们也非常重视系统的建设,我们有自己研发的MegBrain深度学习引擎和Brain++平台。如果说研究的价值在于去探索边界之外的东西,那边界之内的,比如网络结构的搜索,都应该用机器来完成。我们的产品中常常会有的定制算法的需求,很多时候大框架都差不多,数据工程师把数据整理和准备好以后,就直接用系统把各种类型的模型都尝试一遍,最后挑选出一个不错的。
新智元:你提到了数据工程师,现在旷视在数据方面投入多少?有多少人标注数据?
唐文斌:全职标注的大约有300人,不算在600多人的团队里面。我们还有很多工作是外包完成。我们内部有标注的数据库是PB级别。
新智元:你曾在清华担任科协主席,也带过中国奥林匹克信息学竞赛团队,可以说你是旷视最开始的首席人才官。你认为目前人工智能人才应该有什么样的特点?旷视在选择的时候看重什么特质?
唐文斌:我觉得人才的类型是很多样的,每一种类型的人才都是人才,光会写paper的人才也是人才,虽然价值没有那么大。在现在的人工智能发展态势下,我们最需要的是复合型人才。做产品的时候会有产品经理,但人工智能场景下的产品经理需要更加复合。
我们团队最早的一位同学,员工工号No. 5的“卿爷”,我们现在提供给小米、VIVO人脸解锁的产品线都是他带着团队来做的,他需要有什么样的能力?第一,懂算法,不一定要懂算法具体是怎么做的,但一定要懂算法的边界在哪里——坚信这件事情一定能做到,但同时也要了解现在的算法有些东西是真的做不到。第二,有很好的工程判断力,用算法的方式是从本质去解决问题,而有些东西你会通过工程的方法去“不本质的解决”,倒推出一个一个设计。第三,也是更为重要的,需要不断从用户的需求、用户的场景、用户的价值角度出发思考问题。这样一个产品经理,他需要比以往的产品经理有更多工程上sense,更多算法上的sense。
从工程师的角度来讲,我们有一个词,叫“全栈AI工程师”,我们希望这位同学不仅数学好,懂算法,编程很强,还非常懂系统;算法编程都很懂才能做引擎,懂体系结构你的引擎才能在不同的平台上都跑得很好很快。这样的人非常难找,但也是最强的。比如说我们做Brain++平台的那帮人,他们提供的是训练平台,给到研究人员使用,他们知道Research是怎么使用这些东西,他们自己也随时都能转变为Researcher。同时,他们考虑Researcher做的哪些事情是没有价值的,要把它工程化、系统化,最终的目标是消灭Researcher——所有在边界范围内的Research都由系统来完成,而Research真正要做的事情是突破边界,探索边界之外的东西。
旷视在选择人才的时候也是按照这个标准。如果有这样的人,我们特别特别希望你能够加入我们,我们团队里有很多这样的人,你跟他们在一起一定会非常愉快。其次,我们也很看重学习能力,现在领域发展很快,你需要非常快速地跟上节奏去尝试你的新想法,所以学习能力和动手速度非常重要。我们也有实习生项目,总之欢迎你来,孙剑老师带你飞对吧(笑)。
新智元:旷视的算法、软件如何与硬件相结合?
唐文斌:我们有自己的深度学习引擎MegBrain,这个引擎在不同的品牌上做了非常多的底层优化,能够跑得非常快。我们最近做的一款智能相机产品,这个相机是业界第一款全帧率、全画幅(1080P)智能人像抓拍机。
全帧率的意思就是说,每秒30帧,每帧都去抓取,在业界这个指标是最高的。有的嫌疑人员有很强的反侦察意识,一看到摄像头会马上低头,如果相机不能以非常快的速度做出截取,可能只有100毫秒,一两帧之后这人就消失了。同时,每一帧都检测,也能确保总是能抓到质量最好的一帧,为后续应用服务。以往的相机在画面中抓拍做检测,基本上最多只能抓拍画面中10到20个人,再多就抓不到了,因为计算量不行。我们可以做到128张人脸,很大的人流也能跟踪得很好。
我们用的是自己设计的FPGA芯片,在算法层面也做了很大升级。硬件也好,算法也好,引擎也好,这几个东西是要联合优化的。这也是自己做引擎的厂家好的地方,我的引擎可以根据算法的需求去调整。
新智元:未来1年旷视会怎样?未来3~5年呢?
唐文斌:我们分几个组,研究院大概10%~15%的力量可能在解决2~5年的问题,更多的人在解决一年以内的问题,因为创业公司要务实聚焦。在介绍产品时候也讲过,比如说我们为什么做相机,并不是因为觉得相机赚钱,而是我们想当视频大数据平台,发现源头数据不好,后面再怎么分析也没用,所以我们要在源头上通过自己的方式把质量控制好,让后面的分析能力能够更强,形成端到端的解决方案和业务价值。
我们希望未来一年左右,在金融和安防这两个场景下能够站深、站稳,希望在这两个行业形成全系列的产品,端到端的解决方案,给用户一套完整的价值链条。我们内部有个说法是“4+2+X”,在微型场景下,把脸人车文字这4个要素识别做好,再后希望能够形成机器人的手和腿,做一些限定场景的机器人应用。“X”是指通过Brain++这个平台快速做技术的定制,让这个场景真正的能够形成一个完整的产品链。但真真实实地讲,领域发展这么快,未来3~5年,我真的不知道!
11月8日,在新智元 AI World 2017 世界人工智能大会上,旷视科技首席科学家、旷视研究院院长孙剑博士将发表演讲,聚焦人脸识别等视觉前沿技术和问题,为我们带来计算机视觉最新技术和应用的精彩分享。
孙剑博士目前在旷视科技(Face++)担任首席科学家、旷视研究院院长。2003年毕业于西安交通大学人工智能与机器人研究所,毕业后加入微软亚洲研究院 ( Microsoft Research Asia),任职首席研究员。自2002年以来在 CVPR, ICCV, ECCV, SIGGRAPH, PAMI 五个顶级学术会议和期刊上发表学术论文 100+ 篇,Google Scholar 引用 25,000+次,H-index 60,两次获得 CVPR Best Paper Award (2009, 2016)。孙剑博士于2010被美国权威技术期刊 MIT Technology Review 评选为“全球35岁以下杰出青年创新者”。
孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 ( ImageNet分类,检测和定位,MS COCO 检测和分割),其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。同时孙剑带领的团队的研究成果也广泛被应用在微软 Windows, Office, Bing, Azure, Surface, Xbox 等多条产品线上。目前孙剑博士正在带领旷视科技的研究团队推进计算机视觉技术的进步和探索其在工业和商业上的实践。
全部0条评论
快来发表一下你的评论吧 !