每一个场景都需要AI的未来还会远吗？

电子工程师 2018-07-15 3559

电子说

1.2w人已加入

描述

激荡六十年，人工智能已经起航。然而在未来面前，我们都还是孩子。究竟是“奇点临近”？还是泡沫行将破灭？为了解惑，《AI名人堂》将汇聚领航者智慧，和你一起探索前行的方向。

2015 年，有投资人跟云知声创始人/ CEO 黄伟说：“老黄啊，你要专注赛道，做好语音识别就够了。”

不过，他并没有听。“人工智能必须实现云、端、芯的一体化”，这个念头已经在他的脑中萦绕了近两年。

这一年，黄伟组建了芯片团队。

不仅公司内部，就连业内同行多数投来了不理解的目光。“一个做软件的，搞什么芯片？”

2018 年 5 月 16 日，云知声发布了第一代 UniOne 物联网 AI 芯片“雨燕”及解决方案，并且有望在下月实现量产。在这 5 天前，他们刚刚拿到资本 1 亿美元的 C 轮融资。

年初，中兴事件的发酵，掀起了科技界的一股造“芯”热。不少人幡然醒悟。半年间，不少创业公司，纷纷号称要做自己的芯片。

AI 科技大本营统计发现，综合了国内多家已发布的人工智能榜单数据，截止到目前，国内公开可查的 50 家主流 AI 创业公司中，宣布已经“推出 AI 芯片或芯片模组”的至少有 8 家。

这批有着激进时间表的公司大多在当前各自领域占据了一定优势地位。有的很早就开始着手 AI 芯片的研发，有的才刚刚推出芯片模组。

在近日创业黑马的 AI 独角兽评选活动上，与云知声站同一登台亮相的还有寒武纪、地平线、出门问问、思必驰……

他们不约而同盯上的，正是芯片。为何一定要造芯？

▌场景定义芯片

人工智能芯片这个赛道上，GPU 成为 AI 芯片代名词，FPGA、ASIC 日受青睐。目前，老牌芯片巨头英伟达、AMD、英特尔、高通等扮演着主要角色。

而云知声做的则是针对 IoT 场景下的全栈式终端芯片，这也决定了其“云端芯”概念的定位。

“当时我们讲的‘云端芯’，‘云’是云端服务资源的聚合；‘端’是不同设备终端的交互；‘芯’是一种泛芯片，不是一个独立的芯片。所以，我们第一代产品也是通过若干个芯片来实现一个功能。而语音交互是一个非常复杂的链路过程，在过去，一个芯片只能实现一个功能。所以，为了实现语音交互这种能力，需要将若干芯片配凑在一起。”黄伟讲到。

因此，彼时的云知声选择了诸如高通、全志等厂家的芯片，再将自己的算法融入进去，构建 AI 芯片模组。

不过，“AI 不会只发生在云端，一定有边缘智能，而且想要渗入到每个场景，对端一定会提出很多个性化的需求。”这个想法的推动下，以 2015 年成立芯片团队后，云知声走上了自研芯片的道路，并于今年 1 月成功流片。

黄伟认为：“无论是 CPU、GPU 还是 FPGA，现有的芯片架构并非为 AI 专门设计，并不能满足 IoT AI 算力的需求。”研发芯片是需要规模化地使用算力，衡量一个芯片最主要的标准，就是看它能不能大规模的出货。

清华大学微电子所魏少军教授表示：“做语音芯片一定要看应用场景，目前很多场景下并不需要用到人工智能技术或者专门的语音芯片。”

这个问题同样也拷问着黄伟。

他认为：“未来 AI 可能会融入到每一个场景，只是说需要的能力不太一样。关键是，AI 是一种能力，可能未来所有场景都需要 AI，只是说哪些先被 AI 赋能而已。”

那么，这个未来又有多远呢？

▌是做眼前的生意，还是未来的机会

据最新资料显示，云知声已在智慧生活（家居、车载、机器人等）和智慧服务（医疗、教育、司法等）等场景有所布局，其合作伙伴数量超过 2 万家，覆盖用户超过 2 亿，云平台日调用量 4 亿次。

其实，不少创业公司在以上领域均有业务布局的交叉，且彼此均占有不小的市场份额，可以说市场竞争相当激烈。那么，“这就在于一个判断，你是想做未来的机会，还是眼前的生意。首先，一定要选择一个自己比较有竞争优势的行业，比如，这个行业比较新，还未形成垄断的壁垒。我们会选择当下比较困难，但未来是有机会点的领域。”

谈及未来，黄伟表示：没有任何一个企业的创始人在创业早期就能确定一个很明确的商业模式，而且明确自己以后一定能够成功。商业模式是不断地试错、修正的。很多上市公司，上市时的商业模式和它成立时的战略是不一样的。

所以，回到自己身上，“目前我们仍处在希望占据更多的设备、服务更多的用户，然后产生更多的数据这个阶段。如果你有用户和流量了，你未来一定是有价值的。”

对于盈利，黄伟颇为自信，他认为这个时间点将很快来临。“以智能音箱为例，2017 年双十一之后的季度出货量基本在 100 万台，而 2018 年这个数字有望上升到 1000 万台。这个反映出：IoT 的市场和起步速度在增长。此外，企业对这个领域的研发投入正在增加。”

▌数据很重要，但不是最决定性的

对于在 2012 年 11 月就发布了的深度学习框架，黄伟是非常自信的。

网上流传着这样一个故事：

2006 年深度学习鼻祖 Hinton 提出深度学习之后，微软在 2011 年间将它应用到语音识别领域，当时，黄伟的师兄俞栋（深度学习开源软件 CNTK 的作者和主要发起人之一）还是微软语音和对话组的研究员，他在意大利佛罗伦萨交流时曾告诉黄伟这是趋势，这给了他一些启发。

深度学习在于需要大量的数据进行训练，很快，云知声就发布了自己的“语音识别公有云”，短短不过一年，平台上就已经有 1000 名开发者加入。利用开发者以联动各家 App，将收集的用户的语音数据快速集中到平台上，以加强自身模型的训练。

目前，云知声已形成了“金字塔”式的技术架构，底层是 DeepFlow 集群；中间层是 Atlas 超算平台，将统计学习和深度学习里的通用算法抽样出来；顶层是应用层技术，如有 ASR、TTS、NLU、NMT 等应用层技术的输出。

值得一提的是，数据积累到一定程度后，海量数据带来的红利会越来越少。如语音识别，数据量从 1 万小时增长到 10 万小时，准确率会提高 1%~2%，但这差别应该不是很大。如果此时还仅靠深度学习技术按照传统的方式训练数据，基本很难树立更高的技术壁垒。

黄伟表示赞同，但他认为，在 AI 的能力里面，数据很重要，但数据只是能力之一，不是最决定性的。“发布深度学习框架之前，我们的统计模型是基于统计学习的，就是用结构化模型去描述复杂物理世界的一些问题。当时，对我们来说，几百小时和几千小时的差距不会特别大，甚至比科大讯飞的准确性还要高。”

▌现阶段，以技术推动产品

人工智能领域，目前仍然具有较高的行业门槛，这也随之拉大了企业之间的竞争激烈性，而 AI 专业人才尤其是有相关项目研发经验的人才更是屈指可数。除了从各大技术公司挖角外，创业公司也纷纷开始创办自己的 AI 研究院，以扩充自身人才，加强技术壁垒。

2015 年底，云知声成立了 Unisound AI Labs，汇集了从语音、语义、机器学习、超算等各个技术方向的人才。截止目前，团队人数已近百人，博士生几乎占到一半。

谈到如何进行人才管理和设计总体的未来路线图，黄伟表示：“AI Labs 是不需要管理的，技术人的自制力本身很强。难的是在于如何去建设、招揽人才。钱绝对不是第一位，他们看重的是能否在团队里获得成长。”

实际上，这个团队是为产品服务的，并非纯研究的团队。目前云知声也开始从产品驱动技术的阶段向技术定义产品的阶段过渡。也就是说，“研究院应该提供一些更具前瞻性的技术能力，一种产品原型，用原型去驱动市场。以技术推动产品，这才是一个真正有创新力的技术公司应该做的事情。”他最后提到。

▌定位决定了你的挑战

据AI科技大本营了解，除了云知声5月成功推出 AI 芯片 UniOne之外，云天励飞、出门问问、Rokid、思必驰也暗暗筹谋自己的“芯片”。说起来，这几家企业并非研发芯片出身。

为什么敢做芯片？黄伟这样解释：“在 IoT 这个场景里面，算法起的作用比较大，而且它也不追求芯片的制成。这种芯片是放置在冰箱、音箱中的，可以理解成：用人工智能最领先的算法和芯片行业一年前的能力相结合，就可以满足这个行业产品的需要。所以，芯片设计本身不构成我们今天最大的问题。”

但与寒武纪、地平线相比，“它们对标的是英伟达，这是高端芯片，这种比拼更像一种军备赛。他们可能也会考虑商业层面的成本、价格功耗等问题，但最优先级的一定是计算能力。”

放在自然语义理解这个领域，目前对于整个行业来说均未取得一个比较明显的效果。在他看来，主要有以下三点因素：

首先，图像识别和语音识别都是数据驱动的。自然语义理解在知识上就存在一个不确定性。

其次，自然语义理解，同样一段话，不同的人读都会得到不同的感受。在图像、声音、文本里面，最难的是如何理解文本。

此外，如今的自然语义理解发展差距不大。

对于云知声来说，黄伟坦言：“在理论框架真正得到一个大幅度的改善之前，我认为唯一能做的就是在场景里把它做到最优。能够把产品的用户需求摸透，把数据、用户体验和技术很好的匹配起来。”

打开APP阅读更多精彩内容