语音识别系统要想继续拓展市场还存在不少挑战

独爱72H 2020-05-19 683

音视频及家电

734人已加入

描述

（文章来源：智能制造网）

近年来，随着人工智能概念的走红和落地，全球掀起了一股智能化风潮，为生物识别、机器视觉等产业的发展带来了巨大利好。目前，以语音识别、人脸识别为代表的生物识别技术在世界各国得到了广泛应用，并加速实现规模化商用。

其中，语音识别技术的发展与应用正越发成熟，智能音箱、聊天机器人、客服机器人等产品获得了消费者的普遍认可。然而，近日斯坦福大学一项研究成果表明，亚马逊、苹果、谷歌、IBM和微软这五大科技巨头的语音识别系统可能存在种族差异。

该研究显示，美国五大科技公司的语音识别系统在对白人用户和黑人用户的识别中，白人群体的错误率要比黑人群体少得多。此外，有高达20%的黑人用户音频片段被系统判定为不可读。据此，斯坦福大学相关研究人员认为，这些公司的语音识别系统显然存在歧视性。那么，真相是什么呢？

一般来说，借助人工智能技术，语音识别系统等智能化产品都具备自我学习能力，可以根据开发者提供的数据资源进行自我训练，从而不断成长、提高系统性能与服务水平，增强与人类用户的沟通、理解能力。但是在这一过程中，开发者提供的数据资源成为了关键。如果开发者本身存在种族偏见，选择的数据资源也非常具有指向性，那么必然造成语音识别系统在初期学习中，就会养成类似种族偏见的“习惯”。

斯坦福大学的研究也表明，上述公司的语音识别系统在训练时，所使用的数据就显得有些片面化，不够多样性。因此，语音识别系统在训练时如果得不到丰富、多元的数据，形成“歧视观念”就难以避免。相对于在初期训练中具备的“本能”，语音识别系统在后期用户使用过程中所受到的影响也是关键性的。如果语音识别系统的主要用户是特定的某一群体，那么其持续自我学习数据的来源将变得非常“单调”。

从目前美国市场的反馈来看，五大科技巨头开发的语音识别系统更多的使用群体是白人，黑人用户相对而言较少。所以，在白人用户偏多而黑人用户偏少的情况下，语音识别系统所收集、利用的数据多样性不足，就会造成对特定用户群体的识别准确率偏差。

所以，针对这种情况，相关企业应当重视起来，通过人为干预等方式，补充黑人群体、亚裔群体、拉丁裔群体等其他种族人群的语音信息，以保证语音识别系统在学习过程中接收信息的平衡性，从而尽量避免出现歧视后果。

除了开发者、使用者所提供的数据存在多样性问题外，很多网友认为，这和不同群体之间的口音差异也应当有一定关联。相对于白人群体，其他种族的人群在发音上或多或少都会与之有差异，这可能是语音系统在识别方面有偏见的原因之一。

其实在我国，也存在地方方言导致语音识别有差异的情况。从大的方面来说，北方人和南方人的发音就不尽相同，就普通话识别来说，肯定是北方人的识别准确率更高。因此，方言、发音等因素也应当被考虑在内，而不是简单地判定为种族偏见。

可以看出，语音识别系统要想继续拓展市场还存在不少挑战，如果无法克服用户群体倾向性、方言和发音等硬伤，那么显然不利于语音识别产品实现进一步普及，也不利于其获得更广泛用户的认可。对于语音识别行业来说，市场前景固然广阔，但也必须努力克服眼下的困境，才能迎来真正的腾飞。

（责任编辑：fqj）

打开APP阅读更多精彩内容