亚马逊echo音箱也能破案语音识别如何更智能？

2016-12-29 8617

物联网

787人已加入

描述

亚马逊Echo智能音箱作为智能家居的明星产品已经被普通消费者所熟知，Echo一个重要的功能就是Alexa虚拟助手，只需透过语音命令，Alexa 就能帮你找到答案。但是最近美国阿肯色州警方认为它曾经“听到”过嫌疑犯的某些对话，而这些信息对一桩命案破解谋杀案至关重要，要求亚马逊交出嫌犯家中 Echo 记录下来的声音信息。

不过，亚马逊拒绝向警方上缴 Echo 服务器上的相关信息，但它们会将嫌疑的帐号资讯和购买纪录交给警方。借助这些信息，警察表示，可以从嫌犯的 Echo 上获得所需数据，不过他们到底拿走什么信息现在还是个谜。

由于 Echo 有永不离线的特性，但用户需要用特定的词语才能将其触发，不过在未触发状态下它是否会偶尔“偷听”并记录一些信息恐怕只有亚马逊知道。

这个新闻是不是听起来似曾相识？没错，美国警方也曾经要求苹果公司为其解锁iPhone，原因就是罪犯使用的iPhone手机是破案的关键点。随着科技的进步，科技产品的便利与消费者的隐私之间的矛盾越来越多。当然，今天我们是要通过这个事件来看一看这个具有用不离线特性能够通过语音控制的的智能音箱Echo。

亚马逊最新的第二代Echo Dot已经在美国上市，价格也从89.99美元调整为49.99美元。

Amazon Echo （左）及其第二代产品Dot

Amazon Echo（及其随后推出的Dot）开拓了一个新的市场，让装置供应商能够在语音获取、提高麦克风音频解析度、更先进的背景杂讯过滤、更好的音场检测与稳定连线能力等方面展开竞争，以提供更佳音频品质。

拆解Echo与Echo Dot

通过拆解Echo与Echo Dot并进一步比较后，IHS Markit嵌入式处理器首席分析师Tom Hackenberg说，「除了存储器供应商，我发现Echo和Echo Dot的处理元件并没有明显的不同。」

拆解Echo与Echo Dot （来源：iFixit）

根据iFixit所进行的拆解，Amazon Echo采用：

- 三星（Samsung） K4X2G323PD-8GD8 256MB LPDDR1 RAM

- SanDisk SDIN7DP2-4G 4GB iNAND Ultra Flash

而到了新版的Dot则改用：

- 美光（Micron） MT46H64M32LFBQ 256MB （16Meg x 32 x 4Banks） LPDDR SDRAM （挥发性记忆体）

- 三星KLM4G1FEPD 4GB高性能eMMC NAND Flash （非挥发性储存）

两款产品使用的处理器则是相同的。在Echo与Dot的核心采用的是「德州仪器（Texas Instruments；TI）的媒体处理器DM3725」，此外，高通（Qualcomm） Atheros QCA6234应用专用标准处理器则用于提供「连接性」。

Hackenberg解释说，虽然存储器可能稍微影响性能，但存储器定价是波动的。因此，对于Echo系列的所有产品而言，在其整个生命周期中改变所使用的元件也很平常。

相形之下，「连线模组，尤其是媒体处理器更加复杂，如果不是重大的产品更新，一般并不会改变，」他说。

Hackenberg指出，Atheros处理器专用于作为连接应用标准产品。其设计是以Tensilica定制化XTensa核心为基础，而且「它只做一件事——协调与网络的通讯，以利作业进行。」

Erickson补充说，「连接能力至关重要，因为它涉及哪些资料可被获取、传送与接收云端资料的速度与可靠度等。由于速度/响应的可用性因素，它直接影响到与扬声器之间的互动有多么「即时」。因此，Wi-Fi的吞吐量、服务品质（QoS）与范围的改善，都将有所帮助。」

所有的「本地」（local）智能功能是由TI DM3725进行处理。Hackenberg指出，「这是一款专为STB、TV、显示器、视讯游戏系统等各种多媒体应用而设计的系统单芯片（SoC）。」

DM3725是一款以ARM Cortex A8为基础打造的元件，并整合TI的C64x+DSP与3D绘图加速引擎。「Cortex A8是一款成熟且经济型的应用处理器，但又完全足够用于本地执行简单的任务，」Hackenberg表示。

然而，「如果应用变得复杂，而不只是一款扬声器这么单纯，可能就会有所变化。」

亚马逊echo

Amazon Echo Dot主板（来源：iFixit）

整合DSP

根据Hackenberg，这颗SoC的关键就在于整合了DSP，甚至可能是GPU。

「在一个典型的设计中，存在多个输入传感器（主要是麦克风）。整个音频输入首先经DSP高度滤波，使系统快速地理解用户的语音和环境杂讯之间的差异，」他说。

「它甚至能够解读相对于该装置的位置或甚至发话者是谁；它还建立了一种模式，能够经过处理以匹配该模式（通常发送至云端），」他补充说。

但是，GPU做什么呢？

Hackenberg认为，「对于本地智能，GPU可以用于更简单、但快速且高效的本地模式匹配。」

这可以让装置仍然回应所储存的控制模式，例如「降低音量」、「切换频道」或其他简单的控制，而无需网路连接，他解释说。「接着，应用核心根据所需提供的回应、启动/关闭所需的输入或控制以及必须显示的内容等条件来执行应用程式。」

麦克风阵列

Amazon Echo和Dot之所以吸引人之处在于它使用了7麦克风阵列。Amazon声称，Echo和Dot由于使用了多支麦克风和波束成型技术，因而「能在整个室内都听到你的声音——即使是正在播放音乐的环境下。」该公司还表示，Echo是一款专业级的调音扬声器，能以360°沉浸式音效充满在整个房间中。

根据IHS Markit负责MEMS和传感器的资深分析师Marwan Boustany表示，Echo采用了楼氏电子（Knowles）的MEMS麦克风。

Dot采用7支麦克风阵列

Boustany指出，为声音频率提升其讯号杂讯比（SNR）、匹配和性能，将有助于远场音讯获取，同时改善语音辨识。

但最终，「算法才是实现更优质语音辨识的真正关键，」他说，「所谓的『智能』就在于云端可能持续作为关键应用，而本地处理则可以提高对于简单/预定义片语（如Hey Siri等）的辨识能力。」

他以Cypheras为例表示，「这一类的软件供应商将有利于智慧家庭系统（如Alexa）中的语音辨识功能。」

Amazon Echo Dot （来源：iFixit）

本文参考微信公众号MEMS的文章

打开APP阅读更多精彩内容

亚马逊echo音箱也能破案 语音识别如何更智能？

描述

整合DSP

麦克风阵列

亚马逊echo音箱也能破案语音识别如何更智能？