声纹才是“NSA 的统治地位所在”

传感器技术 2018-01-27 7950

描述

尽管我们已经知道 NSA 依靠指纹和面部图像来识别目标，但是根据 2008 年的一份机构文件，声纹才是“NSA 的统治地位所在”。

在美苏冷战最严峻的时期，那是 1980 年的冬天，美国联邦调查局（FBI）的特工人员记录到了一次通话——一名男子被安排与在华盛顿特区的苏联大使进行秘密会晤。然而，在约定的那天，调查局的特工们没能看到究竟是谁进入了大使馆。当时，特工们没有办法仅根据他的通话声音就查出他的名字，所以这个间谍得以继续藏匿自己的身份，并在随后的五年中，将一些美国机密项目的细节卖给了苏联。

直到 1985 年，根据一名俄罗斯叛逃者提供的情报，FBI 才最终确定了当时那名通话者为前美国国家安全局（NSA）分析员 Ronald Pelton。次年，Ronald Pelton 被判处间谍罪。

指纹识别

这种技术的原理在于分析个人声音中独特的物理和行为特征来区分不同人的声音，例如发声的音高、嘴型、咽部长度等。算法随后会创建个人声音特征的动态计算机模型，也就是通常所说的“声纹”模型。整个过程——捕捉所说的单词、将单词转化为声纹、并将这种表示与数据库中其他的“声纹”进行对比——都可以在瞬间完成。尽管我们已经知道 NSA 依靠指纹和面部图像来识别目标，但是根据 2008 年的一份机构文件，声纹才是“NSA 的统治地位所在”。

我们不难看出原因。NSA，无论获得许可与否，截取了数以百万计的美国公民的电话，甚至包括越洋电话、视频电话和互联网电话，从而建立了一个无可比拟的声纹库。来自斯诺登提供的文件显示，分析人员将部分人的录音提供给声纹识别算法之后，即使这些人在其他通话中使用未知的号码、秘密代码亦或是不同语言，算法都可以将其与已有的音频相匹配。

早在伊拉克自由行动时，分析人员就使用声纹识别技术，证实了那些“疑似被废黜的领导人萨达姆的录音”确实是萨达姆本人，而不像公众以为的那样是伪造的。NSA 的备忘录进一步表明，NSA 分析员为本·***也构建了声纹，“在几次放送中，他的声音都十分明显且一致”；与基地组织的现任领导人 Ayman al-Zawahri 以及基地组织的三把手 Abu Musab al-Zarqawi 有显著不同。他们也使用 Zarqawi 的声纹从几份网上发布的音频中找到了他。

据 2004 年至 2012 年间的机密文件显示，NSA 对其声纹识别技术进行了愈发复杂的迭代。文件证实了声纹识别在反恐行动和缉毒行动中均获使用。文件还建议更多国家机构部署这项技术，不仅仅是为了追溯像 Pelton 这样的间谍，还为了防止像斯诺登这样的举报人出现。

永远在听的算法

一些民权专家担心声纹识别技术和该技术的扩展应用将会侵害公民隐私。白宫前国家情报局局长顾问 Timothy Edgar 解释说，“声纹识别技术即创建了一种新的情报能力，一种容易被滥用的能力。”“我们的声音代替我们本人穿越各种渠道完成沟通。在大众监控的时代，这种能力对我们所有人的隐私都有深远的影响。”

Edgar 和其他专家指出，相比于姓名、地址、密码、电话号码和个人识别码，人声的相对稳定性使得其难以被改变或伪装。电子前线基金会（Electronic Frontier Foundation）的律师 Jamie Williams 表示，这让追踪变得“容易的多”。“只要你能识别出某个人的声音，”她表示，“你就能在监听记录或录音中找到他们。”

声音是一种独特且易于获取的生物特征：与 DNA 不同，它可以被动地被收集，且不受距离的限制，不需要目标知悉或者征得他们的同意。虽然识别的准确度受到收音条件的相似性，但是在受控的环境中——低底噪、熟悉的声学环境和良好的通信质量——这种技术可以用寥寥几句话就精确地匹配到个人。计算机模型拥有的同一个人的不同声音样本越多，模型就愈发强大，愈发“成熟”。

在商业环境中，声纹识别技术与呼叫中心欺诈审查、与 Siri 等语音助理交谈以及个人银行业务密码验证等任务关联密切。并且这种技术的用途正在逐渐增长，根据市场研究公司 Tractica 的报告，到 2024 年，语音生物识别技术产业的收入预计将达到每年 50 亿美元，其用途将扩展至边境检查站、医疗、信用卡支付和可穿戴设备中。

指纹识别

一位前国防情报官员，因政策所限无法对机密文件进行讨论，匿名对 The Intercept 表示，他相信这种技术一直隐而不漏绝非偶然。“政府避免讨论这种技术，正是因为它提出了一些严峻的问题，而这些问题政府不愿意回答，”这位官员如是说道。“这是自 911 事件发生以来，对于我们个人及我们的权利的一项重要转变。”而想要进入技术监控范围，官员指出，“你什么都不用做，张嘴说话就行了。”

民权主义者担心，如果没有针对政府秘密收集我们的语音模式这一事项的公开讨论以及监督，我们可能会进入一个越来越沉默的世界。

新型声音工具

2013 年开始，美国人就已经知道 NSA 在大量收集国内外的电话数据，但如何将原始数据转化为有用情报这一技术仍然鲜为人知。2015 年，据 The Intercept 报道，NSA 为处理政府收集的大量音频建立了一系列“人类语言技术”。通过开发程序自动将语音翻译成文本——分析员称之为“语音版 Google”——政府部门可以使用关键词和“选择器”来搜索、阅读和索引录音而不是派人亲自去听，从而节省了大量的人力。

从语音转写文字项目衍生的声纹识别技术为分析员提供了一种额外的工具，使其可以将不计其数的战区音频进行拦截与分类。NSA 和国防部斥巨资发展此技术并增加其可靠性。数字时代之前，声纹识别隶属于法庭科学。二战期间，人类分析员对来自无线电的声音频率的可视化输出进行比较。根据《法庭声纹识别》的作者 Harry Hollien 的说法，这些可以“阅读语音”的机器——即语谱图技术——甚至用来驳斥阿道夫•希特勒被暗杀并被人取代的谣言。

作为法庭声纹识别标准化事宜的联邦领导者，首席声纹识别专家 James Wayman 解释道：“声纹可以被看到，”他指出，虽然“声纹”这个词已经被商业公司用烂了，但其实有一定的误导性。因为“纹”意味着所捕获的信息是物理的，而不是行为的。他说：“其实你所拥有的是软件程序里的一个方程，能够输出不同的数字。”

这些方程已经从简单的求均值演变为动态算法模型。自 1996 年依赖，NSA 资助了美国国家标准与技术研究院语音研究所（NIST），培养和测试“解决声纹识别问题的最具主导性和前途的算法”。与 NIST 一起测试系统的还有，领先的生物识别公司和研究人员，其中有一些人获得了 NSA 和国防部高级研究计划局（DARPA）的资助。

指纹识别

11 月，根据国际刑警组织发布的新闻，由欧盟资助的一个国际声纹识别的项目通过了最后的测试。来自 50 多个国家的 100 多名情报分析员、研究人员和执法人员（其中包括国际刑警组织的探员，英国大都会警察局和葡萄牙司法系统的警察们）都来到了展示现场，研究人员证明他们的方案可以识别“社交媒体上或合法截获的音频中说不同语言的未知发言者”。

The Intercept 查阅的 NSA 文件中描绘了一个类似地正在发展的系统的轮廓——在 9/11 事件之后的几年里，这个系统的发展使得“语音分析员能够在几秒钟内对数百小时的语音剪辑进行筛选，基于关键词或说话者声纹识别筛选出有用的信息。”

“戏剧性”结果

指纹识别

但 NSA 的系统的功能远远不止回答“是”或者“不是”。在 2006 年的一系列通讯中，报道了一个名为“实时语音”（Voice RT）的项目，这个系统不仅能在语音拦截中自动识别说话者身份，还能识别他们的语言、性别和口音。分析员可以对拦截按上述类别进行分类，通过关键字进行实时搜索，并设置自动警报，在传入的拦截符合某些标签的条件时通知他们。一份 NSA 的 PPT 进一步证实，Voice RT 程序将其“摄入”的伊拉克语音数据转换为了声纹。

斯诺登提供的 NSA 备忘录并没有说明 Voice RT 的部署范围，而 GCHQ 的语音/传真用户组的会议记录中提到了这一点。英国机构的备忘录中的详细说明了 NSA 的声纹识别计划是如何针对外国目标进行部署的。2007 年秋季，当其语音/传真用户组在与 NSA 代表会面时，NSA 成员们介绍了一个高效的 Voice RT 系统，可以为语言学家和分析员提供说话者识别和语言类别识别能力，可以将语音转换为文本和并搜索语音。“实质上，”会议记录将 Voice RT 描述为，“一个一站式商店……他们为了提高系统的可部署性付出了大量的努力。”到 2010 年，NSA 的 Voice RT 程序可以处理超过 25 种外语的音频。在阿富汗，NSA 将语音分析和地图软件配合使用，定位那些讲阿拉伯语的信号塔集群——用来发现新的基地组织训练营。

GCHQ 则使用了一个名为 Broad Oak 的项目，根据声音来识别目标者。英国政府在中东地区建立了声纹识别系统，识别对象不乏沙特、巴基斯坦、格鲁吉亚和伊拉克的领导人。GCHQ 的会议记录称：“如果您认为我们可以帮助您在海量信息流中找到您感兴趣的目标，请随时与我们联系，我们很乐意与您讨论您的需求，并希望能够提供一个迅速准确的解决方案。”

这不是一张空头支票。2009 年，在识别伊拉克副总统之一 Adil Abdul Mahdi 时，GCHQ 吹嘘说他们比对手 NSA 做得要好。“由于我们一直以比他们更快的速度报告他（副总统）的相关消息，NSA 已经放弃参与其中 …… 此项良好的表现也提高了我们在 NSA 的声誉。“2010 年，GCHQ 的研究概述显示，两个机构就声纹分析项目的联合实验进行了广泛的合作。

但声纹识别工具的发展并非一帆风顺。在其早期阶段，这项技术远不如今天那么强大有效。前国防情报官员回忆说，虽然分析员能够在他们的工作站播放语音样本，但由于音频没有编入索引，搜索重要的样本是一个很大的挑战。在 SIDtoday 发表的一封 2006 年的写给编辑者的信中，一位分析员抱怨说语音工具的引入使其非常崩溃，并将其初始速度比作“流淌在一月的糖浆”。

然而到了 2007 年，声纹识别技术已经明显成熟。NSA 专门为伊朗总统 Mahmoud Ahmadinejad 的纽约市联合国大会之行建立的备忘录中详细列举了该技术的实际功用。在获得合法授权后，分析员配置了一个专门的系统，尽可能多的跟踪 143 名伊朗代表的电话。在所有的这些传入流量上，他们运行了语音活动检测算法，以避免目标在没有说话的时候分析员浪费时间跟踪；通过关键字来搜索“电子邮件地址的传递和重要人物的讨论”；以及根据说话者声纹识别来成功定位“包括伊朗外交大臣在内的重要人士”的对话。

指纹识别

2010 年，机构的技术人员制定出了一个应对这些调制声音的解决方案——应用 HLT Lite——一个用来搜索修改过或异常的声音的软件。SIDtoday 称，该方案在扫描了 100 多万条音频后，在也门发现至少 80 个经过修改的语音的例子。据报道，这使机构发现了同时使用几个新电话号码的目标人物。

随着系统能力的提升，他们的监控范围也在扩大。2010 年 9 月的一则通讯详细介绍了墨西哥城升级的声纹识别系统的“戏剧性”发展——网站的负责人称，堪比相当于一台额外的扫描仪。通过在音频拦截中搜索“bomba”这个词，分析员可以分离和检测有关炸弹威胁的对话。

声纹识别系统也可以很容易地通过重新配置，用在别的地方。GCHQ 2008 年 10 月的会议记录描述了一个“涉及阿富汗毒品交易的高层人员网络”的建立过程，这个网络后来被“投入到意想不到的应用之中”。分析员甚至“在毒品流量较大的区域进行了一次地毯式搜索”来识别更多的目标。

从战场上到机构中

NSA 很快意识到，他们的录音处理能力可以用来识别 NSA 内部的员工。正如 2006 年 1 月那篇讨论 Ronald Pelton 的音频的备忘录所解释的那样，“声音匹配技术正被应用到新提出的内部威胁（Insider Threat）计划中，企图捉住『我们中的间谍』。”

在美国军方告密者 Chelsea Manning 泄密之后，该计划由奥巴马政府公开宣布，其内容是密切监视政府雇员的生活。但这份文件似乎表明，该举措在 2011 年奥巴马颁发行政命令之前就已经开始实行了。

据新闻自由基金会的 Trevor Timm 的分析，NSA 将用于检测外部威胁人员的生物技术运用到检测内部成员中的异见人士身上这一手段并不新鲜。“在过去 15 年中，我们已经看到了一连串这样的例子：执法机构把那些侵犯式的、本来作用于恐怖分子身上的工具——无论是定位跟踪还是人脸识别，或者是像这种声纹识别技术——用于其它各种犯罪调查中。”

Timm 指出，在过去几年中，告密者，情报人员以及记者都采取了更严密的安全措施来避免暴露身份。但是，“如果记者使用的电话号码并未与其身份关联，那么政府就会通过许可证等方式来扫描他们通话，这项技术也将潜在被用于抑制新闻业的发展。”

对于情报圈的民权律师第一人 Timothy Edgar 来说，这些“风险”可以归为这样一个问题：“他们是在寻找正当目标，还是在滥用权力？比如试图监控记者或告密者这样的做法？”

Edgar 说，在某些方面，声纹识别或有助于保护个人隐私。这项技术允许分析员来筛选电话，这样他们就可以专注于目标人物的声音，从而剔除掉其他人的声音。一份 2010 年度的 SIDtoday 备忘录强调，通过确保“该名说话人是某国领导人而非甜甜圈店的某个服务员，”该技术可以降低情报人员所需监听的通话量。

“事实上，”这一级别的精确度，成为了“NSA 解释当初大量收集元数据的做法的挡箭牌”，Edgar 解释说。“他们为项目进行辩护的手段之一，就是自称没有收集所有的数据，而是通过筛选器来收集信息。”

同时，从大量数据中识别特定个体的目标，常常证明了继续收集更多数据的必要性。识别可以帮助分析人员缩小电话接听的范围，但这项技术似乎会鼓励他们在更大范围内进行搜索，因为本质上这项任务的目标是监听目标声音出现的对话，无论他用什么号码拨出。或如 Pelton 备忘录所指出的那样，这项技术使得分析员能够“在任何地方辨别出那个声音。”

虽然这些文件表明，该机构确实试图在其员工身上运用这项技术，但 The Intercept 所查阅的文件并没有明确表明，该机构是否已经在美国普通公民的对话数据中进行声纹创建。

外国人情报监视法案（Foreign Intelligence Surveillance Act，FISA）规定，机构可以自由收集在国外服务器和基础设施上传输的音频数据，以及美国人与外国人的语音交流数据。因为项规定，Edgar 称，越洋电话“基本上”是被系统录过声纹了。“如果他们没对越洋电话使用这些技术手段，我才会感到惊讶。在某种程度上，这就是他们的工作内容。”

然而专家们对“NSA 是否有权利在没有许可的情况下扫描美国公民在美国领土上进行的通话并制作声纹”这一议题表现出了分歧的态度。这种分歧部分源自监督相关法律的不完备，这方面的法律未能跟上声纹与语音识别等数字技术的发展。

虽然美国已经制定了严格的法律，禁止在没有许可证的情况下对美国领土上进行的电话内容进行记录，但也没有任何联邦机构负责监管声音数据的采集和处理事宜。

监管缺失的部分原因是，虽然政府需要许可才能获得“内容”，但声纹应该被归类为“内容”吗？或者像 NSA 声称的那样，声纹不过是“元数据”——这部分信息所受的法律保护就少多了。在这个问题上，法律基本上没有做对这部分信息做任何具体的规定，这导致一些专家推测，NSA 正在利用这一法律灰色地带实行声纹建立。

针对一系列详细的问题，NSA 给出了如下的回应：“根据长期政策，NSA 将不确认也不否认该文所指的涉及的美国政府信息的准确性。”

无所不用其极

星期四，参议院投票通过扩大外国人情报监视法案（FISA）的 702 条，这使得 NSA 有权对那些与外国人沟通的美国人进行暗中监视，且不需要许可证。这种再授权行为，与上周在众议院的行动类似，证实了那些评论家的观点，他们认为 NSA 对其法律权力的解释整日益强硬——同时日益模糊。

计算机科学家和监控研究专家 Andrew Clement 在斯诺登披露相关信息之前就已经在调查 NSA 的无许可窃听活动。他坚信，该机构对美国公民的声纹识别的利用并未收到任何限制。他解释说，该机构经常选择将收集到的所有信息进行分类，直到达到人类分析员能够将其作为元数据来进行听或读为止。“那只是一个巨大的漏洞，”他解释说，“看来，他们会把通过算法方式从内容中获取到的任何信息，都简单地归类为元数据。”

Clement 类比了 NSA 对待电话号码和电子邮件地址的方式，来类比 NSA 会如何将建立声纹的行为合法化。斯诺登在 2013 年披露的 XKeyscore 项目，就允许工作人员从截获的电邮中提取出电邮地址（它们被归类为元数据）。这些工作人员还可以对关键字进行全文搜索，它们同样被归类为上下文信息而不是内容。

然而 Edgar 认为，如果政府把我们的声音也算作元数据，那么他会大吃一惊。“你可以试着辩解说，声音特点不等于说话内容，”Edgar 说，“但是为了做声纹识别，你还是得收集一通国内电话的内容，并对其进行分析以便提取出声音。”

目前还不知道 NSA 收集、取样或保留了多少国内的通话内容。但 EFF 的 Jamie Williams 指出，NSA 不一定非得通过收集美国人的电话录音来制作美国人的声纹库，因为民营企业就一直在记录我们的声音。他们正拥有越来越多的音频资源。汽车、恒温器、冰箱、电灯泡，甚至是垃圾桶，都已变成了“智能的”（即互联网化的）语音设备。Gartner 预测，今年有三分之一的人机交互将通过与语音系统的对话来进行。最近，Google 和亚马逊的“智能音箱”都推出了声纹识别系统，用以区分家庭成员的声音。“一旦公司拥有这些声音数据，”Williams 说，“在理论上，执法机构就能拿到它，只要他们有一个有效的法律程序。”

这位前政府官员指出，原始语音数据可以存储在民营企业那里，并供 NSA 通过秘密协议进行访问。比如在 Fairview 计划中，该机构与 AT&T 是合作伙伴关系。尽管美国国会试图控制 NSA 对国内电话记录的收集行为，但该机构一直在寻求获得我们提供给企业数据库的原始数据。（例如与 Verizon 和 AT&T 的合作伙伴关系，对 Xbox 游戏系统的渗透，以及对万千网友的在线元数据的暗中收集，这些只是几个最近的例子。）“电信公司持有数据，而没有什么可以阻止他们运行一个算法，”这位前官员说。

Clement 想知道的是，对于 NSA 而言，可能声纹识别能力比其内容识别能力更为重要。“这可以让他们把你和你自己的其他身份联系起来，并确定你和其他人的关系，”他说。

这似乎才是 NSA 的最终目标。在 2010 年的一次关于“一次前所未有的机会，了解 NSA 如何将其创造性的能量用于个人跟踪”的会议上，NSA 的高层领导谈到如何将“全生活（whole life）”战略纳入他们的目标。他们描述了将生物特征数据（比如声纹）与传记资料（如社交网络和个人历史）进行整合的需求。用该机构自己的话说，“一切都是关于在空间和时间上进行个人定位、跟踪和维护的连续性。我们不局限于传统的通讯方式——我们无所不用其极。”

打开APP阅读更多精彩内容