利用开发出的机器学习模型，检测可以标识出抑郁的语音，单词和语调

nlfO_thejiangme 2018-09-25 2546

电子说

1.2w人已加入

描述

传统的抑郁症诊断方式，是基于医生的临床经验，通过采访患者，询问病人过去精神状况，生活方式和情绪等问题，根据患者的反应来确定病情。近年来，机器学习开始被用作诊断的辅助手段：利用开发出的机器学习模型，检测可以标识出抑郁的语音，单词和语调。这种方法需要患者来对某些特定的问题给出答案，由于算法较依赖于被问到的问题类型，因此在使用时有其局限性。

近日，来自MIT的研究人员详细介绍了一种神经网络模型，该模型可以直接通过对采访中的原始文本和音频数据进行处理，从而判断其抑郁倾向。其优点在于：其不局限于特定的问题和答案，而是可以针对随意给定的主题来做出判断。研究人员希望这种方法可以通过日常对话来进行诊断，通过这种模型来发现人们在短信或者语音聊天中是否有抑郁的迹象，并发出适当的提醒和警告。其针对的对象和应用前景主要在初步诊断和防治领域：尤其对于那些因为距离、成本或缺乏疾病防控意识而无法前往临床医生进行初步诊断的人尤其有用。

研究人员认为：在对话中体现出的快乐，兴奋，悲伤，或者一些诸如抑郁症的严重的认知问题，都是通过谈话而获取第一手资料的。如果想要应用抑郁检测模型，在数据采集时候就需要尽可能地减少对于谈话的限制，最好是能从日常谈话中抓取有用信息。

研究人员同时指出，研发的难点在于：每位患者都会以不同的方式和风格进行表达，如果模型发现一些异常的变化就会向医生发出进一步的警告。尽管如此，这一模型在临床诊断中起到了很大的辅助作用，这一进步让人们看到了模型解决抑郁检测的希望。

Context free modeling

模型的关键创新在于能够检测与抑郁症相关的模式，并将这些模式映射到新的个体，而无需额外的信息。研究人员将这种方式称为不基于上下文的模型，因为它不需要对寻找特定反应模所对应的问题做出限制。

传统的模型会提供一组特定的问题，然后分别标记反馈没有抑郁症的人，以及有抑郁症的人对于该例子的反馈，例如，通过询问诸如“你有抑郁史吗？”这样的问题，然后根据回答问题时的反应来分析是否有抑郁症倾向。这种方法虽然行之有效，但这却不是通常对话所进行的方式。

为了解决传统方法的弊端，研究人员使用了一种称为序列模型的技术进行语音处理。通过这种技术，他们一个接一个地从抑郁和非抑郁个体的问题和答案中提供文本和音频数据的模型序列。随着序列的积累，该模型可以提取出有或没有抑郁症的人出现的语音模式。诸如“悲伤”，“低”或“向下”之类的单词可以与更平坦且更单调的音频信号匹配。患有抑郁症的个体也可能说话较慢并且在单词之间使用较长的暂停。

该模型可以分析单词或说话风格的序列，并确定这些模式是否更容易在抑郁或抑郁的人身上表现出来，如果在新的案例中看到相同的序列模式，模型便可以根据训练的结果预测其是否有抑郁倾向。这种技术还有助于模型将整个对话视为一个整体，并分析有抑郁症和无抑郁症的人之间随着时间推移所产生的差异。

检测抑郁症

研究人员利用抑郁分析面试语料库中的142次交流作为数据集来进行了训练和测试，这些资料来源于心理健康问题患者的音频，文本和视频访谈。这些数据使用个人健康问卷进行评定，每个受试者按0到27之间的等级评定抑郁。高于中度（10至14）和中度（15至19）之间的得分被认为是有抑郁的，而低于该阈值的所有其他得分则是健康的。在这一数据集中，有28个（20％）被标记为抑郁。

在实验中，使用精确度和召回率来评估模型。精确度用来判断哪些受试者被诊断为抑郁。研究人员评估了该测量模型。在精确度方面，该模型准确率为71％，召回率为83％，平均综合得分为77％。在大多数测试中，该模型的各项指标几乎都超过了同类其他模型。

研究人员指出该研究的一个关键方面是，在实验过程中，该模型需要更多的数据来预测音频中的抑郁。通过文本，模型可以使用平均七个问答序列准确地检测抑郁症。而通过音频，该却模型需要大约30个序列。这意味着人们使用文本语言时表现出抑郁的倾向，比在使用音频时所需的时间更短，麻省理工学院的研究人员可以利用该点为切入点，进一步完善他们的模型。

这项工作具有非常鼓舞人心的研究意义。现在模型的识别方式还类似于黑盒子，研究人员正在试图解释其所发现模式的规律。该模型不仅仅局限于抑郁症的诊断识别领域，未来，人们还希望将这种方法推广测试来自更多具有其他认知障碍（如痴呆）的受试者中去。

最后，希望小伙伴们天天愉悦，笑容是最美的~~

打开APP阅读更多精彩内容