互联网在进化，互联网的语言也在进化

电子工程师 2018-07-03 3423

电子说

1.2w人已加入

描述

流言止于智者，聊天止于呵呵。

在 2013 年之前，“呵呵”还只是呵呵，然而风云突变，这个一直被用作表达礼貌、微笑的词汇，却在 2013 年被网友评选为年度最伤人聊天词汇。如果以前的“呵呵”是尴尬而不失礼貌的微笑，现在则是充满嘲讽和攻击性的一个词。

时间来到 2018 年，互联网上最让讨厌的已经不再只有喷子，各种阴阳怪气的言论，比如“呵呵”，比如“你开心就好”，简直让人浑身难受，这种喜欢抬杠的人我们称之为“杠精”。

互联网在进化，互联网的语言也在进化，互联网的监管技术也在进化。在这场很难设定边界的对抗中，知乎已经率先向杠精开战。

▌什么是阴阳怪气？

想要对抗阴阳怪气，首先就要给它下一个准确的定义，然而这十分困难。

YC 联合创始人保罗·格雷厄姆将人跟人之间的意见不统一、反对、冲突分成了七个层级，叫 Disagreement Hierarchy（以下简称 DH 值），如下图所示：

阴阳怪气可用“杠精”这个词来指代，通常以“不针对发言内容，而是批评对方的语气”以及“提出反对意见，但不给或给出极少数论据支持”这两类常见言论为代表，此类评论极大了伤害创作者和交流者的体验，但难以解决。

——以上是知乎给出的定义。

当然，也有一些具体的例子，比如：呵呵，你厉害，你咋不上天呢，自以为是的人等等。而根据知乎 6 月的最新统计数据，被知友们踩过次数最多的 Top 10 评论有下面几种：

那你可真是够棒的！

你还是省省吧！

你开心就好。

相信大部分读者都对这些言论都非常熟悉，而且记忆犹深，毕竟被抬杠并不是一种好的体验。知乎给出的解决方案是：「阴阳怪气」等严重影响大家讨论体验的评论，作者可以「一键折叠」，其他知友也可以点「踩」，当被踩评论的分值达到一定阈值后，评论会被自动折叠。

除了依靠用户的自发行为之外，知乎也在尝试利用算法来识别阴阳怪气的言论。

▌如何对抗阴阳怪气？

作为知乎的“当家机器人”，瓦力算法除了作用于社区内的不友善、答非所问以及低质提问等内容外，最近也正在优化识别阴阳怪气类内容的模型。

根据知乎内容质量团队技术负责人刘兆来的说法，“瓦力已经产品化很久了，过去通过关键词和不友善文本识别模型，可以处理辱骂类的文本；目前，我们希望通过对阴阳怪气类的杠精性质评论进行处理，提升用户体验。”

刘兆来详细介绍了“瓦力”最新的阴阳怪气技术方案：首先通过知乎社区里的举报、反对等负向用户行为收集训练数据。然后通过各种同义词替换、规则模版方式对训练数据进行扩展，以缓解训练数据不足的问题。同时，“瓦力”提取文本、句法、表情符等特征，并利用一个带 attention 的 CNN 和 LSTM 的融合模型进行分类，最终判断出内容是否为阴阳怪气。

具体来说，可以分为以下几个步骤：

首先，进行数据增强，以提升模型的泛化能力；

数据增强是为了提升模型在大量数据上的泛化能力。在这方面，知乎进行了两种尝试：提取阴阳怪气关键词做替换，比如同音异字变换，洗地党→洗涤党，真的很恶心 → 震得很恶心；此外，知乎也利用提取出的阴阳怪气关键样本，随机构造评论上文与评论。

其次，提取相关数据特征，利用卷积网络以及人工特征等来获得更多更详细的特征；

特征构建层方面，知乎从文本特征、数值特征、阴阳怪气词以及表情词着手。文本特征即文本加入阴阳怪气关键词进行分词后，保留标点，表情等；数值特征即句子长度，句号数量，感叹号数据等；阴阳怪气词即提取社区内被踩过很多次的表示阴阳怪气关键词；表情特征：划分正负样本表情。

最后，将提取出的特征输入分类器。

特征学习层方面，主要考虑了评论和上文的文本特征，包括字，词，标点，表情符号等，并利用知乎全量数据训练 word2vec 模型。知乎将评论上文与评论经过 embedding 层后分成两个金字塔型 CNN 网络，目的是训练各自独立的参数，知乎采取 CNN 网络是因为 CNN 卷积可以捕获字词的位置关系也可以比较有效的提取特征。

除上述文本特征外，知乎也充分考虑了其它特征，比如评论长度，评论中句号，问号等标点的个数，评论中是否包含阴阳怪气关键词等；这些特征离散化后，与评论的卷积提取特征进行拼接，最后与评论上文的卷积输出进行 dot-attention 目的是获取评论上文与评论不同的权重。最后，知乎将特征数据全连接层以 softmax 方式进行了分类。

至于这个模型对阴阳怪气的效果如何，知乎运营总监孙达云表示，其准确率比大部分人工判断还要准。

▌难点在哪里？

然而，机器并不是总能解决所有问题，很多时候人工智能会表现的像人工智障。这一点，知乎自己也承认，特别是在理解人类语言这一领域。

上图是刘兆来列举的一些算法漏识别和误识别的情况：

通过分析这些 bad case，现代模型主要受限于训练数据。一方面是训练数据的覆盖范围不够广，所以一些不是很常见的词语，模型就会识别不出来。比如算法漏识别里的第二条，这些词在训练里面比较少，甚至在模型里面没有这些词，所以模型会识别错误。

第二个类型的错误，模型过渡弥合了一些数据，比如前面两条比较明显。第一条就是因为我们加入了一些标点符号数据特征，可能在训练数据里面有连续两个问号这种属于阴阳怪气的概率比较高。第二个，“哈哈哈”可能在阴阳怪气的样本里面比较多，所以模型会把这两个特征作为是不是阴阳怪气比较重要的根据，就会导致误判。

反讽本身是情感分析领域的一个传统难题，在孙达云看来，“解决阴阳怪气类评论的难点核心主要在于网络语言的复杂性，情感分析不同于普通文本分析，例如经典的‘呵呵’，由于双方不同关系、说话的不同场景和时间都会带来迥然不同的表意。即便是人工判定都存在标准化难度，算法模型的训练挑战就更为艰辛。”

总的来说，这项艰巨的任务的难点主要在于以下几点：

需要基于上下文理解深层语义

需要了解某些背景知识

训练样本难获取

……

面对这些问题，刘兆来介绍未来的工作重点：

训练数据获取。因为训练数据标注特别困难，后边会通过主动学习（Active Learning）来减少样本标注的时间和工作量。

语义分析。首先会尝试加入词语的褒贬样本，就是一些谐音语句；第二个就是在词表征方面，会尝试 ELMO 的算法，最近 ELMO 词向量在多个 NLP 任务能取得提升，ELMO 词向量利用双向 LSTM 训练获得，可以捕获上下文信息以及更深层的语义；还有就是尝试比较复杂的模型。

背景知识。不同领域会有一些用词的区别，未来会对于体育、明星等领域分别建立模型。

▌AI 的边界？

人工智能是建立在人类标准之上的，它代表的也是人类的价值观。然而，人们对“阴阳怪气”的定义仍然模糊，不同的人针对同一个评论也会有很大的分歧。知乎在做的，就是找到社区的最大公约数。

不同的人对于同一个内容会有不同的判断，这个没有问题，但是如果绝大多数人都认为这条评论内容是不礼貌的，它是冒犯性的，我们就需要对这条内容进行标记、进行干预，我们通过算法训练已经无限接近了最大公约数的概念。

人类可以接受人类犯错，但是很难接受机器犯错，特别是在机器做的还没有人类好的情况下。此外，用人工智能去管理人类，其实是很大冒险。有知友表示，“把社区越多的控制权交给社区，其实越会导致社区畸形，这是人性问题，不能通过人工智能解决。”

戴维·温伯格在《知识的边界》一书里写道：知识的网络化正在对知识的本质以及长形式思考在其中发挥的作用，带来一些根本性的变化。如果书籍告诉我们，知识是从 A 到 Z 的漫长旅程，那么网络化的知识可能会告诉我们，世界并非是一个逻辑严密的论证，而更像是一个无定形的、相互交织的、不可掌控的大网。

人类掌控不了的就寄希望于人工智能，于是我们努力去拓展 AI 的边界。至于它最终会不会让我们失望？这就需要留给时间去验证了。

打开APP阅读更多精彩内容