工程师们描述了一种算法-SybilEdge-来检测假账户

工程师人生 2020-04-24 3849

描述

　　在今天Face book博客上的一篇文章中，工程师们描述了一种算法-SybilEdge-来检测假账户，这些假账户在注册时逃避Face book的反虐过滤器，但还没有足够的朋友来延续虐待。目标是降低账户对其他用户发起攻击的能力，部分是通过比较用户向扩展社交网络添加好友的方式。

　　SybilEdge能够发现假的Face book账户不到一周，朋友的请求不到20个，它立即申请平台来处理关于流行的一波误导性信息。路透社牛津大学新闻学研究所发表的一项分析发现，33%的人在Twitter、Face book和YouTube等社交网络上看到了某种形式的关于COVID-19的错误信息。

　　在设计SybilEdge时，开发团队指出，施虐者需要连接到目标才能发起虐待-也就是说，他们需要找到目标，向他们发送朋友请求，并接受请求。也许不足为奇的是，Face book内部研究表明，非用户在选择朋友和那些朋友对朋友请求的回应方面都有所不同：假帐户的请求比真实用户的请求更经常被拒绝。此外，假账户在选择朋友请求目标时往往很小心，这可能会最大限度地提高他们的请求被接受的概率。

　　Face book创建了一个语料库，通过将用户分成两组来训练SybilEdge：那些更有可能接受来自真实帐户的朋友请求的人和那些可能接受虚假帐户请求的人。如果前者拒绝传入的请求，它将发出请求者是合法用户的信号。另一方面，如果接受更多假请求的用户接受请求，则表明请求者可能是假的。

　　西比尔边缘分两个阶段工作。首先，它是通过观察上述样本的时间来训练的，然后它利用Face book的行为和内容分类器的输出，这些分类器根据实际的滥用标记帐户。这个训练阶段为模型提供了所有必要的参数（即从数据中估计的配置变量，以及模型在进行预测时所需的配置变量），以便为每个朋友的请求和响应实时运行，并更新请求者被假的概率。

　　Face book声称，SybilEdge在检测假账户方面的准确率高于90%，平均有15个或更少的朋友请求，在检测5个朋友请求的假账户方面的准确率高于80%。此外，与其比较的基线不同，它的性能不会随着更多的朋友请求而降低（超过45）。

　　“SybilEdge帮助我们快速识别施虐者，并以一种可以解释和分析的方式。在不久的将来，我们计划研究更多的方法，可以进一步加快发现滥用帐户，并帮助作出自信的决定，甚至比SybilEdge更快。我们计划通过混合基于特征和基于行为的模型来实现这一点，“Face book写道。

　　Face book正向一种名为自我监督学习的人工智能培训技术迈进，在这种技术中，未标记数据与少量标记数据一起使用，以提高学习精度。 Face book的深度实体分类（DEC）机器学习框架在部署以来的两年里导致平台上滥用账户减少了20%。在一个单独的实验中，Face book的研究人员能够训练一个语言理解模型，该模型只有80个小时的数据，而人工标记的数据为12，000个小时。

打开APP阅读更多精彩内容