信息社会产生的谣言，还是借用技术来解决

电子工程师 2019-05-16 3449

电子说

1.4w人已加入

描述

近期，HBO出品的台剧《我们与恶的距离》热播，在感慨剧情深度的同时，也引发了对于媒体行业生存现状的反思。

《我们与恶的距离》剧照

一方面，人们希望媒体能够坚持所谓“新闻理想”，另一方面，在信息爆炸讯息光速传递的今天，媒体人要坚守“客观真实”的报道，实属难得。

作为一位媒体从业者，文摘菌对于女主角新闻台副总监“宋乔安“印象深刻。

贾静雯饰演宋乔安，演技炸裂

影片一开始，我们就目睹了一起抢热点的假新闻事件。多家媒体同一时间播报了一条泰国发生爆炸的消息，令宋乔安和同事感到措手不及。这条消息没有得到前方记者的证实，也缺乏官方认证，用媒体术语来说，就是不具有权威信源。但是，该爆炸性新闻自带流量，若证实有中国游客身亡，更会让它成为一条名副其实的爆款新闻。

竞争对手们争相播报，宋乔安压力颇大，尽管没有拿到真的信源，依然硬着头皮播了这条新闻，但最终，它被证实是一条假消息。

机器学习假新闻判别

宋乔安的尴尬处境也恰恰是当代媒体真实写照。突发新热点多，真假难以被证实。或许，我们可以在算法的帮助下，打破这一困境。

《我们与恶的距离》剧照

AI谣言粉碎机

今年愚人节当天，阿里宣布了一项新技术被称为“AI谣言粉碎机”。这项技术的算法模型通过深度学习和神经网络，设计了包括发布信息、社交画像、回复者立场、回复信息、传播路径在内的判断系统，将谣言识别和社交用户观点识别打通，最快1秒内判定结果。在特定场景中的准确率可达到81%。

阿里希望帮助社交平台和新闻网站在假新闻尚未造成大面积伤害时就快速识别出来，遏制其传播。在信息被证实为谣言后，AI还可通过虚假信息的传播路径，定向给阅读过此信息的用户进行辟谣。

SemEval语义测试大赛中，根据主办方提供的过去两年社交媒体Twitter和Reddit上的近500个真实言论和1万多条相关反馈数据，阿里巴巴的人工智能技术对假新闻识别的准确率创造了新的纪录。达摩院语言技术实验室首席科学家司罗表示，“AI谣言粉碎机”未来有望帮助社交媒体的审核机构承担60%的工作量。

Breaking Data

英国有一家体育媒体GiveMeSport，是一个主要基Faceboook发布体育相关的新闻，最后被人工智能公司Breaking Data 收购，目前在新闻频道的两个终端应用了AI技术，可以分析和反应片段及重大新闻报道。

Breaking Data运用自然语言处理技术扫描Twitter，通过相关推文筛选预定关键词，如运动队、球员姓名、球队名称、俱乐部、联赛或运动场。经过筛选和验证关键词，将其分为“重大事件”，“相关新闻”或“大幕新闻”等类别; 并在BreakingSports Slack频道中作为警报发送给记者。GiveMeSport正在使用Breaking Data的技术将其他公开可用的数据源（如Facebook，Reddit和Wikipedia）整合在一起。

这个平台通过识别可靠的信息来源来判断推文是否可靠，例如，欧冠中当巴萨以3：0战胜利物浦时，人工智能平台可以跟踪Twitter上的内容何时首次出现，并将该帐户标记为可靠的权限。

用AI打假AI合成图片

除了假新闻，AI合成的视频和照片也越来越多，利用算法实现AI换脸技术已经很成熟。针对此种情况，成立于2017年的旧金山初创企业人工智能基金会(AI Foundation)，他们正在开发的Reality Defender将帮助人们识别由人工智能算法生成的内容，以检测潜在的虚假媒体。

与病毒防护类似，他们的工具扫描每一幅图像、视频和其他媒体，寻找已知的假象，允许你报告可疑的假新闻，并使用各种人工智能驱动的分析技术，以检测变化或人为生成的迹象。

虚假、合成的照片和视频在网络的传播，也会造成品牌和个人造成不可挽回的名誉损毁。但试图监管全球媒体数据将是一项艰巨的任务，使用AI技术任何人都可以炮制出数百万张看起来逼真的假照片。鉴于虚假图像和视频的改善速度之快，或许验证“什么是真实的”的商业模式可能更有效，也许媒体和个人很快应该拥有自己的数字指纹，可AI合成的底线又在哪？

假新闻训练模型及数据集

在某种程度上假新闻的是一个微观领域问题，它和谣言分类、事实判断、标题党检测、垃圾内容挖掘等都比较类似，在宏观上说都属于内容质量的领域，所以很多方法其实是通用的框架。腾讯科技高级研究员孙子荀将假消息辨别模型分为两类：

基于内容的建模；

基于社交网络的模型。

后者可以通过对虚假新闻的传播游走轨迹跟踪，以及通过图模型和演化模型中针对特定假新闻的进一步调查；其次，识别虚假新闻的关键传播者，对于减轻社交媒体的传播范围至关重要。

在2017年，Kai Shu等人的论文中将假新闻的研究主要分为三个方向：

数据方面的研究：目前还没有标准的测评数据集，需要去建立的。可以通过传播特性提前检测假新闻。

模型特征方面的研究：通过使用用户的画像特征，内容特征（NLP、CV）结合深度学习，还有传播网络特征，比如用户和内容之间的关系构造出来的网络特征，网络本身的embedding表现。

模型方面的研究：这方面的工作可分为特征之间的组合、预测目标的变化、对内容源、内容反馈和文章风格的限制，组合这些模型，也可通过空间变换，把特征变换到另外的latent语义空间尝试解决。

鉴定假新闻是一件任重而道远的事，对假新闻机器学习模型感兴趣的同学也可以通过以下开放的数据集进行尝试。

1. FakeNewsNet

BuzzFeed和PolitiFact两个平台的数据集，包括新闻内容本身（作者，标题，正文，图片视频）和社交上下文内容（用户画像，收听，关注等）。

数据集获取方式：

https://github.com/KaiDMML/FakeNewsNet

2.LIAR

该数据集也是来自PolitiFact，包括内容本身和内容的基础属性数据，比如来源，正文等。

数据集获取方式：

http://www.cs.ucsb.edu/~william/data/liar_dataset.zip

3. Twitter and Weibo DataSet

一个比较全的数据集包括帖子ID，发帖用户ID，正文，回复等数据。

数据集获取方式：

http://alt.qcri.org/~wgao/data/rumdect.zip

4. Twitter15 Twitter16

来自 Twitter 15、16 年的帖子，包括了帖子之间的树状收听，关注关系和帖子正文等。

数据集获取方式：

https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0

5. Buzzfeed Election Dataset & Political News Dataset

Buzzfeed’s 2016 收集的选举假新闻，以及作者收集的 75个新闻故事。包括假新闻，真新闻和讽刺新闻。

数据集获取方式：

https://github.com/rpitrust/fakenewsdata1