基于深度学习的智能社会媒体挖掘

MqC7_CAAI_1981 2018-12-14 4533

电子说

1.4w人已加入

描述

社会媒体的重要性众所周知。全球人口中，一半人是网民，网民中的三分之二是社会媒体用户。常见社会媒体包括Facebook，twitter，国内的微信和微博也是常用的社会媒体。我们在社会媒体能够做各种各样的事情，包括和亲友交流沟通、获取信息，分享或者表达我们的观点。

从事社会媒体研究开发具有商业价值和社会价值。以各种媒体的广告份额为例，电视媒体广告的份额只有社会媒体广告份额的一小部分，更何况是报纸和广播等传统媒体。因此从商业价值上社会媒体就是一个很值得我们研究的对象。这里我们可以用一个例子来展示：一个新浪微博用户在头天晚上晚上九点多发了条微博，表示想采购一款笔记本电脑，隔天早晨9点多就有促销商要给他推销产品了，可见从社会媒体上可以挖掘很多有价值的商业信息。统计结果表明，在社交媒体上的购买意向，最终转化率超过了一半以上。社会媒体的社会价值更是毋庸置疑，以学术微博为例，学术研究人员可以在微博上推广自己、结交朋友和获取信息，政务微博的社会价值也是显而易见。

下面从建模角度介绍如何对社会媒体进行描述。社会媒体可用一个异构网络表示，异构网络存在着两种节点，一类是信息节点，实际上就是我们所发布的内容，比如文字、图片、视频、音频；另一类节点是用户节点，也就是发表信息的人，从普通的用户、网红一直到更权威的媒体和机构。同时网络中存在着三种异构的边：信息之间是有关联的，一条微博后面跟着很多评论，这是信息间的关系。用户间存在社会关系，例如粉丝关系。人和信息之间也存在关系，一条信息可以艾特给特定用户，用户也可以发布微博，这样就构成一个非常复杂的异构网络，也就是计算机所处理的对象。

我们实验室做的研究工作主要集中在社会媒体用户行为理解和预测方面，我们在媒体上试图给用户建模，理解用户行为，预测接下来会有什么样的行为模式。

社交媒体上的用户行为非常复杂，以歌手和影星林志颖为例，他的微博经常发布使用苹果手机的体验。如何理解他的行为呢？最表层的行为是，他在使用苹果手机，往深里看，他是苹果手机的粉丝，再往深看，他很可能是苹果手机的代言人。所以我们要看用户真正表达什么样的内容。

用户行为受到四个因素影响，第一是用户发表内容，第二是用户是处在什么样的社交关系之间，第三是当前时刻有哪些热点事件，第四是用户发布这条微博处在什么时空环境。社会媒体用户的建模和预测需要听其言和观其行。所谓听其言，就是利用各种技术分析用户发布的数据，主要是自然语言处理技术，也包括语音识别、图像视频处理等。所谓观其行，就是要分析结构，利用社区分析技术，定位人物所在的社交圈；利用关系分析技术，分析人物的朋友圈及其疏密度，利用信息传播分析技术，分析人物的社会影响力。

社会媒体上的行为非常丰富，具体则取决于不同媒体，但也大同小异，例如在facebook上可以发表帖子，可以表示喜欢，可以评论，可以分享；在Twitter上可以表示转发，可以点赞。过去几年我跟复旦大学的同事张奇、博士生丁卓冶、宫叶云、桂韬，硕士生黄浩然、马仁峰，朱亮，在社会媒体挖掘方面做了一些工作，主要是用户行为建模和预测，包括微博标签推荐、艾特用户(公司)推荐、转发行为预测、用户话题参与预测，以及如何在社会媒体挖掘中融入多模态信息。在研究方法上，早期主要采用主题模型和机器学习的方法，这几年逐渐转到深度学习之上。

我们做的第一块工作是微博标签推荐。新浪微博的标签是用两个#符号标记的词语或者短语，可以认为就是微博的关键词，用来对微博的上下文内容做出提示，便于我们在短时间了解微博的内容。微博标签推荐任务就是为每一条微博去推荐少许关键词。统计结果表明只有15%的微博包含关键词，因此这样一块工作是有一定意义的。接下来介绍我们怎么样做微博标签推荐这件工作，主要介绍我们的研究思路，而不是具体的实现细节。给定一条微博，我们先要判断这条微博中哪些词有可能成为微博的关键词，这种词叫触发词。触发词的识别比较简单，首先抓取大量微博，其中出现在微博标签的词语就是候选词，也就是触发词。如何判断微博中的哪些触发词可以推荐为微博标签，还需要看触发词出现在微博的具体位置。同时考虑触发词和触发词的上下文，我们提出了一个双通道的深度学习模型，一个通道抽取触发词特征，另一个通道抽取全局特征，然后结合两部分特征，对标签进行推荐。

众所周知，深度学习在过去几年是非常热门的研究方法，所谓的深度学习，实际上就是多层的神经网络，从06年开始被广泛应用于计算机视觉，之后在语音识别中取得了长足的进步，从13、14年开始在自然语言处理领域得到广泛运用。自然语言处理中的深度学习主要有两类工作，第一类是表示学习，给定句子、篇章、微博，如何用一个低维稠密的向量去表达它，怎么从字词表示通过组合方式得到整个微博的表示。另一类工作是如何利用语言文字天生具有的序列信息完成各种语言处理任务。

怎样用深度学习来进行标签推荐呢？我们在微博中寻找触发词，在局部通道中通过注意力机制判断这些触发词是不是重要的词语，通过全局通道得到微博的全局表示，利用卷积神经网络融合局部和全部两个通道的信息。为了评价标签推荐的效果，我们使用精度、召回率和F值作为评价指标。精度就用来表示算法推荐的标签中有多少是微博原作者给定的标签，召回率表示微博原作者给定的标签有多少比例被算法推荐，F值则是精度和召回率的调和平均。我们选取了11万条带有标签的微博数据，随机选取其中的1万条作为测试。实验结果表明双通道模型的F值达到了40%，这是相当不错的结果。

微博用户行为建模仅仅考虑微博本身内容是不够充分的，之前关于标签推荐的研究工作主要只利用了微博本身的信息，未充分考虑微博作者的兴趣特点。一个作者的兴趣点是有限的，发文范围也是有限的。标签也是用户的兴趣体现，所以两者也是紧密相关的。用户兴趣点可以从用户历史微博挖掘。我们采用记忆神经网络存储用户的历史微博。记忆神经网络通过引入一个外部储存器来对数据进行长时储存、检索与更新，已经被成功应用到不同的自然语言处理任务中。我们提出的层次记忆网络模型将用户历史发文储存在外部记忆储存单元，利用层次化注意力机制构建用户历史兴趣，辅助标签推荐。记忆的查找过程中采用层次式的方式，首先考虑词级别的相似程度，然后考虑句子级别的相似程度，之后获得用户兴趣的表示，再和当前这条微博的表示进行匹配，从中可以发现当前微博中哪些词适合表征用户的兴趣和微博的内容，并选择作为标签。实验结果表明，记忆神经网络获得的精度和召回率都比仅考虑内容的模型有所提高。

接下来考虑艾特用户推荐。在一些社交媒体，如Twitter、Facebook或微博中，用户会发表推文并“@”他们的朋友或者名人，借以宣传产品, 参与话题讨论, 吸引注意力, 求助等。如何在发布微博的时候推荐合适的用户？我们也采用神经网络方法，综合微博内容、历史、作者、兴趣等信息，在记忆模块记录用户兴趣和潜在可艾特的用户。在推荐艾特用户的时候，要考虑到用户发帖的历史，因此我们把用户发布的微博历史存于记忆网络。同时用另外一个记忆模型存储艾特用户的发帖历史，表明他们对什么事件关注。如果用户发布的微博和艾特用户发布的微博类似，说明他们可能关心同一个领域或事件，艾特给这样的用户就有可能得到正面的反馈。实验结果表明，艾特用户的推荐能够达到80%以上的精度，推荐结果比微博标签的结果高很多。这里的原因也是显而易见的，因为用户写微博的时候，选择哪些关键词是一个开放集合，甚至是微博原文中没出现的词语，不太好做非常精确的判断；当艾特用户的时候，潜在的对象是个有限集，至少必须拥有微博账号，所以就相对精确些。

接下来介绍如何预测用户的转发行为。普通用户，即使以信息检索领域国际专家酒井为例，他发布的帖子经常只有几人转发。另一位用户，发了个帖子，只有一句话“给一起长大的你们”，就被转发一百多万次，原因是因为他是明星鹿晗。所以微博是否会被转发不仅取决于微博本身的内容是否精彩，是否会引起别人兴趣，也取决于发布微博的用户是谁。为了预测用户转发行为，我们选择200个用户作为第一层种子节点，转发帖子的8万个用户作为第二层节点，构建了含有8千多万条微博的数据集。我们采取的方法也还是双通道神经网络方法，通过基于注意力的神经网络对用户历史微博进行建模，通过神经网络计算用户兴趣点以及待预测的目标微博之间的相似度。结合用户、用户历史兴趣点、兴趣点与微博内容的相似度、待预测的微博内容、待预测微博的作者等信息对转发行为进行预测。根据这样的一个模型，我们在精度、召回率和F值都达到70%以上性能，相当不错。我们还注意到，偶尔转发微博的用户不太愿意转发，但是对于经常转发微博的用户，我们能够做出更加精确的估计。

下面一块工作关注于用户话题预测问题的研究。我们想要预测在一些社交媒体，如Twitter、Facebook或微博中，哪一些话题是一个用户会去参与的。和别的一些微博推荐任务、热点检测任务不同的是，在这个任务中，我们关注的是预测用户和话题之间的关系。因此，我们将其转换成了匹配问题，并提出了一种匹配模型去解决它。我们提出了一个高效的基于卷积神经网的网络模型，并且在模型中引入了记忆储存器，利用注意力机制进行更好的匹配建模。在这个框架中，用户发文兴趣、用户话题参与历史两种信息被充分利用，分别和话题相关的文本等信息进行兴趣匹配建模。为了训练与评估我们的模型，我们利用Twitter构建了一个超过一千四百万条tweets的数据集，并对比了多种推荐方法，实验结果表明我们的模型在该任务上都比之前的方法取得了很大的提升。

除了以上的推荐任务，我们还关注对于多模态推文的推荐。如一个用户发布了关于mac的微博，如果只看作者的推文，我们可能误以为作者买了一台MAC电脑，但结合了图片的信息，我们可以知道，作者其实是买了一个MAC化妆品牌的口红。为了处理多模态信息，我们将其转换成了匹配问题，并提出了一种匹配模型去解决。我们在模型中引入了记忆储存器，利用注意力机制进行更好的匹配建模。在匹配框架中利用了用户多模态历史发文和作者多模态历史发文两种信息，分别和待进行艾特推荐的多模态推文进行兴趣匹配建模。实验结果表明多模态信息能更好地提高艾特推荐的效率，并且我们的模型在该任务上都比之前的方法取得了很大的提升。

我们还可以综合利用推文中文字跟图片信息去判断某个用户是不是有抑郁倾向。比如某个用户发了条微博，文字内容是“每个人这么快乐，看上去很快乐”，但她配了张很抑郁的图片。我们在做抑郁检测的时候，不仅要看用户说了什么，还要看她发了什么样的图片。我们所提出的模型也是考虑到多模态信息，一个通道是文字信息，另一个通道是图片信息，结合文字跟图片，取得了较为满意的预测精度。

经常有人跟我探讨，女性是不是适合做人工智能，是不是适合做深度学习。实际上有些女性对于研究深度学习有一定压力，因为有很多数学公示要推导，需要写很多代码。但实际上我们有很多开源工具可以使用，对于编程能力要求并不是非常高，数学方面，像梯度计算、优化计算都可以用开源工具来做。所以我们女性不要有太大压力。另一方面，我们也有自己的优点。女性非常细致和敏感，会很细致地去发现和分析问题，会很细致地研究实验结果，然后去看这个结果中间有什么是我们所不满意的，分析错误可能来源于什么地方。女性的语文文字能力和表达也有优势。也因此，在人工智能领域，活跃着许多女科学工作者，也有了咱们今天的人工智能女科技工作者专题论坛。

打开APP阅读更多精彩内容