社会网络,如微博和Twitter,已经成为数十亿人关注事件的重要平台。人们不仅关注所发生的事情,更关注事件的演化。因此,监控社交网络中事件的发展是至关重要的。在新闻文章和短文本(社交网络中的文本)中有一些挖掘事件演化的研究。由于短文的形式比新闻文章短,适用于新闻文章的方法不能直接应用于社交网络。一些应用于短文本的方法不考虑语义信息,有些方法无法发现长期跨度事件的演化,特别是中间有间断的事件。鉴于此,我们提出了一种非参数的方法来发现事件演化(故事情节)。首先使用贝叶斯模型测量短文本的语义相关性。其次,使用基于嵌入表示的算法来生成长期和短期事件的故事线。我们进一步使用Dirichlet过程自动学习适当数量的主题。与其他方法相比,三个人工标记数据集的详细实验结果证明了我们方法的有效性。
社会网络已经成为人们分享和传播新闻的主流平台。社会网络每天都会产生大量的用户产生内容(User-Generated Contents)。对于UGC 流,人们很容易感到不知所措。因此迫切需要从社会网络自动生成事件的演化。
目前有挖掘事件演化的相关研究。这些研究可大致分成两类。一类是基于词相似度的方法。Pei 等人提取用基于子图的增量追踪框架追踪事件演化。该方法用Jaccard 相似度作为文本相似度的度量方式。词相似度基于文本重合的词越多,文本越相似的假设。这种假设在现实中有可能不成立。很多时候文本的相似度依赖于潜在的语义关联,而不是表面的词重合度。为弥补词相似度的不足,另一类基于隐式语义相似度的方法被提出。Kalyanam 等人用非负矩阵分解(NMF)捕捉事件随着时间的变化。该方法只能发现相邻时刻的事件的演化,不能发现长期跨度的事件演化。Zhou 等人提出一个无监督的贝叶斯模型(DSDM)提取故事情节的结构化表示和演化模式。DSDM 和NMF 捕捉文档级别的词共线模式。因为短文本中文档级别词共线的稀疏性,这些方法不能直接用于短文本中。
为解决上述方法存在的不足。我们提出一个非参数的方法构造社会网络中的事件演化。首先,我们
从微博中检测子事件。然后,我们提出一个非参数的方法提取子事件的隐式语义信息。最后我们基于子
事件的隐式语义信息生成事件演化。本文的主要贡献如下所示:
我们提出一个非参数化的概念图模型,Biterm Topic Model with Dirichlet Process (BTMDP),提取子事件的语义信息。
我们提出基于子事件语义信息的故事情节生成算法(LineGen)。
通过在三个数据集上的实验证明我们方法较已有方法的有效性。
本文的其余部分组织如下。首先,我们介绍相关工作。然后,我们介绍我们的方法。随之,我们展示实验与结果。最后,我们总结提出的方法并展望未来的工作。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !