×

基于用户行为特征的多维度文本聚类

消耗积分:0 | 格式:rar | 大小:0.95 MB | 2018-11-16

分享资料个

  传统多维度文本聚类一般是从文本内容 中提取特征,而很少考虑数据中用户与文本的交互信息(如:点赞、转发、评论、关注、引用等行为信息),且传统的多维度文本聚类主要是将多个空间维度线性结合,没能深入考虑每个维度中属性间的关系。为有效利用与文本相关的用户行为信息,提出一种结合用户行为信息的多维度文本聚类模型(MTCUBC)。根据文本间的相似性在不同空间上应该保持一致的原则,该模型将用户行为信息作为文本内容聚类的约束来调节相似度,然后结合度量学习方法来改善文本间的距离,从而提高聚类效果。通过实验表明,与线性结合的多维度聚类相比,MTCUBC模型在高维稀疏数据中表现出明显的优势。

  随着Twitter、微博等社交媒体的广泛使用,给传统文本内容聚类方法带来挑战。由于社交媒体中存在大量短文本,导致基于文本内容聚类中的特征稀疏问题比较严重。另外,除了文本内容,社交媒体数据还包含很多用户行为信息,如:点赞、转发、评论、关注、引用等(也称“用户行为特征”)。缺少用户行为特征的聚类方法不能对社交媒体数据的分布特征进行建模。除了Twitter 、微博等“新媒体”外,有些传统文本中也包含有用户行为信息,如学术论文中的合作作者和参考文献等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !