随着互联网的普及,越来越多的问题以社交网络这样的网络形式出现。网络通常用图数据表示,由于图数据处理的挑战性,如何从图中学习到重要的信息是当前被广泛关注的问题。网络嵌入就是通过分析图数据得到反映网络结构的特征向量,利用它们进而实现各种数据挖掘任务,例如边预测、节点分类、网络重构、标签推荐和异常检测。最近,基于矩阵分解的网络嵌入方法 Net mf被提出,它在理论上统一了多种网络嵌入方法,并且在处理实际数据时表现出很好的效果。然而,在处理大规模网络时, Net Mf需要极大的时间和空间开销。本文使用快速随机化特征值分解和单遍历奇异值分解技术对 Net mf进行改进,提出一种高效率、且内存用量小的矩阵分解网络嵌入算法 enemy.首先,我们提出了适合于对称稀疏矩阵的随机化特征值分解算法 freigs,它在处理实际的归一化网络矩阵时比传统的截断特征值分解算法快近10倍,且几乎不损失准确度。其次,我们提出使用单遍历奇异值分解处理Net mf方法中高次近似矩阵从而避免稠密矩阵存储的技术,它大大减少了网络嵌入所需的内存用量。最后,我们提出一种简洁的、且保证分解结果对称的随机化单遍历奇异值分解算法,将它与上述技术结合得到 enet mf算法。基于5个实际的网络数据集,我们评估了 enetmf学习到的网络低维表示在多标签节点分类和边预测上的有效性实验结果表明,使用 enetmf替代NeM后在后续得到的多标签分类性能指标上几乎没有损失,但在处理大规模数据时有超过40倍的加速与内存用量节省。在一台32核的机器上, enet MF仅需约1.3h即可对含一百多万节点的 Youtube数据学习到网络嵌入,内存用量仅为30GB,并得到较高质量的分类结果。此外,最近被提出的网络嵌人算法 Netsmf由于图稀疏化过程的内存需求太大,无法在256GB内存的机器上处理两个较大的网络数据,而PNE算法则在多标签分类的结果上表现不稳定,得到的 Macro f1值都比较差因此, e Neeme算法在结果质量上明显优于 Netsmf和 Prone算法,在边预测任务上, enem算法也表现出与其它方法差不多甚至更好的性能。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !