×

如何使用词向量和卷积神经网络进行垃圾短信识别的方法介绍

消耗积分:0 | 格式:rar | 大小:1.35 MB | 2019-01-03

分享资料个

  对垃圾短信进行过滤识别研究具有重要的社会价值和时代背景意义。针对传统的人工设计短信特征选择方法中存在数据稀疏、特征信息共现不足和特征提取困难的问题,提出一种基于词向量和卷积神经网络( CNN)的垃圾短信识别方法。首先,使用word2vec的skip-gram模型根据维基中文语料库训练出短信数据集中每个词的词向量,并将每条短信中各个词组所对应的词向量组成表示短信的二维特征矩阵;然后,把特征矩阵作为卷积神经网络的输入,通过卷积层的不同尺度卷积核提取多尺度短信特征,以及利用l-max pooling池化策略得到局部最优特征;最后,将局部最优特征组成融合特征向量放入softmax分类器中得出分类结果。在10万条短信数据上进行的实验结果表明,在特征提取方式相同的情况下,基于卷积神经网络模型的识别准确率能够达到99.5%,比传统的机器学习模型提高了2. 4%~5.1%,且各模型的识别准确率均保持在94%以上。

  近年来,随着通信技术的不断进步,我国使用手机的用户数量日益增多,短信成为一种方便的信息传递渠道。然而,短信在使人们的日常生活变得更加方便的同时,垃圾短信的泛滥也越来越严重,严重干扰了人们的生活,成为了危害社会公共安全的一大公害。360互联网安全中心于2017年2月发布的《2016年中国互联网安全报告》显示,360手机卫士在2016年内为全国手机用户共拦截约173.5亿条垃圾短信。绝大多数垃圾短信的内容都是广告推销或者影响社会稳定团结的谣言、诈骗等。工业和信息化部于2015年6月颁布施行的《通信短信息服务管理规定》,其中规定任何短信服务提供商和短信内容发送者在未经用户同意的情况下,都不得向用户发送商业性的信息。因此垃圾短信成为当前一个重要的社会问题,有效识别垃圾短信对维护国家安全、社会稳定和人们正常生活具有重要的时代背景意义。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !