关键词提取是进行未知网络协议逆向的关键步骤。鉴于现有的关键词提取方法存在精确度不髙、需要较多先验知识、操作繁琐等问题,提出了一种基于位置信息的关键词自动化提取算法。首先,通过 Trigram分词获取候选关键词,附加上位置信息后,将其组织成多级字典;在此基础上,根据位置信息将传统的对候选关键词进行树状合并改进为对其进行链式合并,以获得更精确的最长候选关键词。实验结果表明,当设置频繁度阈值为0.6时,该方法即可以准确提取岀文本协议的关键词。同时,分析了频繁度的设置对实验效果的影响,并讨论了基于频繁序列对关键词进行挖掘的相关算法的局限性。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !