报文聚类是报文格式推断的基础,现有的报文聚类方法大多以报文的全局相似性为聚类的标准,这类聚类方法的准确率往往不高,进而影响后续报文格式提取的准确率。针对这一冋题,文中提岀了一种基于粗糙集聚类的报文格式推断方法,该方法包括预处理、基于粗糙集的聚类、特征词提取和报文格式推断4个阶段。首先,通过数据预处理分离出目标报文中的业务类报文和控制类报文;其次,按照粗糙集理论中基于属性划分样本的方法对报文的统计特征进行聚类,这种聚类方法能够准确获取报文序列的局部特征,能够达到较妤的聚类效果;然后,根据长度、频率和位置特征来提取协议特征词;最后,将协议特征词分为必选字段和可选宇段,并用它们来描述报文格式。实验结果表明,该方法能够准确地获取协议的报文格式。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !