随着Web2.0的迅猛发展,各种用户原创内容爆炸式增长,造成了互联网上严重的信息过载,使得有价值信息的获取愈发困难。自动摘要技术能够从海量文本中抽取出最为重要的语句,形成高度概括原文主旨的精炼短文,能够有效地缓解信息过载。
总体而言,自动摘要分为基于抽象的自动摘要和基于抽取的自动摘要。基于抽象的自动摘要受制于自然语言处理的瓶颈,实现相对困难。目前主要的研究和应用集中在基于抽取的自动摘要,又称节录式摘要,计算文档中句子的权重并进行排序,从中抽取高权重语句生成摘要。现有工作中对句子权重的计算主要分为两种思路:通过词的权重推测句子的权重或通过句子特征计算权重。事实上,文档中的词与句是不可分割的整体,充分考虑词句之间的协同关系有助于进一步提高自动摘要的质量。本文面向单文档自动摘要,将文档建模为以句子为顶点、句子间的关联为边的句网络图,以图排序算法为基础,重新设计迭代过程,在计算句子权重时融入词对句子权重评分的影响,提出一种词句协同排序( Word-Sentence-Rank,WSRank)的自动摘要算法。实验表明,词的融入有助于进一步提高句子权重计算的准确性,提升摘要的质量。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !