文档分类是自然语言处理(NLP)领域中的一个基本问题。近年来,尽管针对这一问题的层级注意力网络已经取得了进展,但由于每条句子被独立编码,使得模型中使用的双向编码器仅能考虑到所编码句子的相邻句子,仍然集中于当前所编码的句子,并没有有效地将文档结构知识整合到体系结构中。针对此问题,提出种上下文感知与层级注意力网络的文档分类方法( CAHAN)。该方法采用分层结构来表示文档的层次结构,使用注意力机制考虑文档中重要的句子和句子中重要的单词因素,在单词级和句子级不仅依赖双向编码器来获取上下文信息,还通过在单词级注意机制中引入上下文向量,使单词级编码器基于上下文信息做出意决策全面获取文本的上下文信息,从而提取出深度文档特征。此外,还利用门控机制准确地决定应该考虑多少上下文信息。在两个标准数据集上的实验结果表明,提出的 CAHAN模型较长短时记忆网络(LSTM)、卷积神经网络(CNN)、分层注意网络(HAN)等模型分类效果更好,能够提高文档分类任务的准确度。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !