低频词词向量优化在短文本分类中的应用-电子发烧友网

　　众多自然语言处理（ Natural Language Processing，NLP）任务受益于在大规模语料上训练的词向量。由于预训练的词向量具有大语料上的通用语义特征，因此将这些词向量应用到特定的下游任务时，往往需要通过微调进行一定的更新和调整，使其更适用于目标任务。但是，目标语料集中的低频词由于缺少训练样夲，导致在微调过程中无法获得稳定的梯度信息，使得词向量无法得到有效更新。而在短文本分类任务中，这些低频词对分类结果同样有着重要的指示性。因此，在具体的短文本分类任务上获得一个更妤的低频词词向量表示是有必要的。针对这个问题，文中提出了一种与下游任务模型无关的低频词词向量更新算法，通过基于K近邻的词向量偏移计算方法，利用通用词向量中与低频词相似的高频词所获得的任务特征信息，来指导低频词的信息更新，从而获得更准确的且适用于当前任务语境的低频词词向量表示;并以 Textcnn作为基准模型，基于word2vec和 Glove得到的两个通用预训练词向量，在3个公开的短文本数据集上进行了优化算法的效果验证。实验结果表明，使用优化算法更新低频词词表示后，模型分类准确率能达到84.3%~94%，较更新前提升了0.4%%，体现了优化算法的有效性，也进一步证明了短文本分类任务中低频词对分类结果的影响，为短文本分类的研究工作提供了一定的借鉴。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

低频词词向量优化在短文本分类中的应用

PyTorch教程15.5之带全局向量的词嵌入(GloVe)

基于注意力机制的新闻文本分类模型

面向搜索的微博短文本语义建模方法综述

基于新型文本块分割法的简历解析器

基于LSTM的表示学习-文本分类模型

基于词嵌入与神经网络的文本匹配模型

面向短文本的中文真词错误检测与修复

面向短文本的中文真词错误检测与修复

基于语义感知的中文短文本摘要生成技术

一种特征假期朴素贝叶斯文本分类算法

结合词特征与语义特征的网络评价对象识别

借助局部实体特征的事件触发词抽取方法

基于主题分布优化的模糊文本分类方法

基于神经网络与隐含狄利克雷分配的文本分类

基于双通道词向量的卷积胶囊网络文本分类算法

基于不同神经网络的文本分类方法研究对比

基于主题相似度聚类的文本分类算法综述

基于关键词的GCC抽象语法树消除冗余算法

基于单词贡献度和Word2Vec词向量的文档表示方法

融合文本分类和摘要的多任务学习摘要模型

基于BERT+Bo-LSTM+Attention的病历短文分类模型

一种基于BERT模型的社交电商文本分类算法

一种面向铁路文本分类的字符级特征提取方法

一种基于词和文档嵌入的关键词抽取方法

基于BP神经网络分类器的垃圾文本过滤模型

融合BERT词向量与TextRank的关键词抽取方法

集成WL-CNN和SL-Bi-LSTM的旅游问句文本分类算法

一种基于神经网络的短文本分类模型

结合BERT模型的中文文本分类算法

基于深度神经网络的文本分类分析

京东关键词的应用

淘宝搜索API：长尾词挖掘，SEO提升的利器！

淘宝搜索API：关键词优化工具，提升曝光率！

浅谈京东关键词

探索AC自动机：多关键词搜索的原理与应用案例

卷积神经网络在文本分类领域的应用

人工智能中文本分类的基本原理和关键技术

NLP中的迁移学习：利用预训练模型进行文本分类

PyTorch教程-15.5。带全局向量的词嵌入 (GloVe)

支持向量机寻找最优分类超平面的优化问题

PyTorch文本分类任务的基本流程

成功构建文本分析工作流的四个步骤

用于中文缩略词预测的序列生成模型研究

Go语言实现敏感词检测（前缀树）

深度学习——如何用LSTM进行文本分类

如何才能自己做词云图

文本分类中处理样本不均衡和提升模型鲁棒性的trick

如何在Prompt Learning下引入外部知识达到好文本分类效果

带你从头构建文本分类器

胶囊网络在小样本做文本分类中的应用（下）

一种为小样本文本分类设计的结合数据增强的元学习框架

用于改进文本分类的特征投影

文本分类的一个大型“真香现场”来了

一种处理多标签文本分类的新颖推理机制

深度学习：基于语境的文本分类弱监督学习

textCNN论文与原理——短文本分类

NLP中文自然语言处理数据集、平台和工具整理

运用多种机器学习方法比较短文本分类处理过程与结果差别

wordNet词向量和词义

区块链中的助记词和私钥是什么

下载排行榜

ZS7606XY同步整流使用规格书

ZS73XGaN 高性能 PWM+D-GaN 芯片数据手册

瑞芯微RK3572开发板-产品资料更新-2026.06

矩形科技 CANopen 远程IO模块产品手册

四键电容式触摸按键IC FZH34产品手册

双麦远距离拾取降噪模块 EN-46 说明书