×

PyTorch教程15.5之带全局向量的词嵌入(GloVe)

消耗积分:0 | 格式:pdf | 大小:0.13 MB | 2023-06-05

陈超

分享资料个

上下文窗口中的单词共现可能携带丰富的语义信息。例如,在大型语料库中,“固体”一词与“冰”比“蒸汽”更可能同时出现,但“气体”一词与“蒸汽”一起出现的频率可能高于“冰”。此外,可以预先计算此类共现的全球语料库统计数据:这可以提高培训效率。为了利用整个语料库中的统计信息进行词嵌入,让我们首先重新审视第 15.1.3 节中的 skip-gram 模型,但使用全局语料库统计信息(例如共现计数)来解释它。

15.5.1。Skip-Gram 与全球语料库统计

表示为qij条件概率 P(wj∣wi)词的wj给定的词wi在 skip-gram 模型中,我们有

(15.5.1)qij=exp⁡(uj⊤vi)∑k∈Vexp(uk⊤vi),

任何索引在哪里i载体viui代表词wi分别作为中心词和上下文词,并且 V={0,1,…,|V|−1}是词汇表的索引集。

考虑词wi可能在语料库中多次出现。在整个语料库中,所有上下文词无论在哪里wi被作为他们的中心词形成一个多重集 Ci允许同一元素的多个实例的单词索引对于任何元素,其实例数称为其多重性为了举例说明,假设这个词wi在语料库和上下文词的索引中出现两次 wi作为他们在两个上下文窗口中的中心词是 k,j,m,kk,l,k,j. 因此,多重集 Ci={j,j,k,k,k,k,l,m},其中元素的多样性j,k,l,m分别为 2、4、1、1。

现在让我们表示元素的多重性j在多重集中 Ci作为xij. 这是单词的全局共现计数wj(作为上下文词)和词 wi(作为中心词)在整个语料库中的同一上下文窗口中。使用这样的全局语料库统计,skip-gram 模型的损失函数相当于

(15.5.2)−∑i∈V∑j∈Vxijlogqij.

我们进一步表示xi上下文窗口中所有上下文词的数量wi作为他们的中心词出现,相当于|Ci|. 出租pij是条件概率xij/xi用于生成上下文词 wj给定的中心词wi

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !