上下文窗口中的单词共现可能携带丰富的语义信息。例如,在大型语料库中,“固体”一词与“冰”比“蒸汽”更可能同时出现,但“气体”一词与“蒸汽”一起出现的频率可能高于“冰”。此外,可以预先计算此类共现的全球语料库统计数据:这可以提高培训效率。为了利用整个语料库中的统计信息进行词嵌入,让我们首先重新审视第 15.1.3 节中的 skip-gram 模型,但使用全局语料库统计信息(例如共现计数)来解释它。
15.5.1。Skip-Gram 与全球语料库统计
表示为qij条件概率 P(wj∣wi)词的wj给定的词wi在 skip-gram 模型中,我们有
任何索引在哪里i载体vi和 ui代表词wi分别作为中心词和上下文词,并且 V={0,1,…,|V|−1}是词汇表的索引集。
考虑词wi可能在语料库中多次出现。在整个语料库中,所有上下文词无论在哪里wi被作为他们的中心词形成一个多重集 Ci允许同一元素的多个实例的单词索引。对于任何元素,其实例数称为其多重性。为了举例说明,假设这个词wi在语料库和上下文词的索引中出现两次 wi作为他们在两个上下文窗口中的中心词是 k,j,m,k和k,l,k,j. 因此,多重集 Ci={j,j,k,k,k,k,l,m},其中元素的多样性j,k,l,m分别为 2、4、1、1。
现在让我们表示元素的多重性j在多重集中 Ci作为xij. 这是单词的全局共现计数wj(作为上下文词)和词 wi(作为中心词)在整个语料库中的同一上下文窗口中。使用这样的全局语料库统计,skip-gram 模型的损失函数相当于
我们进一步表示xi上下文窗口中所有上下文词的数量wi作为他们的中心词出现,相当于|Ci|. 出租pij是条件概率xij/xi用于生成上下文词 wj给定的中心词wi