PyTorch教程10.8之波束搜索-电子发烧友网

在10.7 节中，我们介绍了编码器-解码器架构，以及端到端训练它们的标准技术。然而，当谈到测试时间预测时，我们只提到了贪心策略，我们在每个时间步选择下一个预测概率最高的标记，直到在某个时间步，我们发现我们已经预测了特殊的序列结尾“”标记。在本节中，我们将从形式化这种贪婪搜索策略开始，并确定从业者往往会遇到的一些问题。随后，我们将该策略与两种替代方案进行比较：穷举搜索（说明性但不实用）和 波束搜索（实践中的标准方法）。

让我们从设置我们的数学符号开始，借用第 10.7 节中的约定。随时步t′，解码器输出表示词汇表中每个标记出现在序列中的概率的预测（可能的值 yt′+1, 以先前的标记为条件 y1,…,yt′和上下文变量c，由编码器产生以表示输入序列。为了量化计算成本，表示为Y输出词汇表（包括特殊的序列结束标记“”）。我们还将输出序列的最大标记数指定为 T′. 我们的目标是搜索所有的理想输出 O(|Y|T′)可能的输出序列。请注意，这稍微高估了不同输出的数量，因为在“”标记出现之后没有后续标记。然而，出于我们的目的，这个数字大致反映了搜索空间的大小。

10.8.1。贪心搜索

考虑第 10.7 节中的简单贪婪搜索策略。在这里，随时步t′，我们只需从中选择条件概率最高的标记 Y， IE，

(10.8.1)yt′=argmaxy∈YP(y∣y1,…,yt′−1,c).

一旦我们的模型输出“”（或者我们达到最大长度 T′) 输出序列完成。

这个策略看似合理，其实还不错！考虑到它在计算上的要求是多么的低，你很难获得更多的收益。然而，如果我们暂时搁置效率，搜索最有可能的序列似乎更合理，而不是（贪婪选择的）最有可能的标记序列。事实证明，这两个对象可能完全不同。最可能的序列是最大化表达式的序列 ∏t′=1T′P(yt′∣y1,…,yt′−1,c). 在我们的机器翻译示例中，如果解码器真正恢复了潜在生成过程的概率，那么这将为我们提供最有可能的翻译。不幸的是，不能保证贪心搜索会给我们这个序列。

让我们用一个例子来说明它。假设输出字典中有四个标记“A”、“B”、“C”和“”。在图10.8.1中，每个时间步下的四个数字分别代表在该时间步生成“A”、“B”、“C”、“”的条件概率。

https://file.elecfans.com/web2/M00/A9/C9/poYBAGR9N4-AaGx4AAET1yiKAhk378.svg

图 10.8.1在每个时间步，贪婪搜索选择条件概率最高的标记。

在每个时间步，贪心搜索选择条件概率最高的标记。因此，将预测输出序列“A”、“B”、“C”和“”（图 10.8.1）。这个输出序列的条件概率是 0.5×0.4×0.4×0.6=0.048.

接下来，让我们看一下图 10.8.2中的另一个例子。与图 10.8.1不同，在时间步 2 中，我们选择图 10.8.2中的标记“C” ，它具有第二高的条件概率。

https://file.elecfans.com/web2/M00/AA/43/pYYBAGR9N5GACDvWAAEKuTR1cgg914.svg

图 10.8.2每个时间步下的四个数字代表在该时间步生成“A”、“B”、“C”和“”的条件概率。在时间步 2，选择具有第二高条件概率的标记“C”。

由于时间步3所基于的时间步1和2的输出子序列已经从图10.8.1中的“A”和“B”变为图10.8.2 中的“A”和“C” ，图 10.8.2中每个标记在时间步长 3 的条件概率也发生了变化。假设我们在时间步 3 选择标记“B”。现在时间步 4 以前三个时间步“A”、“C”和“B”的输出子序列为条件，这与“A”不同、“B”、“C”在图 10.8.1中。因此，图 10.8.2中第 4 步生成每个 token 的条件概率也与图 10.8.1不同. 因此，图 10.8.2中输出序列“A”、“C”、“B”和“”的条件概率为 0.5×0.3×0.6×0.6=0.054，大于图 10.8.1中的贪心搜索。在本例中，贪心搜索得到的输出序列“A”、“B”、“C”、“”并不是最优序列。

10.8.2。穷举搜索

如果目标是获得最可能的序列，我们可以考虑使用 穷举搜索：穷举所有可能的输出序列及其条件概率，然后输出得分最高的预测概率。

虽然这肯定会给我们想要的东西，但它的计算成本却高得令人望而却步 O(|Y|T′)，序列长度呈指数增长，词汇量很大。例如，当|Y|=10000和T′=10，我们需要评估1000010=1040序列。与实际应用程序相比，这些数字很小，但已经超出了任何可预见的计算机的能力。另一方面，贪心搜索的计算成本是

PyTorch教程10.8之波束搜索

10.8.1。贪心搜索

10.8.2。穷举搜索

PyTorch教程21.3之矩阵分解

PyTorch教程22.6之随机变量

PyTorch教程23.4之使用Google Colab

PyTorch教程23.2之使用亚马逊SageMaker

PyTorch教程23.8之API

PyTorch教程4.1之Softmax回归

PyTorch教程3.6之概括

PyTorch教程4.7之环境与分配转变

PyTorch教程6.2之参数管理

PyTorch教程6.1之层和模块

PyTorch教程12.1之优化和深度学习

PyTorch教程12.2之凸度

PyTorch教程13.4之硬件

PyTorch教程13.3之自动并行

PyTorch教程13.2之异步计算

PyTorch教程14.2之微调

PyTorch教程14.1之图像增强

PyTorch教程6.7之显卡

PyTorch教程2.5之自动微分

PyTorch教程2.3之线性代数

PyTorch教程3.1之线性回归

PyTorch教程2.6之概率统计

PyTorch教程14.4之锚箱

PyTorch教程14.11之全卷积网络

PyTorch教程14.10之转置卷积

PyTorch教程19.3之异步随机搜索

PyTorch教程21.1之推荐系统概述

PyTorch教程7.3之填充和步幅

PyTorch教程7.2之图像卷积

PyTorch教程8.2之使用块的网络(VGG)

ADAR4001：2 GHz 至 18 GHz 单波束 4 元素波束形成器的卓越之选

利用Arm Kleidi技术实现PyTorch优化

PyTorch 数据加载与处理方法

Pytorch深度学习训练的方法

pytorch怎么在pycharm中运行

pycharm如何调用pytorch

pytorch如何训练自己的数据

PyTorch的介绍与使用案例

tensorflow和pytorch哪个更简单?

如何使用PyTorch建立网络模型

相控阵雷达中和差波束目的和差波束原理介绍

鸿蒙OS开发之 融合搜索概述

TorchFix:基于PyTorch的代码静态分析

不同的天线波束及其用途

基于PyTorch AMD的解决方案

使用PyTorch加速图像分割

pytorch用来干嘛的

深度学习框架pytorch介绍

深度学习框架pytorch入门与实践

PyTorch教程-19.3. 异步随机搜索

PyTorch教程-10.8。波束搜索

什么是波束形成？波束形成的类型

PyTorch的简单实现

PyTorch 的 Autograd 机制和使用

在PyTorch中使用ReLU激活函数的例子

基于PyTorch的深度学习入门教程之PyTorch的自动梯度计算

基于PyTorch的深度学习入门教程之PyTorch简单知识

基于PyTorch的深度学习入门教程之PyTorch重点综合实践

基于PyTorch的深度学习入门教程之使用PyTorch构建一个神经网络

使用PyTorch提取CNNs图像特征

下载排行榜

人形机器人执行、感知系统技术及市场解析

瑞芯微RK3562开发板资料-飞凌嵌入式

FS4054H 输入电压范围3.8V~6.8V 输入最大耐压28V 输入过压关闭充电阈值6.8V

瑞芯微RK3588系列开发板-产品资料更新-2026.06

OK3506-S12 Mini开发板产品资料-2025.10

基于图书标签的RFID智慧图书馆详细解决方案

鸿蒙OS开发之融合搜索概述