虽然我们在第 7.1.4 节中描述了构成每个图像的多个通道(例如,彩色图像具有标准的 RGB 通道来指示红色、绿色和蓝色的数量)和多个通道的卷积层,但到目前为止,我们简化了 所有我们的数值示例仅使用单个输入和单个输出通道。这使我们能够将输入、卷积核和输出视为二维张量。
当我们将通道添加到混合中时,我们的输入和隐藏表示都变成了三维张量。例如,每个 RGB 输入图像都有形状3×h×w. 我们将这个尺寸为 3 的轴称为通道维度。通道的概念与 CNN 本身一样古老。例如 LeNet5 ( LeCun et al. , 1995 )使用它们。在本节中,我们将更深入地了解具有多个输入和多个输出通道的卷积核。
No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)
7.4.1. 多个输入通道
当输入数据包含多个通道时,我们需要构造一个与输入数据具有相同输入通道数的卷积核,以便与输入数据进行互相关。假设输入数据的通道数为ci, 卷积核的输入通道数也需要为 ci. 如果我们的卷积核的窗口形状是 kh×kw, 那么当ci=1,我们可以将卷积核视为形状的二维张量 kh×kw.
然而,当ci>1,我们需要一个包含形状张量的内核kh×kw对于每个输入通道。连接这些ci张量一起产生形状的卷积核 ci×kh×kw. 由于输入和卷积核各有ci通道,我们可以对每个通道的输入的二维张量和卷积核的二维张量进行互相关运算,加上ci结果一起(对通道求和)以产生二维张量。这是多通道输入和多输入通道卷积核之间的二维互相关的结果。
图 7.4.1提供了具有两个输入通道的二维互相关的示例。阴影部分是第一个输出元素以及用于输出计算的输入和内核张量元素: (1×1+2×2+4×3+5×4)+(0×0+1×1+3×2+4×3)=56.
为了确保我们真正理解这里发生了什么,我们可以自己实现多个输入通道的互相关操作。请注意,我们所做的只是对每个通道执行互相关运算,然后将结果相加。
我们可以构造对应于图 7.4.1中的值的输入张量X
和核张量来验证互相关运算的输出。K
tensor([[ 56., 72.],
[104., 120.]])
array([[ 56., 72.],
[104., 120.]])