7.2.1. 互相关运算
回想一下,严格来说,卷积层是用词不当,因为它们表达的操作更准确地描述为互相关。根据我们在 7.1 节中对卷积层的描述,在这样的层中,输入张量和核张量通过互相关运算组合以产生输出张量。
让我们暂时忽略通道,看看它如何处理二维数据和隐藏表示。在 图 7.2.1中,输入是一个二维张量,高为 3,宽为 3。我们将张量的形状标记为 3×3或者 (3,3). kernel的高和宽都是2,kernel window(或者卷积窗口)的形状由kernel的高和宽给定(这里是 2×2).
在二维互相关操作中,我们从位于输入张量左上角的卷积窗口开始,将其从左到右和从上到下滑动到输入张量上。当卷积窗口滑动到某个位置时,包含在该窗口中的输入子张量和核张量逐元素相乘,所得张量相加产生单个标量值。这个结果给出了相应位置的输出张量的值。这里,输出张量的高度为 2,宽度为 2,四个元素由二维互相关运算得出:
(7.2.1)0×0+1×1+3×2+4×3=19,1×0+2×1+4×2+5×3=25,3×0+4×1+6×2+7×3=37,4×0+5×1+7×2+8×3=43.
请注意,沿每个轴,输出大小略小于输入大小。因为内核的宽度和高度大于一,我们只能正确计算内核完全适合图像的位置的互相关,输出大小由输入大小给出nh×nw减去卷积核的大小kh×kw通过
(7.2.2)(nh−kh+1)×(nw−kw+1).
之所以如此,是因为我们需要足够的空间来“移动”图像上的卷积核。稍后我们将看到如何通过在图像边界周围填充零来保持大小不变,以便有足够的空间来移动内核。接下来,我们在函数中实现这个过程corr2d
,它接受一个输入张量X
和一个内核张量K
并返回一个输出张量Y
。
def corr2d(X, K): #@save
"""Compute 2D cross-correlation."""
h, w = K.shape
Y = torch.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
for i in range(Y.shape[0]):
for j in range(Y.shape[1]):
Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
return Y
def corr2d(X, K): #@save
"""Compute 2D cross-correlation."""
h, w = K.shape
Y = np.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
for i in range(Y.shape[0]):
for j in range(Y.shape[1]):
Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
return Y
def corr2d(X, K): #@save
"""Compute 2D cross-correlation."""
h, w = K.shape
Y = jnp.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
for i in range(Y.shape[0]):
for j in range(Y.shape[1]):
Y = Y.at[i, j].set((X[i:i + h, j:j + w] * K).sum())
return Y
def corr2d(X, K): #@save
"""Compute 2D cross-correlation."""
h, w = K.shape
Y = tf.Variable(tf.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1)))
for i in range(Y.shape[0]):
for j in range(Y.shape[1]):
Y[i, j].assign(tf.reduce_sum(
X[i: i + h, j: j + w] * K))
return Y
我们可以从 图 7.2.1构造输入张量X
和核张量来验证上述二维互相关运算的实现的输出。