×

PyTorch教程7.2之图像卷积

消耗积分:0 | 格式:pdf | 大小:1.28 MB | 2023-06-05

张英

分享资料个

现在我们了解了卷积层在理论上是如何工作的,我们准备看看它们在实践中是如何工作的。基于我们将卷积神经网络作为探索图像数据结构的有效架构的动机,我们坚持使用图像作为我们的运行示例。

import torch
from torch import nn
from d2l import torch as d2l
from mxnet import autograd, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()
import jax
from flax import linen as nn
from jax import numpy as jnp
from d2l import jax as d2l
No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)
import tensorflow as tf
from d2l import tensorflow as d2l

7.2.1. 互相关运算

回想一下,严格来说,卷积层是用词不当,因为它们表达的操作更准确地描述为互相关。根据我们在 7.1 节中对卷积层的描述,在这样的层中,输入张量和核张量通过互相关运算组合以产生输出张量。

让我们暂时忽略通道,看看它如何处理二维数据和隐藏表示。图 7.2.1中,输入是一个二维张量,高为 3,宽为 3。我们将张量的形状标记为 3×3或者 (3,3). kernel的高和宽都是2,kernel window(或者卷积窗口)的形状由kernel的高和宽给定(这里是 2×2).

https://file.elecfans.com/web2/M00/A9/C7/poYBAGR9NSyAWvu_AAC_WoWZ9vo337.svg

图 7.2.1二维互相关运算。阴影部分是第一个输出元素以及用于输出计算的输入和内核张量元素: 0×0+1×1+3×2+4×3=19.

在二维互相关操作中,我们从位于输入张量左上角的卷积窗口开始,将其从左到右和从上到下滑动到输入张量上。当卷积窗口滑动到某个位置时,包含在该窗口中的输入子张量和核张量逐元素相乘,所得张量相加产生单个标量值。这个结果给出了相应位置的输出张量的值。这里,输出张量的高度为 2,宽度为 2,四个元素由二维互相关运算得出:

(7.2.1)0×0+1×1+3×2+4×3=19,1×0+2×1+4×2+5×3=25,3×0+4×1+6×2+7×3=37,4×0+5×1+7×2+8×3=43.

请注意,沿每个轴,输出大小略小于输入大小。因为内核的宽度和高度大于一,我们只能正确计算内核完全适合图像的位置的互相关,输出大小由输入大小给出nh×nw减去卷积核的大小kh×kw通过

(7.2.2)(nh−kh+1)×(nw−kw+1).

之所以如此,是因为我们需要足够的空间来“移动”图像上的卷积核。稍后我们将看到如何通过在图像边界周围填充零来保持大小不变​​,以便有足够的空间来移动内核。接下来,我们在函数中实现这个过程corr2d,它接受一个输入张量X 和一个内核张量K并返回一个输出张量Y

def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = torch.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
  return Y
def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = np.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
  return Y
def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = jnp.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y = Y.at[i, j].set((X[i:i + h, j:j + w] * K).sum())
  return Y
def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = tf.Variable(tf.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1)))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y[i, j].assign(tf.reduce_sum(
        X[i: i + h, j: j + w] * K))
  return Y

我们可以从 图 7.2.1构造输入张量X和核张量来验证上述二维互相关运算的实现的输出。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !