PyTorch教程4.2之图像分类数据集-电子发烧友网

广泛用于图像分类的数据集之一是手写数字的MNIST 数据集（LeCun等人，1998 年）。在 1990 年代发布时，它对大多数机器学习算法提出了巨大挑战，其中包含 60,000 张图像 28×28像素分辨率（加上 10,000 张图像的测试数据集）。客观地说，在 1995 年，配备高达 64MB RAM 和惊人的 5 MFLOPs 的 Sun SPARCStation 5 被认为是 AT&T 贝尔实验室最先进的机器学习设备。实现数字识别的高精度是一个1990 年代 USPS 自动分拣信件的关键组件。深度网络，如 LeNet-5 （LeCun等人，1995 年）、具有不变性的支持向量机（Schölkopf等人，1996 年）和切线距离分类器（Simard等人，1998 年）都允许达到 1% 以下的错误率。

十多年来，MNIST 一直是比较机器学习算法的参考点。虽然它作为基准数据集运行良好，但即使是按照当今标准的简单模型也能达到 95% 以上的分类准确率，这使得它不适合区分强模型和弱模型。更重要的是，数据集允许非常高的准确性，这在许多分类问题中通常是看不到的。这种算法的发展偏向于可以利用干净数据集的特定算法系列，例如活动集方法和边界搜索活动集算法。今天，MNIST 更像是一种健全性检查，而不是基准。ImageNet ( Deng et al. , 2009 )提出了一个更相关的挑战。不幸的是，对于本书中的许多示例和插图来说，ImageNet 太大了，因为训练这些示例需要很长时间才能使示例具有交互性。作为替代，我们将在接下来的部分中重点讨论定性相似但规模小得多的 Fashion-MNIST 数据集（Xiao等人，2017 年），该数据集于 2017 年发布。它包含 10 类服装的图像 28×28像素分辨率。

						%matplotlib inline
import time
import torch
import torchvision
from torchvision import transforms
from d2l import torch as d2l

d2l.use_svg_display()

						 

						%matplotlib inline
import time
from mxnet import gluon, npx
from mxnet.gluon.data.vision import transforms
from d2l import mxnet as d2l

npx.set_np()

d2l.use_svg_display()

						 

						%matplotlib inline
import time
import jax
import numpy as np
import tensorflow as tf
import tensorflow_datasets as tfds
from jax import numpy as jnp
from d2l import jax as d2l

d2l.use_svg_display()

						 

						No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

					

						%matplotlib inline
import time
import tensorflow as tf
from d2l import tensorflow as d2l

d2l.use_svg_display()

						 

4.2.1. 加载数据集

由于它是一个经常使用的数据集，所有主要框架都提供了它的预处理版本。我们可以使用内置的框架实用程序将 Fashion-MNIST 数据集下载并读取到内存中。

							class FashionMNIST(d2l.DataModule): #@save
  """The Fashion-MNIST dataset."""
  def __init__(self, batch_size=64, resize=(28, 28)):
    super().__init__()
    self.save_hyperparameters()
    trans = transforms.Compose([transforms.Resize(resize),
                  transforms.ToTensor()])
    self.train = torchvision.datasets.FashionMNIST(
      root=self.root, train=True, transform=trans, download=True)
    self.val = torchvision.datasets.FashionMNIST(
      root=self.root, train=False, transform=trans, download=True)

							 

							class FashionMNIST(d2l.DataModule): #@save
  """The Fashion-MNIST dataset."""
  def __init__(self, batch_size=64, resize=(28, 28)):
    super().__init__()
    self.save_hyperparameters()
    trans = transforms.Compose([transforms.Resize(resize),
                  transforms.ToTensor()])
    self.train = gluon.data.vision.FashionMNIST(
      train=True).transform_first(trans)
    self.val = gluon.data.vision.FashionMNIST(
      train=False).transform_first(trans)

							 

							class FashionMNIST(d2l.DataModule): #@save
  """The Fashion-MNIST dataset."""
  def __init__(self, batch_size=64, resize=(28, 28)):
    super().__init__()
    self.save_hyperparameters()
    self.train, self.val = tf.keras.datasets.fashion_mnist.load_data()

							 

							class FashionMNIST(d2l.DataModule): #@save
  """The Fashion-MNIST dataset."""
  def __init__(self, batch_size=64, resize=(28, 28)):
    super().__init__()
    self.save_hyperparameters()
    self.train, self.val = tf.keras.datasets.fashion_mnist.load_data()

							 

Fashion-MNIST 包含来自 10 个类别的图像，每个类别在训练数据集中由 6,000 个图像表示，在测试数据集中由 1,000 个图像表示。测试 数据集用于评估模型性能（不得用于训练）。因此，训练集和测试集分别包含 60,000 和 10,000 张图像。

							data = FashionMNIST(resize=(32, 32))
len(data.train), len(data.val)

							(60000, 10000)

						

							data = FashionMNIST(resize=(32, 32))
len(data.train), len(data.val)

							(60000, 10000)

						

							data = FashionMNIST(resize=(32, 32))
len(data.train[0]), len(data.val[0])

							(60000, 10000)

						

							data = FashionMNIST(resize=(32, 32))
len(data.train[0]), len(data.val[0])

							(60000, 10000)

						

图像是灰度和放大到32×32分辨率以上的像素。这类似于由（二进制）黑白图像组成的原始 MNIST 数据集。但请注意，大多数具有 3 个通道（红色、绿色、蓝色）的现代图像数据和超过 100 个通道的高光谱图像（HyMap 传感器有 126 个通道）。按照惯例，我们将图像存储为 c×h×w张量，其中c是颜色通道数，h是高度和w是宽度。

							data.train[0][0].shape

							 

							torch.Size([1, 32, 32])

						

							data.train[0][0].shape

							 

							(1, 32, 32)

						

							data.train[0][0].shape

							 

							(28, 28)

						

							data.train[0
						

PyTorch教程4.2之图像分类数据集

4.2.1. 加载数据集

PyTorch教程4.3之基本分类模型

PyTorch教程4.6之分类中的泛化

PyTorch教程14.1之图像增强

PyTorch教程7.2之图像卷积

核极端学习机高光谱遥感图像分类算法

多尺度膨胀卷积神经网络在图像分类中的应用

分块低秩图的遥感图像半监督分类

智能零售场景中的图像分类技术综述

基于辅助分类器生成对抗网络的图像识别

基于空谱联合特征的高光谱图像分类方法

基于空间特征的遥感图像场景分类方法

基于成对学习和图像聚类的肺癌亚型识别

眼底视网膜及图像质量分类研究综述

结合CSPPNet与集成学习的人类蛋白质图像分类

依据待分类实例显著局部特征的懒惰式分类模型

一种基于人脸图像阴影集的二级分类模型

基于区域RGB统计数据的图像粗分类方法

基于特征交换的卷积神经网络图像分类算法

基于二维图像与迁移卷积神经网络的分类方法

针对遥感图像场景分类的多粒度特征蒸馏方法

通过多模态特征融合来设计三维点云分类模型

如何使用深度卷积神经网络改进服装图像分类检索算法

如何使用深度神经网络和稀疏学习进行极化SAR图像分类

使用深度模型迁移进行细粒度图像分类的方法说明

如何使用复杂网络描述进行图像深度卷积的分类方法介绍

花粉图像分类识别

一种新的基于全局特征的极光图像分类方法

基于数据挖掘的医学图像分类方法

融合多尺度分割图像分类

一种Spark高光谱遥感图像稀疏表分类并行化方法

PyTorch中激活函数的全面概览

CNN图像分类策略

基于XIAO的图像分类处理项目

使用PyTorch加速图像分割

深度学习框架pytorch介绍

如何区分图像分类和目标检测技术

PyTorch教程-4.2. 图像分类数据集

图像识别数据集的重要性及其分类

PyTorch文本分类任务的基本流程

那些年在pytorch上踩过的坑

如何搭建VGG网络实现Mnist数据集的图像分类

图像分类任务的各种tricks

利用Python和PyTorch处理面向对象的数据集（1）

相机图像质量的分类及应用

如何解决高光谱图像分类面临的挑战

高光谱图像的分类将会面临怎样的挑战

经典图像分类算法AlexNet介绍

图像识别与分类在许多领域都有着广泛的应用

关于深度学习图像分类不得不说的技巧详解

基于PyTorch的深度学习入门教程之PyTorch的自动梯度计算

基于PyTorch的深度学习入门教程之PyTorch简单知识

基于PyTorch的深度学习入门教程之PyTorch的安装和配置

基于PyTorch的深度学习入门教程之DataParallel使用多GPU

基于PyTorch的深度学习入门教程之训练一个神经网络分类器

基于PyTorch的深度学习入门教程之使用PyTorch构建一个神经网络

textCNN论文与原理——短文本分类

人工智能引发的图像分类算法

使用PyTorch提取CNNs图像特征

如何使用神经网络模型加速图像数据集的分类

简单好上手的图像分类教程！

下载排行榜

储能电源市场分析

储能电源市场分析报告

2023年光伏行业发展回顾报告

IPC-J-STD-001J_EN 2024焊接电气和电子组件的TOC要求

汽车类高电流无刷直流 (BLDC) 电机驱动器原理图介绍

山特TG400UPS工作原理与维修