那些年在pytorch上踩过的坑

jf_78858299 2023-02-22 1179

电子说

1.3w人已加入

描述

今天又发现了一个pytorch的小坑，给大家分享一下。手上两份同一模型的代码，一份用tensorflow写的，另一份是我拿pytorch写的，模型架构一模一样，预处理数据的逻辑也一模一样，测试发现模型推理的速度也差不多。一份预处理代码是为pytorch模型写的，用到的库是torch，另一份是为tensorflow写的，用到的是numpy。在训练时，每个epoch耗时居然差距非常大，pytorch的代码在140w条数据上训练每轮耗时约45min，而tensorflow版的代码耗时仅约12min。

我把代码看了又看，百思不得其解，预处理的代码比较复杂，都包含两个for循环，pytorch版代码我把更多的预处理步骤放到了Dataset里，这样训练时加载每个batch后，再要处理的步骤就更少了，速度也应该更快，而tensorflow版代码的for循环里预处理的步骤明明更多，怎么会速度比我的代码还快呢？然而，经过我的测试发现，从加载每个batch的数据进来开始，经过预处理，直到输入到模型做计算前，两者的耗时差了约7~8倍。最后发现问题出在对pytorch的tensor进行了频繁的索引操作。

下面做个实验给大家直观体验一下，对tensor做索引和对array做索引的速度差距有多大，tensor和array都是大小(1000x1000)的二维数组。

Pytorch(version==1.4.1)索引1000000次耗时：3.51秒

pytorch