yolov5的3.0版本代码在训练的时候报错：ImportError: cannot import name ‘amp‘ from ‘torch.cuda‘ 以及yolov5的3.0环境安装

1 错误原因分析yolov5的3.0版本代码在训练的时候报错：ImportError: cannot import name 'amp' from 'torch.cuda'(yolov5) shl@zfcv:~/project/yolov5_v3_0820$ ./4_clothes_shoes_hat_v1_trainTraceback (most recent call last):File "

点亮～黑夜

27702人浏览 · 2020-08-25 14:48:07

点亮～黑夜 · 2020-08-25 14:48:07 发布

欢迎大家关注笔者，你的关注是我持续更博的最大动力

原创文章，转载告知，盗版必究

yolov5的3.0版本代码在训练的时候报错：ImportError: cannot import name ‘amp‘ from ‘torch.cuda‘ 以及yolov5的3.0环境安装

文章目录：

1 错误原因分析
2 错误解决方法一
3 错误解决方法二
4 最终错误解决方法

本人环境声明：

系统环境：Ubuntu18.04.1
cuda版本：10.2.89
cudnn版本：7.6.5
torch：1.6.0
torchvision：0.7.0

1 错误原因分析

yolov5的3.0版本代码在训练的时候报错：ImportError: cannot import name 'amp' from 'torch.cuda'

(yolov5) shl@zfcv:~/project/yolov5_v3_0820$ ./4_clothes_shoes_hat_v1_train
Traceback (most recent call last):
  File "train.py", line 16, in <module>
    from torch.cuda import amp
ImportError: cannot import name 'amp' from 'torch.cuda' (/home/shl/anaconda3/envs/yolov5/lib/python3.7/site-packages/torch/cuda/__init__.py)

2 错误解决方法一

然后我就开始尝试解决这个问题，在网上看到issues的解决方法，这可能可cuda和pytorch的版本问题，具体解决方法如下：

1、查看你的cuda和pytorch的版本

nvcc --version 或 cat usr/local/cuda-[version]

2、如果你的cuda是10.0，请在这里检查你的pytorch的对应版本

在这里插入图片描述

3、重新安装cuda10.0对应的pytorch

pip install torch==1.4+cu100 torchvision==0.5.0+cu100 -f https://download.pytorch.org/whl/torch_stable.html

我的pytorch安装的就是torch==1.4+cu100 torchvision==0.5.0+cu100，但是我的cuda是10.2版本，但是我并不像改变这个版本！

3 错误解决方法二

之前在yolov5的v2版本中，train.py的apex使用代码如下：

(yolov5) shl@zfcv:~/project/yolov5_v3_0820$ cat ~/shl/yolov5/train.py -n
     1  import argparse
     2
     3  import torch.distributed as dist
     4  import torch.nn.functional as F
     5  import torch.optim as optim
     6  import torch.optim.lr_scheduler as lr_scheduler
     7  import yaml
     8  from torch.utils.tensorboard import SummaryWriter
     9
    10  import test  # import test.py to get mAP after each epoch
    11  from models.yolo import Model
    12  from utils.datasets import *
    13  from utils.utils import *
    14
    15  mixed_precision = True
    16  try:  # Mixed precision training https://github.com/NVIDIA/apex
    17      from apex import amp
    18  except:
    19      print('Apex recommended for faster mixed precision training: https://github.com/NVIDIA/apex')
    20      mixed_precision = False  # not installed

于是我把train.py的from torch.cuda import amp修改为：from apex import amp

1、首先安装amp，如果没有安装会提示库包不存在

(yolov5) shl@zfcv:~/project/yolov5_v3_0820$ ./4_clothes_shoes_hat_v1_train
Traceback (most recent call last):
  File "train.py", line 18, in <module>
    from apex import amp
ModuleNotFoundError: No module named 'apex'

2、安装好之后又再执行训练，报错如下

报错：TypeError: Class advice impossible in Python3. Use the @implementer class decorator instead.

(yolov5) shl@zfcv:~/project/yolov5_v3_0820$ ./4_clothes_shoes_hat_v1_train
Traceback (most recent call last):
  File "train.py", line 18, in <module>
    from apex import amp
  File "/home/shl/anaconda3/envs/yolov5/lib/python3.7/site-packages/apex/__init__.py", line 18, in <module>
    from apex.interfaces import (ApexImplementation,
  File "/home/shl/anaconda3/envs/yolov5/lib/python3.7/site-packages/apex/interfaces.py", line 10, in <module>
    class ApexImplementation(object):
  File "/home/shl/anaconda3/envs/yolov5/lib/python3.7/site-packages/apex/interfaces.py", line 14, in ApexImplementation
    implements(IApex)
  File "/home/shl/anaconda3/envs/yolov5/lib/python3.7/site-packages/zope/interface/declarations.py", line 706, in implements
    raise TypeError(_ADVICE_ERROR % 'implementer')
TypeError: Class advice impossible in Python3.  Use the @implementer class decorator instead.
(yolov5) shl@zfcv:~/project/yolov5_v3_0820$

3、解决错误（参考）：TypeError: Class advice impossible in Python3. Use the @implementer class decorator instead.

从apx的github主页的源码进行安装，如下：

git clone https://github.com.cnpmjs.org/NVIDIA/apex.git
cd apex
python setup.py install

然后错误完美解决，但是，紧接着又报错：AttributeError: module 'torch.nn' has no attribute 'Hardswish'
在这里插入图片描述

nn.Hardswish这个激活函数应该是torch1.6中刚有的，yolov5官方也说了，在yolov5的3.0版本要保证torch>=1.6，我C C 艹 ！

无奈，我只能重新建一个虚拟环境，然后乖乖安装torch1.6版本了！

#4 最终解决方法

1、新建虚拟环境

conda create -n yolov5-v3 python=3.7

2、激活虚拟环境

conda activate yolov5-v3

3、下载安装pytorch1.6

先去Pytorch官网查看pytorch1.6对应依赖的cuda版本

使用如下的下载命令：

pip install torch===1.6.0 torchvision===0.7.0 -f https://download.pytorch.org/whl/torch_stable.html

在这里插入图片描述

4、安装yolov5-v3的依赖库包

pip install -r requirements.txt

torch.nn.modules.module.ModuleAttributeError: ‘BatchNorm2d’ object has no attribute ‘_non_persistent_buffers_set’

在这里插入图片描述

查看官网issues，其中说的解决方法是更改torch的版本

https://download.pytorch.org/whl/torch_stable.html
在这里插入图片描述

然后我安装了torch1.5.1之后，开始训练时又报错：AttributeError: module 'torch.nn' has no attribute 'Hardswish'这TMD是死循环吗，我决定放弃了！

4 最终错误解决方法

还好没放弃，终于等到你！！！

具体参考这篇博客，我就不在这里在罗列了！

博客地址：https://shliang.blog.csdn.net/article/details/108219810

在这里插入图片描述

在这里插入图片描述
♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠

FlagOS智算系统软件栈

欢迎来到FlagOS开发社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

PyTorch CUDA调试第一步：5分钟学会使用torch_use_cuda_dsa

是PyTorch提供的一个调试工具，它允许你在CUDA设备端（GPU）执行断言检查。简单来说，就是在GPU上运行的代码中加入断言语句，当条件不满足时会触发错误，帮助你快速发现代码中的问题。这对于调试CUDA内核中的错误特别有用，因为设备端的错误通常比主机端更难调试。是一个非常实用的调试工具，尤其适合CUDA内核的调试。通过设备端断言，你可以快速发现代码中的逻辑错误，提高调试效率。希望这篇笔记能帮助

FlagOS智算系统软件栈

如何用AI优化PyTorch CUDA调试：torch_use_cuda_dsa详解

例如，在矩阵乘法中，可以断言矩阵的维度匹配，或者在计算过程中检查中间值是否在合理范围内。通过AI辅助工具，如Kimi-K2模型，我们可以快速生成带有详细注释的代码示例，解释每个参数的作用和调试技巧。AI不仅能帮助我们理解复杂的CUDA调试技术，还能提供自动补全和错误诊断功能，显著提高开发效率。为了更好地理解断言的作用，我们可以故意在代码中引入一些可能触发断言的条件。对于需要进行CUDA调试的开发者

FlagOS智算系统软件栈

解决bitsandbytes安装难题：libcudart.so找不到的终极方案

🚀 **bitsandbytes** 是一个革命性的PyTorch库，通过8位量化技术让大型语言模型变得触手可及。这个强大的工具能够将模型推理和训练的内存消耗降低到原来的几分之一，但安装时经常遇到的"libcudart.so not found"错误让许多开发者头疼不已。今天，我将为你提供一套完整的解决方案，彻底告别这个困扰！## 🔍 为什么会出现libcudart.so找不到的错误？