fpn.pytorch报错：undefined symbol: __cudaPopCallConfiguration

I find the root of the problem is the mismatch of the nvcc version and the torchcuda version. You must make sure they are the same.Check nvcc version:nvcc --versionCheck torch cuda version, go to the

Yang TY

685人浏览 · 2021-02-01 11:31:10

Yang TY · 2021-02-01 11:31:10 发布

问题背景：

在运行fpn.pytorch项目时，遇到了undefined symbol: __cudaPopCallConfiguration错误。

原因分析：

笔者遇到该问题的原因是，fpn.pytorch需要用nvcc-9.0对模型进行编译，但笔者的系统默认nvcc版本为10.2（系统默认在PATH路径下搜索nvcc）。

（能发现是由cuda版本不匹配而导致的错误，多亏了jshi31大佬的解答：

I find the root of the problem is the mismatch of the nvcc version and the torchcuda version. You must make sure they are the same.
Check nvcc version:
nvcc --version
Check torch cuda version, go to the python interface and type
import torch
torch.version.cuda
make sure they are the same and I solved my problem.）

解决方案：

在自己的系统上安装cuda9.0，并将系统默认cuda版本切换为cuda9.0。（相关教程：多版本cuda安装和切换）

引申阅读：

1. torch如何得知系统默认cuda版本：

（1）在torch.utils.ffi.__init__.py 中

cuda_include_dirs = glob.glob('/usr/local/cuda/include')#这句话指定了与cuda相关的include路径

（2）运行时动态库的搜索路径的先后顺序是（引自生信技能树）：
1.编译目标代码时指定的动态库搜索路径；
2.环境变量LD_LIBRARY_PATH指定的动态库搜索路径；
3.配置文件/etc/ld.so.conf中指定的动态库搜索路径；
4.默认的动态库搜索路径/lib和/usr/lib；

2. 如何修改linux环境变量

FlagOS智算系统软件栈

欢迎来到FlagOS开发社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

PyTorch CUDA调试第一步：5分钟学会使用torch_use_cuda_dsa

是PyTorch提供的一个调试工具，它允许你在CUDA设备端（GPU）执行断言检查。简单来说，就是在GPU上运行的代码中加入断言语句，当条件不满足时会触发错误，帮助你快速发现代码中的问题。这对于调试CUDA内核中的错误特别有用，因为设备端的错误通常比主机端更难调试。是一个非常实用的调试工具，尤其适合CUDA内核的调试。通过设备端断言，你可以快速发现代码中的逻辑错误，提高调试效率。希望这篇笔记能帮助

FlagOS智算系统软件栈

如何用AI优化PyTorch CUDA调试：torch_use_cuda_dsa详解

例如，在矩阵乘法中，可以断言矩阵的维度匹配，或者在计算过程中检查中间值是否在合理范围内。通过AI辅助工具，如Kimi-K2模型，我们可以快速生成带有详细注释的代码示例，解释每个参数的作用和调试技巧。AI不仅能帮助我们理解复杂的CUDA调试技术，还能提供自动补全和错误诊断功能，显著提高开发效率。为了更好地理解断言的作用，我们可以故意在代码中引入一些可能触发断言的条件。对于需要进行CUDA调试的开发者

FlagOS智算系统软件栈

解决bitsandbytes安装难题：libcudart.so找不到的终极方案

🚀 **bitsandbytes** 是一个革命性的PyTorch库，通过8位量化技术让大型语言模型变得触手可及。这个强大的工具能够将模型推理和训练的内存消耗降低到原来的几分之一，但安装时经常遇到的"libcudart.so not found"错误让许多开发者头疼不已。今天，我将为你提供一套完整的解决方案，彻底告别这个困扰！## 🔍 为什么会出现libcudart.so找不到的错误？