一、

操作系统:ubuntu22.04 LTS

python版本:3.12.7

最近学习了用poetry配置python虚拟环境,当为不同的项目配置cuda时,会遇到不同的项目使用的cuda版本不一致的情况。

像torch 这样的库,它们会对cuda-toolkit有依赖,通过python来使用cuda,它们会依赖像

nvidia-cuda-runtime-cu12

nvidia-cublas-cu12

这样的python库,这种情况下,在pyproject.toml里写上 

[tool.poetry.dependencies]

torch = {path = "./torch-2.2.1+cu121-cp312-cp312-linux_x86_64.whl"}

或者

torch = "2.2.1"

这样的依赖就行了,poetry会自动下载依赖的cuda-toolkit的python库

这时候,通过poetry show torch --tree可以查看到依赖关系:

user@user-Ubuntu2204:~/projects/cuda-test$ poetry show torch --tree
torch 2.2.1+cu121 Tensors and Dynamic neural networks in Python with strong GPU acceleration
├── filelock *
├── fsspec *
├── jinja2 *
│   └── markupsafe >=2.0 
├── networkx *
├── nvidia-cublas-cu12 12.1.3.1
├── nvidia-cuda-cupti-cu12 12.1.105
├── nvidia-cuda-nvrtc-cu12 12.1.105
├── nvidia-cuda-runtime-cu12 12.1.105
├── nvidia-cudnn-cu12 8.9.2.26
│   └── nvidia-cublas-cu12 * 
├── nvidia-cufft-cu12 11.0.2.54
├── nvidia-curand-cu12 10.3.2.106
├── nvidia-cusolver-cu12 11.4.5.107
│   ├── nvidia-cublas-cu12 * 
│   ├── nvidia-cusparse-cu12 * 
│   │   └── nvidia-nvjitlink-cu12 * 
│   └── nvidia-nvjitlink-cu12 * (circular dependency aborted here)
├── nvidia-cusparse-cu12 12.1.0.106
│   └── nvidia-nvjitlink-cu12 * 
├── nvidia-nccl-cu12 2.19.3
├── nvidia-nvtx-cu12 12.1.105
├── sympy *
│   └── mpmath >=1.1.0,<1.4 
└── typing-extensions >=4.8.0

有的基于gpu的库不通过python来使用cuda,这时候就要给操作系统安装对应的cuda版本才行。这时候,从poetry show 查看依赖关系是看不到它对nvidia的cuda-toolkit的依赖的:

user@user-Ubuntu2204:~/projects/cuda-test$ poetry show paddlepaddle-gpu --tree
paddlepaddle-gpu 2.6.2.post120 Parallel Distributed Deep Learning
├── astor *
├── decorator *
├── httpx *
│   ├── anyio * 
│   │   ├── idna >=2.8 
│   │   └── sniffio >=1.1 
│   ├── certifi * 
│   ├── httpcore ==1.* 
│   │   ├── certifi * (circular dependency aborted here)
│   │   └── h11 >=0.13,<0.15 
│   ├── idna * (circular dependency aborted here)
│   └── sniffio * (circular dependency aborted here)
├── numpy >=1.13
├── opt-einsum 3.3.0
│   └── numpy >=1.7 
├── pillow *
├── protobuf >=3.20.2
└── protobuf >=3.1.0,<=3.20.2

还有的库,比如paddlepaddle-gpu的cu118版本,虽然它依赖了python的cuda-toolkit,仍然需要在操作系统上安装cuda11.8版本以及对应的cudnn,否则在运行时会报cuda runtime的库找不到的情况。

另外,像torch这样通过python来使用cuda,可以给nvidia的cuda-toolkit库指定路径:

[tool.poetry.dependencies]
python = "^3.12"
setuptools = "70.0.0"

nvidia-cublas-cu12={ path = "./nvidia_cublas_cu12-12.1.3.1-py3-none-manylinux1_x86_64.whl" }
nvidia-cuda-cupti-cu12={ path = "./nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl" }

poetry创建了虚拟环境后,可以激活虚拟环境:source .venv/bin/activate,或者poetry shell,激活后,可以使用pip命令还单独安装部分依赖库

二、

pytorch关于cuda的依赖,这个可供参考:https://zhuanlan.zhihu.com/p/553023616

现在的gpu版本的pytorch都会自动安装上对应的cuda和cudnn,不需要在系统另外安装cuda。

另外,linux下的torch与windows的torch不太一样,linux的gpu版的torch安装包比较小,不到1G(2.5.1,cu124),windows的有2G多,linux安装的torch的时候,会额外去下载cuda相关的.whl,而windows安装的时候则不会。

有些开源库在pip install -e .的时候,会需要用到nvcc 编译器(例如SAM2),这种情况下,就需要在系统安装CUDA toolkit。因为pytorch依赖的cuda whl是不包含nvcc的

Logo

欢迎来到FlagOS开发社区,这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂,为推动人工智能技术的普及与深化应用贡献力量。

更多推荐