vllm安装注意事项[nccl、cuda、python相关]

本文总结了安装vLLM时的关键注意事项：1）Python版本要求，建议使用3.10；2）NCCL版本与vLLM的兼容性问题，指出NCCL 2.20.5对应vLLM 0.6.0可用，而NCCL 2.21.5与vLLM 0.8.5不兼容；3）提供了两种解决方案：更新NCCL版本或使用vLLM的Docker镜像。特别强调不同vLLM版本对模型部署的影响，如Qwen3需要vLLM 0.8.5以上版本支持分

带鱼工作室

3110人浏览 · 2025-06-05 17:03:35

带鱼工作室 · 2025-06-05 17:03:35 发布

1、前言

我们在使用vllm进行大模型并发推理时，逃不开vllm的安装，现对vllm安装时的坑说明下

2、python版本要求

上图展示了vllm各版本与python版本的对应关系，可自行查看，当然如果你选择了py310，就没问题。

3、NCCL版本

NCCL是多机多卡通信的程序库，与cuda也是有版本对应关系的，实践发现通常安装vllm失败是nccl版本低导致的，现经过实践整理对应关系如下：

nccl 2.20.5 安装 vllm 0.6.0 可行
nccl 2.21.5 安装 vllm 0.8.5 不可行

nccl版本可通过如下方式查看：

import torch
print(torch.cuda.nccl.version())

输入格式为：（2, 20, 5）表示你的nccl版本是2.20.5，安装0.6.0版本的vllm是没问题的，直接通过pip安装即可：

pip install vllm==0.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

那么对于nccl版本低导致vllm无法安装的情况，有两种解决方案：

1）对于方便更新nccl的情况，直接更新下软件包的版本即可

2）不方便更新时，可拉取vllm最新版本的docker镜像实现

对于高版本的vllm，如0.8.5，qwen3要求的最低vllm版本是0.8.5才能分布式部署，对于0.6.0版本的vllm，则可部署qwen2.5，根据自己的实际需求安装即可。

FlagOS智算系统软件栈

欢迎来到FlagOS开发社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

PyTorch CUDA调试第一步：5分钟学会使用torch_use_cuda_dsa

是PyTorch提供的一个调试工具，它允许你在CUDA设备端（GPU）执行断言检查。简单来说，就是在GPU上运行的代码中加入断言语句，当条件不满足时会触发错误，帮助你快速发现代码中的问题。这对于调试CUDA内核中的错误特别有用，因为设备端的错误通常比主机端更难调试。是一个非常实用的调试工具，尤其适合CUDA内核的调试。通过设备端断言，你可以快速发现代码中的逻辑错误，提高调试效率。希望这篇笔记能帮助

FlagOS智算系统软件栈

如何用AI优化PyTorch CUDA调试：torch_use_cuda_dsa详解

例如，在矩阵乘法中，可以断言矩阵的维度匹配，或者在计算过程中检查中间值是否在合理范围内。通过AI辅助工具，如Kimi-K2模型，我们可以快速生成带有详细注释的代码示例，解释每个参数的作用和调试技巧。AI不仅能帮助我们理解复杂的CUDA调试技术，还能提供自动补全和错误诊断功能，显著提高开发效率。为了更好地理解断言的作用，我们可以故意在代码中引入一些可能触发断言的条件。对于需要进行CUDA调试的开发者

FlagOS智算系统软件栈

解决bitsandbytes安装难题：libcudart.so找不到的终极方案

🚀 **bitsandbytes** 是一个革命性的PyTorch库，通过8位量化技术让大型语言模型变得触手可及。这个强大的工具能够将模型推理和训练的内存消耗降低到原来的几分之一，但安装时经常遇到的"libcudart.so not found"错误让许多开发者头疼不已。今天，我将为你提供一套完整的解决方案，彻底告别这个困扰！## 🔍 为什么会出现libcudart.so找不到的错误？