1、前言

        我们在使用vllm进行大模型并发推理时,逃不开vllm的安装,现对vllm安装时的坑说明下

2、python版本要求

        上图展示了vllm各版本与python版本的对应关系,可自行查看,当然如果你选择了py310,就没问题。

3、NCCL版本

        NCCL是多机多卡通信的程序库,与cuda也是有版本对应关系的,实践发现通常安装vllm失败是nccl版本低导致的,现经过实践整理对应关系如下:

        nccl 2.20.5 安装 vllm  0.6.0 可行
        nccl 2.21.5 安装 vllm  0.8.5 不可行

        nccl版本可通过如下方式查看:

import torch
print(torch.cuda.nccl.version())

        输入格式为:(2, 20, 5)表示你的nccl版本是2.20.5,安装0.6.0版本的vllm是没问题的,直接通过pip安装即可:

pip install vllm==0.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

        那么对于nccl版本低导致vllm无法安装的情况,有两种解决方案:

        1)对于方便更新nccl的情况,直接更新下软件包的版本即可

        2)不方便更新时,可拉取vllm最新版本的docker镜像实现

        对于高版本的vllm,如0.8.5,qwen3要求的最低vllm版本是0.8.5才能分布式部署,对于0.6.0版本的vllm,则可部署qwen2.5,根据自己的实际需求安装即可。

Logo

欢迎来到FlagOS开发社区,这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂,为推动人工智能技术的普及与深化应用贡献力量。

更多推荐