手动安装VLLM出现的问题：fatal error: cuda_fp8.h: No such file or directory

需要这个的原因，可能是下面的nvidia-cuda-toolkit残留，导致被判定为cuda11.0了，不过设置了后，问题也不出现了。如果上面两个命令都有nvcc路径，并且不一致，就是不行的，需要卸载nvidia-cuda-toolkit。因为系统上nvidia-cuda-toolkit 也存在 NVCC 在 /usr/bin下面。就行，此处是禁用 HTTP/2。

qq_43367614

2494人浏览 · 2024-09-03 11:57:08

qq_43367614 · 2024-09-03 11:57:08 发布

1. nvcc fatal : Unsupported gpu architecture ‘compute_86’

# vim ~/.bashrc
export TORCH_CUDA_ARCH_LIST="8.0"  # 因为是CUDA11.0，对应的算力为8.0
# source  ~/.bashrc

需要这个的原因，可能是下面的nvidia-cuda-toolkit残留，导致被判定为cuda11.0了，不过设置了后，问题也不出现了

2.fatal error: cuda_fp8.h: No such file or directory

解决办法是：
在这里插入图片描述
因为系统上 nvidia-cuda-toolkit 也存在 NVCC 在 /usr/bin下面

which nvcc
dpkg -L nvidia-cuda-toolkit

如果上面两个命令都有nvcc路径，并且不一致，就是不行的，需要卸载nvidia-cuda-toolkit

sudo apt-get remove --purge nvidia-cuda-toolkit

3. pip 安装中 git下载失败的问题

Cloning into ‘cutlass-src’…
remote: Enumerating objects: 27428, done.
remote: Counting objects: 16% (1/6)
remote: Counting objects: 33% (2/6)
remote: Counting objects: 50% (3/6)
remote: Counting objects: 66% (4/6)
remote: Counting objects: 83% (5/6)
remote: Counting objects: 100% (6/6)
remote: Counting objects: 100% (6/6), done.
remote: Compressing objects: 16% (1/6)
remote: Compressing objects: 33% (2/6)
remote: Compressing objects: 50% (3/6)
remote: Compressing objects: 66% (4/6)
remote: Compressing objects: 83% (5/6)
remote: Compressing objects: 100% (6/6)
remote: Compressing objects: 100% (6/6), done.
Receiving objects: 0% (1/27428)
Receiving objects: 1% (275/27428)
Receiving objects: 2% (549/27428), 188.01 KiB | 358.00 KiB/s
Receiving objects: 2% (565/27428), 316.01 KiB | 276.00 KiB/s
Receiving objects: 2% (620/27428), 428.01 KiB | 258.00 KiB/s
。。。
Receiving objects: 22% (6143/27428), 14.37 MiB | 142.00 KiB/s
error: RPC failed; curl 92 HTTP/2 stream 0 was not closed cleanly: CANCEL (err 8)
error: 39 bytes of body are still expected
fetch-pack: unexpected disconnect while reading sideband packet
fatal: early EOF
fatal: fetch-pack: invalid index-pack output
Had to git clone more than once: 3 times.
CMake Error at cutlass-subbuild/cutlass-populate-prefix/tmp/cutlass-populate-gitclone.cmake:50 (message):
Failed to clone repository: ‘https://github.com/nvidia/cutlass.git’

设置GIT_CURL_VERBOSE=1就行，此处是禁用 HTTP/2

MAX_JOBS=8 GIT_CURL_VERBOSE=1 pip install -e .

FlagOS智算系统软件栈

欢迎来到FlagOS开发社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

一文看懂 TritonNext 2026：FlagOS 亮点详解、语言扩展新趋势、AI 生成更加“底层”、芯片软件生态或迎“新拐点”！

作者 | CSDN 编辑部出品丨AI 科技大本营（ID：rgznai100）算力已成为 AI 时代的“石油”，但如何高效挖掘异构算力的潜能，打破单一硬件架构的软件壁垒，是全行业面临的共同考题。过去二十年，CUDA 几乎定义了 GPU 编程的主流路径。但在 2026 年，随着更多国内 AI 芯片算力崛起与异构计算的普及，Triton 正从一个学术界的编程语言，演变为工业界打破 CUDA 垄断、连接上