算力被榨干、显存常年OOM？大模型是时候外接“记忆硬盘

FlagOS智算系统软件栈

1人浏览 · 2026-05-07 14:38:11

FlagOS智算系统软件栈 · 2026-05-07 14:38:11 发布

Dear Developer：

见字如面

前几天， DeepSeek V4，刷屏了。

很多人还在讨论：性能提升了多少、上下文长度增加了多少。

但在技术圈，大家更加关注

这一版本，V4不再追求“更大”，

模型正在尝试把“记忆”从参数里拆出来。

那意味着

我们熟悉的那套扩展逻辑，可能要变了。

今天的大语言模型，本质上都在做一件事：

把知识“压缩”进参数里。

就像把整个图书馆塞进一个人脑子里——

你确实知识渊博了，计算推理的负担也越来越重了。

于是，一个核心矛盾开始显现：

一边是能力在涨，另一边却是算力在“失控”。

有没有可能，把“记忆”和“思考”分开？

就好像给模型外挂“九九乘法表”

需要的时候直接调用，而不是从头推导。

这个思路背后，有一个关键词：FlagOS+Engram

它尝试做一件看起来很简单、但其实很颠覆的事情：

把“记忆”从模型参数里“拿出来”，
变成一个可以独立扩展、随用随取的系统。

换句话说——

模型负责“思考”，

记忆系统负责“存储”。

但真正的难点，从来不是“想法”

一旦落到工程层面，问题才刚刚开始：

怎么在不改动原有模型的情况下接入？
多卡、多芯片环境下，怎么高效调度？
超大规模记忆，怎么避免通信成为瓶颈？

这些问题，才是真正把“想法”变成“现实”的关键。

一次完整的工程落地，正在发生

这次直播，我们不会停留在概念层面

FlagOS 社区带着一套开箱即用的“魔法”来了

👉 打造专属并行解耦方案，破解传统Allreduce+张量并行(TP)性能瓶颈

👉 基于异步预取与计算重叠技术，降低Engram 对训练主路径影响

👉对优化器状态采用精细化分级卸载策略，有效解决显存溢出

更重要的是—— 这一切，并不是“推倒重来”，而是在现有体系上，一步步演进出来的结果。

也许，这不只是一次技术升级

如果你也在思考——

下一代大模型，究竟该往哪里走？

这场直播，或许会给你一个不一样的答案。

周四见！

FlagOS智算系统软件栈

欢迎来到FlagOS开发社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

不可不知小技巧｜CPP Wrapper 完全指南：让你的 Triton 算子性能再提升一步

通过本文的探讨，我们深入了解了在处理计算量很小的算子时，如何通过 C++ wrapper 来降低 Wrapper+JIT runtime 的开销。通过 C++ wrapper，我们可以直接在 C++ 层面进行类型管理和内存分配，从而避免 Python 调用带来的额外开销。实验数据也证明了这种方法的有效性，性能提升显著。对于大模型推理、端侧部署、高频小算子调用等场景，C++ Wrapper 能让 T

FlagOS智算系统软件栈

官宣｜FlagOS 登陆腾讯云，快速在国产AI芯片部署OpenClaw+大模型，实现“养虾”自由

FlagOS智算系统软件栈

大模型新拐点：FlagOS+Engram 开启算存协同新时代

本文首先介绍 Engram 的核心思想，然后阐述基于 FlagOS 系统软件栈中的训练插件完成的 Engram 架构全链路复现。在此基础上，重点展示 FlagOS 针对 Engram 进行的三大工程优化。实验量化结果表明，FlagOS 对 Engram 的优化在保持额外负载为零的前提下，使吞吐最高提升近 150%。