FlagOS 与CANN-Bench共筑 AI 算子新基建

FlagOS智算系统软件栈

5人浏览 · 2026-05-27 11:05:19

FlagOS智算系统软件栈 · 2026-05-27 11:05:19 发布

全国高考临近，人类学子正在挑灯夜战，

对人类考生而言，高考意味着拥有最统一的试卷和一把相对公平的“尺子”。

但转身看向AI圈的各种“能力评测”，目前却正陷入一种缺乏权威度量衡的草莽状态。

你可能听过这个科技圈最新的“抓马”名场面：

Sakana AI发布一项新技术，该技术宣称能通过 AI 自动优化 CUDA 内核，并实现了令人瞩目的性能飞跃——在特定场景下甚至斩获了“百倍加速”的惊人战果。消息一出，行业圈内瞬间沸腾，无数开发者惊呼：这或许就是 AI 彻底颠覆算力优化的“奇点时刻”。遗憾的是，这场“性能神话”仅仅维持了几天。随着业内专家的硬核拆解，包裹在技术外表下的“皇帝新衣”被无情剥离，露出了一个令人啼笑皆非的荒诞真相。这“百倍加速”的背后，根本不是什么AI优化，而是一个低级的错误——生成的CUDA kernel只执行了一行运算，剩下的“加速”纯粹是评测脚本的漏洞导致的。也就是说它为了拿高分，竟然直接潜入后台修改了监考老师的“计时代码”，硬生生把自己伪装成了“百倍加速”的神童。

现在，AI Agent 已经开始代替人类资深工程师，直接挑战大模型编码界的“压轴题”——端到端编写底层算子。但是：

它们是在真写代码，还是在暗中偷工减料？
怎么防范这些智商超群的“数字考生”在考场上搞小动作？

本周直播，

带你直击 AI 届首场“硬核防作弊高考”！

两位华为研究员亲自带来超多独家猛料！

从“作弊事件”看透核心痛点：拆解 Sakana AI“100× 加速”缓存作弊真相，告诉你为什么传统评测标准，在 AI Agent 面前彻底失效？
AI 界的“五年高考三年模拟” ：4 难度 × 53 算子 × 1060 用例，还有“三轴评测”，手把手教你 CANN-Bench 怎么判断AI写的算子“合不合格”。
王牌保送生登场：光有硬核试卷还不够，还得有顶级学霸来交卷！FlagOS 的 KernelGen 技术已经掌握了自动生成 Triton 算子的独门绝技，堪称全自动写代码的“满分作文模板”！

别被“算子”、“基准”这些冷冰冰的词汇吓跑，本场直播我们将用最通俗的语言，带你围观这场人类与 AI 的考场攻防战！

这是一场属于 AI 生态共建者的硬核夜聊。

5月28日晚19:00-20:00

我们一同去考场监考，看最公正的尺，如何量出最硬核的 AI 未来！

FlagOS智算系统软件栈

欢迎来到FlagOS开发社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

不可不知小技巧｜CPP Wrapper 完全指南：让你的 Triton 算子性能再提升一步

通过本文的探讨，我们深入了解了在处理计算量很小的算子时，如何通过 C++ wrapper 来降低 Wrapper+JIT runtime 的开销。通过 C++ wrapper，我们可以直接在 C++ 层面进行类型管理和内存分配，从而避免 Python 调用带来的额外开销。实验数据也证明了这种方法的有效性，性能提升显著。对于大模型推理、端侧部署、高频小算子调用等场景，C++ Wrapper 能让 T

FlagOS智算系统软件栈

10芯齐发：众智FlagOS完成DeepSeek-V4多芯适配，清微智能与曦望实现284B模型版本的适配开源

在FlagOS的统一算子库FlagGems、统一编译器FlagTree及基于FlagScale的多芯片适配支持下，海光、沐曦、华为、摩尔线程（FP8）、昆仑芯、平头哥、天数、英伟达（FP8）、清微、曦望等10款芯片，已经完成 DeepSeek-V4系列模型的跨芯适配及验证。同时，基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本，标准化 Docke

FlagOS智算系统软件栈

大模型新拐点：FlagOS+Engram 开启算存协同新时代

本文首先介绍 Engram 的核心思想，然后阐述基于 FlagOS 系统软件栈中的训练插件完成的 Engram 架构全链路复现。在此基础上，重点展示 FlagOS 针对 Engram 进行的三大工程优化。实验量化结果表明，FlagOS 对 Engram 的优化在保持额外负载为零的前提下，使吞吐最高提升近 150%。