验证210个真实算子后发现，AI写Kernel还有这些硬伤

FlagOS智算系统软件栈

19人浏览 · 2026-05-20 13:21:11

FlagOS智算系统软件栈 · 2026-05-20 13:21:11 发布

Copilot能补全代码了，ChatGPT能debug了，

是不是有一天，AI能帮我们写出和手写一样高性能的算子？

“算子”是什么

如果把大模型比作一家餐厅，那算子就是后厨里最核心的几个厨师

一家餐厅好不好，招牌菜最关键。

同样的道理，大模型跑得快不快、效率高不高，底层的算子质量说了算。

然而：

一个高性能算子，需要开发者既懂算法，又懂硬件。

开发过程往往需要几周甚至几个月。

现在大模型来了，很多人说：让AI写不就行了？

愿景很美好，现实很骨感。

很多时候：

一个 Kernel “能跑”只是起点，真正困难的是：

生成的 Kernel 是否真的正确？

性能到底提升了多少？

在不同芯片上是否还能工作？

Agent 调试是否真的比直接生成更有效？

更重要的是：

开发者很难用统一标准，

去验证和优化自己生成的 Kernel。

行业始终缺少一套真正系统化的评测与优化工具

我们建了一个考卷——KernelGenBench

一个面向 Triton Kernel 自动生成场景的系统级 Benchmark 与评测工具。

为了让这场评测公平、可信、真实，我们干了三件事：

第一，建了一个超大题库。

覆盖ATen、vLLM、cuBLAS等真实来源的210道高频算子题，这些题不是我们编的，是从真实的代码库里挖出来的。

第二，一套卷子，6台不同的机器同时“评”。

昇腾、天数智芯等6款芯片，一个算子写出来，要在所有机器上都能跑、都能跑得快。

这才是真正的"一次开发，多芯运行"。

第三，我们用了超150亿Token来验证结果。

这不是小打小闹，是真正的大规模生产级测试。我们还专门设计了防作弊机制，确保评测结果真实可信。

我们想弄清楚

LLM 直接生成 vs. 闭环 Agent 调试的能力边界究竟在哪里？

你能在这场直播里听到什么？

Part 1：破局 —— 为什么算子开发成了“老大难”？
Part 2：架构 —— KernelGenBench 这种“终极考卷”是如何被设计出来的？
Part 3：背后 —— 技术内幕公开，分享“分布式执行沙盒”的系统设计
Part 4：洞见 —— 豪掷 150 亿 Token 测出来的“残酷真相”

直播时间： 5月21日晚19:00-20:00

直播平台： FlagOS智算系统软件站CSDN-Devpress

大模型究竟能否写出可用算子？跨平台生态痛点到底在哪？来直播间，我们用最硬核的数据说话！

如果你是：

AI Infra 工程师、Triton 开发者

国产 AI 芯片生态参与者

或者你只是单纯好奇：

AI 距离真正“自动写高性能底层代码”还有多远？

欢迎一起来交流。

因为在“大模型会写代码”之后，

行业真正需要解决的问题，

可能已经变成了：

如何系统化地验证、评测与优化 AI 生成的代码。

而这正是 KernelGenBench 想解决的问题。

FlagOS智算系统软件栈

欢迎来到FlagOS开发社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

不可不知小技巧｜CPP Wrapper 完全指南：让你的 Triton 算子性能再提升一步

通过本文的探讨，我们深入了解了在处理计算量很小的算子时，如何通过 C++ wrapper 来降低 Wrapper+JIT runtime 的开销。通过 C++ wrapper，我们可以直接在 C++ 层面进行类型管理和内存分配，从而避免 Python 调用带来的额外开销。实验数据也证明了这种方法的有效性，性能提升显著。对于大模型推理、端侧部署、高频小算子调用等场景，C++ Wrapper 能让 T

FlagOS智算系统软件栈

10芯齐发：众智FlagOS完成DeepSeek-V4多芯适配，清微智能与曦望实现284B模型版本的适配开源

在FlagOS的统一算子库FlagGems、统一编译器FlagTree及基于FlagScale的多芯片适配支持下，海光、沐曦、华为、摩尔线程（FP8）、昆仑芯、平头哥、天数、英伟达（FP8）、清微、曦望等10款芯片，已经完成 DeepSeek-V4系列模型的跨芯适配及验证。同时，基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本，标准化 Docke

FlagOS智算系统软件栈

大模型新拐点：FlagOS+Engram 开启算存协同新时代

本文首先介绍 Engram 的核心思想，然后阐述基于 FlagOS 系统软件栈中的训练插件完成的 Engram 架构全链路复现。在此基础上，重点展示 FlagOS 针对 Engram 进行的三大工程优化。实验量化结果表明，FlagOS 对 Engram 的优化在保持额外负载为零的前提下，使吞吐最高提升近 150%。