Copilot能补全代码了,ChatGPT能debug了,

是不是有一天,AI能帮我们写出和手写一样高性能的算子?

 

“算子”是什么

如果把大模型比作一家餐厅,那算子就是后厨里最核心的几个厨师

一家餐厅好不好,招牌菜最关键。

同样的道理,大模型跑得快不快、效率高不高,底层的算子质量说了算。

 

然而:

一个高性能算子,需要开发者既懂算法,又懂硬件

开发过程往往需要几周甚至几个月。

现在大模型来了,很多人说:让AI写不就行了?

愿景很美好,现实很骨感。

 

很多时候:

一个 Kernel “能跑”只是起点,真正困难的是:

生成的 Kernel 是否真的正确?

性能到底提升了多少?

在不同芯片上是否还能工作?

Agent 调试是否真的比直接生成更有效?

更重要的是:

开发者很难用统一标准,

去验证和优化自己生成的 Kernel。

行业始终缺少一套真正系统化的评测与优化工具

 

我们建了一个考卷——KernelGenBench

一个面向 Triton Kernel 自动生成场景的系统级 Benchmark 与评测工具。

 

为了让这场评测公平、可信、真实,我们干了三件事:

第一,建了一个超大题库。

覆盖ATen、vLLM、cuBLAS等真实来源的210道高频算子题,这些题不是我们编的,是从真实的代码库里挖出来的。

第二,一套卷子,6台不同的机器同时“评”。

昇腾、天数智芯等6款芯片,一个算子写出来,要在所有机器上都能跑、都能跑得快。

这才是真正的"一次开发,多芯运行"。

第三,我们用了超150亿Token来验证结果。

这不是小打小闹,是真正的大规模生产级测试。我们还专门设计了防作弊机制,确保评测结果真实可信。

我们想弄清楚

LLM 直接生成 vs. 闭环 Agent 调试的能力边界究竟在哪里?

 

你能在这场直播里听到什么?

  • Part 1:破局 —— 为什么算子开发成了“老大难”?

  • Part 2:架构 —— KernelGenBench 这种“终极考卷”是如何被设计出来的?

  • Part 3:背后 —— 技术内幕公开,分享“分布式执行沙盒”的系统设计

  • Part 4:洞见 —— 豪掷 150 亿 Token 测出来的“残酷真相”

 

直播时间: 5月21日 晚19:00-20:00

直播平台: FlagOS智算系统软件站CSDN-Devpress

 

大模型究竟能否写出可用算子?跨平台生态痛点到底在哪?来直播间,我们用最硬核的数据说话!

 

如果你是:

AI Infra 工程师、Triton 开发者

国产 AI 芯片生态参与者

或者你只是单纯好奇:

AI 距离真正“自动写高性能底层代码”还有多远?

欢迎一起来交流。

 

因为在“大模型会写代码”之后,

行业真正需要解决的问题,

可能已经变成了:

如何系统化地验证、评测与优化 AI 生成的代码。

而这正是 KernelGenBench 想解决的问题。

Logo

欢迎来到FlagOS开发社区,这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂,为推动人工智能技术的普及与深化应用贡献力量。

更多推荐