具身智能“大脑”谁更强？FlagEval-EmbodiedVerse 11月评测榜单发布

具身智能是连接虚拟与现实、通往通用人工智能（AGI）的关键路径。近日，北京智源人工智能研究院。

FlagOS智算系统软件栈

987人浏览 · 2025-12-12 10:40:28

FlagOS智算系统软件栈 · 2025-12-12 10:40:28 发布

具身智能是连接虚拟与现实、通往通用人工智能（AGI）的关键路径。近日，北京智源人工智能研究院FlagEval-EmbodiedVerse平台正式发布了最新一期EmobodiedVerse-Open榜单。本次评测汇聚了全球 24个顶尖大模型同台竞技，结果清晰展示了 GPT-5、Qwen3系列等模型在物理世界中的真实表现与差异化优势。

一、EmbodiedVerse Open榜单介绍

EmbodiedVerse 平台专注于对具身大模型进行系统性的跟踪、评估与排名。平台依托 FlagEvalMM 多模态评测架构提供标准化的测试流程，结合EmbodiedVerse 高质量具身智能评测数据集构建能力指标体系，最终通过榜单系统实时展示各类具身大模型的综合表现，为研究者和开发者提供权威、透明、可对比的能力参考。

全方位具身能力评测框架：本次榜单的核心是采用“感知-推理-规划-行动”的全链路具身能力评测框架。该框架要求模型不仅要识别出图像中的物体，更要完成：① 空间几何感知；② 物理逻辑推理；③ 任务分解与规划；④ 跨模态指令遵循，最终闭环评估模型在物理世界中的实用性。
参评规模： 本次评测收录了包括 GPT-5、Qwen3 系列、Claude-Sonnet-4.5在内的24个全球主流闭源及开源大模型，是目前覆盖范围最广的具身能力评测之一。

二、核心升级

与过往的具身智能评测榜单相比，EmobodiedVerse-Open榜单进行了三大维度的革命性升级，旨在更精准地捕捉模型在复杂真实世界中的表现，确立了新一代具身智能评测标准：

1. 新增重量级模型，对齐产业前沿

本期榜单纳入了当前业界最具代表性的多模态和具身智能模型，确保评测结果具有最高的时效性和参考价值：

顶尖闭源模型： 新增了GPT-5和Claude-Sonnet-4.5等最新版本模型，直接与最强的通用智能体进行对标。
国产实力新秀： 首次纳入了如Doubao-Seed-1.6-vision等国产最新自研模型，以及Qwen3系列模型，展示了中国力量在具身智能领域的最新突破。

2. 评测框架优化，细化能力评估

为提升评测的实用性和鲁棒性，本次评测在数据层和指标层进行了全面优化，将评测维度细化为14个具身与空间基准，实现了对模型感知、推理、规划、记忆等关键能力的精确评估，有效避免了单一指标可能导致的偏差。本次评测新增了MMSI-Bench、Omni_spatial与RealWorldQA三个至关重要的数据集，将评估重点从虚拟环境转向了更复杂的真实场景和多模态推理。

三、EmbodiedVerse-Open榜单详情

（一）、评测结果分析

本次评测结果显示，具身智能领域呈现出“综合强手领跑，垂直能力突围”的精彩格局。

1. GPT-5 与 Qwen3-VL-Plus 综合表现最强，难分伯仲

从总分来看，GPT-5 (平均分 63.73) 与 Qwen3-VL-Plus (平均分 63.61) 均展现出了卓越的综合实力，两者总分差距微乎其微，共同代表了当前具身大模型的最高水平。但在具体能力维度上，两者各有所长：

GPT-5 胜在通用感知：在 SAT和Blink等空间理解等任务上，GPT-5 依然保持着极高的统治力。

Qwen3-VL-Plus 胜在具身行动：Where2Place (物体放置预测) 任务中，Qwen3-VL-Plus 得分高达 59.12，大幅领先 GPT-5；在 Egoplan_bench2 (复杂规划) 上也表现更优。这表明 Qwen3-VL-Plus 更擅长处理“怎么做”的行动规划问题。

2. 开源模型Qwen3-VL-235B表现亮眼，紧追闭源顶尖水平

值得注意的是，Qwen3-VL-235B 以 63.35 的高分位列第三，与前两名仅有毫厘之差。作为一个开源模型，它在 Robo_spatial (机器人空间操控) 和 Omni_spatial (全景导航) 等高难度任务上展现出了惊人的鲁棒性，证明了开源社区在具身智能领域的深厚潜力。

同时，Doubao-Seed-1-6-Vision-250815等模型也在榜单中展现了不俗的实力。这些模型在特定的视觉问答或基础空间感知任务中，往往能取得接近头部模型的成绩，展示了国产大模型在具身智能赛道上百花齐放的态势。

（二）、榜单概览

FlagEval-EmobodiedVerse-Open榜单的发布，不仅是对现有模型能力的一次大摸底，更揭示了具身智能从“看懂世界”向“操作世界”进化的趋势。无论是 GPT-5 的通用底座优势，还是 Qwen3 系列在行动规划上的专项突破，都让我们对未来机器人真正走进现实生活充满了期待。

FlagOS智算系统软件栈

欢迎来到FlagOS开发社区，这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂，为推动人工智能技术的普及与深化应用贡献力量。

更多推荐

推出“首个”芯片解耦集合通信技术，众智 FlagOS 支持同/异构全场景互联互通

FlagOS智算系统软件栈

PyTorch CUDA调试第一步：5分钟学会使用torch_use_cuda_dsa

是PyTorch提供的一个调试工具，它允许你在CUDA设备端（GPU）执行断言检查。简单来说，就是在GPU上运行的代码中加入断言语句，当条件不满足时会触发错误，帮助你快速发现代码中的问题。这对于调试CUDA内核中的错误特别有用，因为设备端的错误通常比主机端更难调试。是一个非常实用的调试工具，尤其适合CUDA内核的调试。通过设备端断言，你可以快速发现代码中的逻辑错误，提高调试效率。希望这篇笔记能帮助

FlagOS智算系统软件栈

如何用AI优化PyTorch CUDA调试：torch_use_cuda_dsa详解

例如，在矩阵乘法中，可以断言矩阵的维度匹配，或者在计算过程中检查中间值是否在合理范围内。通过AI辅助工具，如Kimi-K2模型，我们可以快速生成带有详细注释的代码示例，解释每个参数的作用和调试技巧。AI不仅能帮助我们理解复杂的CUDA调试技术，还能提供自动补全和错误诊断功能，显著提高开发效率。为了更好地理解断言的作用，我们可以故意在代码中引入一些可能触发断言的条件。对于需要进行CUDA调试的开发者