具身智能“大脑”谁更强?FlagEval-EmbodiedVerse 11月评测榜单发布
具身智能是连接虚拟与现实、通往通用人工智能(AGI)的关键路径。近日,北京智源人工智能研究院。
具身智能是连接虚拟与现实、通往通用人工智能(AGI)的关键路径。近日,北京智源人工智能研究院FlagEval-EmbodiedVerse平台正式发布了最新一期EmobodiedVerse-Open榜单。本次评测汇聚了全球 24个顶尖大模型同台竞技,结果清晰展示了 GPT-5、Qwen3系列等模型在物理世界中的真实表现与差异化优势。
一、EmbodiedVerse Open榜单介绍
EmbodiedVerse 平台专注于对具身大模型进行系统性的跟踪、评估与排名。平台依托 FlagEvalMM 多模态评测架构 提供标准化的测试流程,结合EmbodiedVerse 高质量具身智能评测数据集构建能力指标体系,最终通过榜单系统实时展示各类具身大模型的综合表现,为研究者和开发者提供权威、透明、可对比的能力参考。
-
全方位具身能力评测框架:本次榜单的核心是采用“感知-推理-规划-行动”的全链路具身能力评测框架。该框架要求模型不仅要识别出图像中的物体,更要完成:① 空间几何感知;② 物理逻辑推理;③ 任务分解与规划;④ 跨模态指令遵循,最终闭环评估模型在物理世界中的实用性。
-
参评规模: 本次评测收录了包括 GPT-5、Qwen3 系列、Claude-Sonnet-4.5在内的24个全球主流闭源及开源大模型,是目前覆盖范围最广的具身能力评测之一。
二、核心升级
与过往的具身智能评测榜单相比,EmobodiedVerse-Open榜单进行了三大维度的革命性升级,旨在更精准地捕捉模型在复杂真实世界中的表现,确立了新一代具身智能评测标准:
1. 新增重量级模型,对齐产业前沿
本期榜单纳入了当前业界最具代表性的多模态和具身智能模型,确保评测结果具有最高的时效性和参考价值:
-
顶尖闭源模型: 新增了GPT-5和Claude-Sonnet-4.5等最新版本模型,直接与最强的通用智能体进行对标。
-
国产实力新秀: 首次纳入了如Doubao-Seed-1.6-vision等国产最新自研模型,以及Qwen3系列模型,展示了中国力量在具身智能领域的最新突破。
2. 评测框架优化,细化能力评估
为提升评测的实用性和鲁棒性,本次评测在数据层和指标层进行了全面优化,将评测维度细化为14个具身与空间基准,实现了对模型感知、推理、规划、记忆等关键能力的精确评估,有效避免了单一指标可能导致的偏差。本次评测新增了MMSI-Bench、Omni_spatial与RealWorldQA三个至关重要的数据集,将评估重点从虚拟环境转向了更复杂的真实场景和多模态推理。
三、EmbodiedVerse-Open榜单详情
(一)、评测结果分析
本次评测结果显示,具身智能领域呈现出“综合强手领跑,垂直能力突围”的精彩格局。
1. GPT-5 与 Qwen3-VL-Plus 综合表现最强,难分伯仲
从总分来看,GPT-5 (平均分 63.73) 与 Qwen3-VL-Plus (平均分 63.61) 均展现出了卓越的综合实力,两者总分差距微乎其微,共同代表了当前具身大模型的最高水平。但在具体能力维度上,两者各有所长:
GPT-5 胜在通用感知: 在 SAT和Blink等空间理解等任务上,GPT-5 依然保持着极高的统治力。
Qwen3-VL-Plus 胜在具身行动:Where2Place (物体放置预测) 任务中,Qwen3-VL-Plus 得分高达 59.12,大幅领先 GPT-5;在 Egoplan_bench2 (复杂规划) 上也表现更优。这表明 Qwen3-VL-Plus 更擅长处理“怎么做”的行动规划问题。
2. 开源模型Qwen3-VL-235B表现亮眼,紧追闭源顶尖水平
值得注意的是,Qwen3-VL-235B 以 63.35 的高分位列第三,与前两名仅有毫厘之差。作为一个开源模型,它在 Robo_spatial (机器人空间操控) 和 Omni_spatial (全景导航) 等高难度任务上展现出了惊人的鲁棒性,证明了开源社区在具身智能领域的深厚潜力。
同时,Doubao-Seed-1-6-Vision-250815等模型也在榜单中展现了不俗的实力。这些模型在特定的视觉问答或基础空间感知任务中,往往能取得接近头部模型的成绩,展示了国产大模型在具身智能赛道上百花齐放的态势。
(二)、榜单概览

FlagEval-EmobodiedVerse-Open榜单的发布,不仅是对现有模型能力的一次大摸底,更揭示了具身智能从“看懂世界”向“操作世界”进化的趋势。无论是 GPT-5 的通用底座优势,还是 Qwen3 系列在行动规划上的专项突破,都让我们对未来机器人真正走进现实生活充满了期待。
欢迎来到FlagOS开发社区,这里是一个汇聚了AI开发者、数据科学家、机器学习爱好者以及业界专家的活力平台。我们致力于成为业内领先的Triton技术交流与应用分享的殿堂,为推动人工智能技术的普及与深化应用贡献力量。
更多推荐


所有评论(0)