
近日,上海交通大学联合多方力量推出的具身智能测评集GM-100正式开源,成为国内具身智能领域的重要里程碑。这一测评集旨在评估机器人智能模型与物理执行能力的协同程度,为行业提供一个系统、开放且可复现的评估基准,标志着国内具身智能技术的标准化进程迈出了重要一步。
GM-100测评集的核心在于其包含的100个具体任务,累计1.3万条操作轨迹数据,涵盖从简单日常操作到复杂场景的多样性任务。项目牵九游体育官网头人、上海交通大学副教授李永露表示,当前的研究阶段,高质量的数据集和评测体系对于推动科研进展至关重要。GM-100测评集不仅关注任务的数量,更强调任务设计的广度与评估体系的深度,以推动模型能力的提升。
在设计任务时,研发团队首先分析了人类与物体交互的基本原语,随后利用大语言模型生成大量候选任务,并经过专家筛选与优化,最终形成涵盖不同场景的100项任务。此外,GM-100引入了部分成功率和动作预测误差两个新指标,前者量化多步骤任务中各子步骤的完成情况,后者则衡量模型在新情况中的动作模仿精度。
当前,具身智能技术路线处于百家争鸣的阶段,数据集建设缺乏统一标准,GM-100测评集的推出相当于为行业提供了一套“统考卷”,有助于各团队在同一基准上进行测试与比较。测评集的所有任务说明和所需物料清单均已开源,甚至提供了物料的购买链接,以降低开发者的参与门槛,鼓励更多人加入到具身智能的研究与应用中。
在行业标准化方面,GM-100测评集的推出为国内具身智能评价体系补齐了短板。智元机器人董事长王兴兴在多个场合表示,当前具身智能的制约因素主要在于模型架构和数据质量。上海正在通过具身数据和模型能力的双维度探索行业的破局之道。在数据层面,智元机器人已经建立了全球首个数采超级工厂,并开源了包含百万条真机数据的AgiBotWorld数据集,进一步推动数据的高质量采集与评估。
未来,随着技术九游体育官网的不断进步,GM-100测评集有望成为具身智能领域的行业标准,促进模型之间的横向比较,推动具身智能技术的创新与发展。正如项目负责人所言,GM-100的目标并非建立一个绝对公平的测试环境,而是打造一个开放、透明、可复现的评测平台,通过标准化的任务和灵活的评估标准,帮助行业更好地定义核心能力与前沿问题。返回搜狐,查看更多

