上海交通大学团队推出EgoSim：让机器人学会从人的视角看世界-九游体育集团股份有限公司

行业资讯

上海交通大学团队推出EgoSim：让机器人学会从人的视角看世界

2026-04-20 05:09:12

上海交通大学团队推出EgoSim：让机器人学会从人的视角看世界(图1)

　　这项由上海交通大学、上海AI实验室和香港大学联合开展的研究于2024年发表，论文编号arXiv:2604.01001。研究团队开发了一个名为EgoSim的全新系统，这个系统最大的特点就是能够从第一人称视角生成连续的互动视频，并且始终保持3D场景的一致性。

　　想象一下，当你戴上VR眼镜进入虚拟世界时，你希望看到的不是预设好的固定画面，而是一个真正能够响应你动作的活生生的世界。你伸手拿起一个杯子，杯子会真的被你拿起来；你打开一九游体育平台扇门，门会保持开启状态；你移动物品，它们会一直待在新位置上。这正是EgoSim想要实现的目标——创造一个真正记住你行为后果的虚拟世界。

　　在这之前，大多数世界模拟器都有一个致命缺陷：它们要么像老式电影一样只能从旁观者角度观看，要么无法记住你刚才做了什么。比如你在虚拟厨房里打开冰箱门，下一秒冰箱门可能又自动关上了，仿佛你从来没有碰过它一样。这种现象在技术上叫做结构漂移，就像患了健忘症的虚拟世界，无法保持状态的连续性。

　　EgoSim的突破性在于它建立了一套世界记忆系统。这个系统就像一个超级管家，时刻记录着虚拟世界中每一个物体的位置和状态变化。当你在虚拟场景中移动一把椅子，系统不仅会生成移动的视频画面，还会在内部的3D地图上更新椅子的新位置。下次你再看向那个地方时，椅子确实还在你放置的位置上。

　　这项研究的另一个重要贡献是解决了训练数据的难题。训练这样一个智能系统需要大量的配对数据——既要有人们做动作的视频，又要有对应的3D场景信息。传统方法通常依赖昂贵的多摄像头设备或者合成数据，但这些方法要么成本高昂，要么无法反映真实世界的复杂性。研究团队设计了一套巧妙的数据处理流水线，能够从普通的单摄像头视频中自动提取出所需的各种信息，包括静态的3D场景、摄像头运动轨迹和手部动作序列。

　　具体来说，系统首先会分析视频的第一帧，识别出手部等动态元素，然后使用图像修复技术将这些动态元素擦除，得到一个干净的静态背景。接下来，系统使用深度估计技术重建这个静态场景的3D结构，就像建筑师根据平面图构建立体模型一样。同时，系统还会分析整个视频序列，提取出摄像头的运动轨迹和手部动作的关键点信息。

　　在动作表示方面，研究团队采用了一个非常聪明的统一框架。无论是人的手部动作还是机器人的抓取动作，都被转换成相同格式的关键点序列。这就像设计了一套通用的动作语言，让系统能够理解不同类型的操作主体。对于人手，系统提取21个关键点来描述手指的位置和姿态；对于机器人夹爪，系统将其映射为类似人手拇指和食指的简化表示。

　　EgoSim的核心架构包含两个关键模块。第一个是几何-动作感知观察模拟模块，它的作用是根据当前的3D场景状态和输入的动作序列，生成对应的第一人称视角视频。这个模块使用了扩散变换器（DiT）架构，能够同时处理静态场景渲染、动作条件和遮挡信息，确保生成的视频在几何上保持一致性。

　　第二个关键模块是交互感知状态更新模块，这是整个系统的记忆中枢。当系统生成了新的观察视频后，这个模块会分析视频内容，识别出哪些物体发生了位置变化，然后更新内部的3D场景表示。这个过程包含三个步骤：首先重建当前观察序列的3D点云，然后识别和追踪发生交互的物体，最后将这些物体的最新状态融合到全局场景中。

　　为了识别交互物体，系统使用了视觉语言模型来理解场景中的物体类别，再结合分割和追踪算法来定位这些物体在3D空间中的位置。系统会优先保留物体最后被观察到的状态，确保它们在后续的模拟中保持正确的位置和姿态。

　　在训练数据构建方面，研究团队处理了来自EgoDex和EgoVid数据集的共40万个视频片段。EgoDex主要包含精细的桌面操作场景，而EgoVid则涵盖了更多样化的真实世界交互。为了验证系统的跨领域能力，研究团队还整合了5万个机器人操作视频，展示了从人类动作到机器人控制的迁移学习能力。

　　实验结果表明，EgoSim在多个关键指标上显著超越了现有方法。在视频质量方面，EgoSim在EgoDex数据集上实现了25.056的PSNR值和0.896的SSIM值，远高于其他基线方法。更重要的是，在空间一致性方面，EgoSim的深度误差仅为8.888，相比最好的基线%。这意味着EgoSim生成的视频在3D几何上更加准确和稳定。

　　连续生成能力是EgoSim的另一个重要优势。在连续生成测试中，系统能够生成长达121帧的视频序列，同时保持良好的视觉质量和空间一致性。虽然相比单次生成会有轻微的质量下降，但这主要是由于累积误差造成的，整体表现仍然令人满意。

　　跨模态应用方面，研究团队在AgiBot机器人数据集上进行了实验。结果显示，使用人类手部动作数据预训练的模型，在适配机器人任务时表现显著优于从零开始训练的模型。这证明了人类交互数据中包含的通用物理动力学知识可以有效迁移到机器人控制中。

　　为了验证系统在真实环境中的表现，研究团队还开发了一套名为EgoCap的低成本数据采集工具。这套工具使用普通智能手机就能采集高质量的训练数据，大大降低了数据获取的成本和技术门槛。在超市等真实环境中的测试表明，即使只用30个训练样本进行微调，EgoSim也能快速适应新的场景和任务。

　　消融研究进一步验证了各个组件的重要性。移除摄像头轨迹渲染会导致视频质量显著下降，因为系统失去了重要的几何约束。移除遮挡掩码也会影响生成效果，尽管系统仍能在未知区域生成合理的内容。交互感知状态更新模块的各个子组件都对最终性能有重要贡献，移除任何一个都会导致3D重建质量的明显下降。

　　这项研究的意义不仅限于技术层面的突破。从实际应用角度看，EgoSim为虚拟现实、增强现实、游戏开发和机器人训练等领域提供了全新的可能性。在VR游戏中，玩家可以享受到更加真实和连续的交互体验；在机器人训练中，可以使用大量人类演示数据来训练机器人的操作技能；在增强现实应用中，虚拟物体可以更自然地与真实环境融合。

　　当然，这项研究也存在一些局限性。目前系统主要依赖单目深度估计和相机位姿估计，在极度遮挡或高度动态的环境中可能会出现重建误差。此外，系统的计算复杂度相对较高，实时应用还需要进一步的优化。未来的工作方向包括集成更鲁棒的多视图先验知识、引入基于物理的接触约束等。

　　说到底，EgoSim代表了世界模拟器技术的一个重要里程碑。它首次真正实现了从第一人称视角的连续世界模拟，并具备了持久的状态记忆能力。这不仅是技术上的进步，更是向真正智能的虚拟世界迈出的关键一步。随着这项技术的不断完善，我们有理由期待一个更加智能、更加真实的虚拟世界时代的到来。这个世界不再是预设的死板场景，而是能够真正理解和响应我们行为的活生生的数字空间。

　　A：EgoSim最大的不同在于它能从第一人称视角生成视频，并且具备世界记忆功能。传统模拟器要么只能从第三人称角度观看，要么无法记住用户的操作结果。比如你在虚拟世界里移动了一把椅子，传统系统可能下一秒椅子就回到原位了，而EgoSim会永久记住椅子的新位置，让虚拟世界保持连续性。

　　A：研究团队设计了一套智能的数据处理流水线，能够从普通的单摄像头视频中自动提取训练所需的所有信息。系统会分析视频第一帧来重建3D场景，提取摄像头运动轨迹，并识别手部动作关键点。这样就避免了使用昂贵的多摄像头设备，可以利用网上大量现有的视频数据进行训练。

　　A：可以。研究显示EgoSim具有很强的跨模态迁移能力。通过将人手动作和机器人夹爪动作统一为相同的关键点表示格式，用人类演示数据训练的模型可以有效迁移到机器人任务中。实验表明，这种预训练方法比从零开始训练机器人模型效果更好，大大提升了机器人学习复杂操作技能的效率。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　英超天王山战：曼城2比1阿森纳，多纳鲁马超巨失误送礼，谢尔基、哈兰德建功

　　宠物食品品牌“诚实一口”翻车，创始人深夜致歉！其公司注册资本3年增长137倍

　　美尖九游体育平台端领域10人接连死亡，美前高官：FBI调查或发现“难以置信的离奇情况”

　　英超天王山战：曼城2比1阿森纳，多纳鲁马超巨失误送礼，谢尔基、哈兰德建功

　　月之暗面IPO迷局：资本挤破头，骗子兜售融资额度，相关人士称“不愿为上市而上市”

[返回]

上一篇: 智美都市SUV埃安N60预售开启1158万起

下一篇: AI在营销场景中的应用：通用型认证与技术型认证的能力差异