在当前身体现智能(Embodied AI)的发展过程中,创建真实且精确缩放的3D 环境至关重要。然而,现有的方法仍主要依赖于人工设计的3D 图形,这不仅成本高昂,而且缺乏真实感,限制了其扩展性和通用性。

为了在物理环境中实现通用智能,必须进行真实的模拟、强化学习以及多样化的3D 资产生成。尽管最近的扩散模型和3D 生成技术显示出一定的潜力,但许多仍缺乏物理准确性、密闭几何结构和正确的比例,使其不适合用于机器人训练环境。

image.png

当前3D 生成技术的局限性

3D 对象生成通常采用三种主要方法:快速生成的前馈生成、高质量的优化方法和从多张图片进行视图重建。尽管近期技术在分离几何与纹理创建方面取得了进展,但许多模型依然优先考虑视觉效果而非真实物理,这使得它们在需要准确缩放和密闭几何结构的模拟中显得不足。尽管全景技术已经使得全视角渲染成为可能,但仍然缺乏互动性。尽管一些工具试图通过生成资产来增强模拟环境,但其质量和多样性依然有限,无法满足复杂身体现智能研究的需求。

EmbodiedGen:开源、模块化且适用于模拟的解决方案

为了解决这些问题,EmbodiedGen 应运而生。这一由多家机构(包括地平线机器人、香港中文大学、上海齐智研究院和清华大学)共同开发的开源框架,旨在为身体现智能任务生成真实且可扩展的3D 资产。该平台能够输出物理准确、密闭的3D 对象,格式为 URDF,并附带适合模拟的元数据。EmbodiedGen 拥有六个模块化组件,包括图像转3D、文本转3D、布局生成和物体重排列,能够实现可控和高效的场景创建。

多模态生成:丰富的3D 内容

EmbodiedGen 作为一个多功能工具包,专为身体现智能任务设计,能够生成真实且互动的3D 环境。它结合了多种生成模块,将图像或文本转化为详细的3D 对象,创建具有可动部件的关节物品,并生成多样化的纹理以提升视觉质量。此外,EmbodiedGen 支持全面的场景构建,按照真实的物理属性和比例排列这些资产。输出结果直接与模拟平台兼容,使得构建生动的虚拟世界变得更加便捷和经济,帮助研究人员高效模拟真实场景,而无需依赖昂贵的手动建模。

模拟集成与真实物理准确性

EmbodiedGen 不仅是一个强大且易于访问的平台,还能够生成多样化的高质量3D 资产,专门用于身体现智能研究。其多个关键模块使用户能够从图像或文本创建资产,生成关节化和纹理化的对象,并构建真实场景。这些资产具有密闭性、照片级真实感和物理准确性,非常适合用于基于模拟的训练和评估。该平台支持与包括 OpenAI Gym、MuJoCo、Isaac Lab 和 SAPIEN 在内的主流模拟环境集成,使研究人员能够以低成本高效地模拟导航、物体操作和避障等任务。

RoboSplatter:高保真3DGS 渲染技术

EmbodiedGen 的一大亮点是 RoboSplatter,该模块将先进的3D 高斯点云渲染技术(3DGS)引入物理模拟中。与传统图形管道不同,RoboSplatter 在提高视觉保真度的同时,减少了计算开销。通过纹理生成和真实到模拟(Real-to-Sim)转换等模块,用户可以编辑3D 资产的外观或重建高真实感的现实场景。总体而言,EmbodiedGen 简化了可扩展、互动式3D 世界的创建,弥合了现实世界机器人和数字模拟之间的差距。

本研究解决了身体现智能领域的一个核心瓶颈:缺乏可扩展、真实且兼容物理的3D 环境用于训练和评估。尽管互联网规模的数据推动了视觉和语言模型的进展,但身体现智能则需要具备准确缩放、几何形状和互动性的模拟准备资产,这些特性在传统的3D 生成管道中往往缺失。

EmbodiedGen 通过提供一个开放源代码、模块化的平台,能够生成高质量、可控的3D 对象和场景,兼容主流机器人模拟器,填补了这一空白。它将文本和图像转化为可扩展的物理上合理的3D 环境,成为推动身体现智能研究、数字双胞胎以及真实到模拟学习的重要工具。

项目:https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html