-
作者:Chan Hee Song, Valts Blukis,Jonathan Tremblay, Stephen Tyree, Yu Su, Stan Birchfield
-
单位:俄亥俄州立大学,NVIDIA
-
论文标题:ROBOSPATIAL: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
-
论文链接:https://arxiv.org/pdf/2411.16537
主要贡献
-
论文介绍了ROBOSPATIAL数据集和ROBOSPATIAL-Home基准,包括图像和3D扫描,并配有关于空间问题的问答对,包括多个参考框架、物体间空间关系、物体与空间的关系以及物体兼容性。
-
通过在ROBOSPATIAL数据集上训练视觉语言模型(VLMs),显著增强了这些模型的空间推理能力。实验结果表明,这些模型在自然语言指定的机器人操作任务和室内场景问答任务中表现优于先前的VLMs。
-
通过机器人实验展示了ROBOSPATIAL的实际应用效果。实验结果表明,ROBOSPATIAL训练的模型在机器人操作任务中表现出色,能够理解和应用空间推理能力。
研究背景
研究问题
现有的视觉语言模型(VLMs)在处理涉及物体间细微空间关系的问题时表现不佳,例如描述物体在另一物体上的位置或确定在特定条件下放置物品的最佳位置。
论文主要解决的问题是视觉语言模型在机器人应用中的空间理解能力不足。
研究难点
该问题的研究难点包括:
-
现有数据集缺乏对参考系理解的捕捉,无法有效处理从第一人称视角、物体视角或世界视角的空间关系;
-
现有VLMs在处理动态环境中的空间关系时表现有限。
相关工作
-
VLMs在机器人中的应用:
-
空间理解的挑战:
-
空间理解的研究:
-
ROBOSPATIAL的目标:
-
论文旨在通过引入大规模的2D/3D预训练数据集和自动化数据标注流程,降低探索针对机器人应用的空间理解的门槛。
-
作者展示了如何利用ROBOSPATIAL数据集来教授视觉语言模型进行空间推理,并在领域内和领域外的空间推理数据集上进行测试。
-
研究方法
- 空间关系选择:
-
数据集生成:
-
数据生成过程的目标是通过使用精心构建的启发式方法,以最小的人工干预生成高精度的空间关系数据集。
-
输入数据集包含RGB视图、相机姿态和对象标注(文本标签和有向3D边界框),输出数据集包含图像、问题、答案和参考帧标签。
-
数据生成过程分为两个阶段:空间关系提取和问答生成。
-
-
空间关系提取:
-
在空间关系提取阶段,分析数据集以发现对象之间或自由空间中的空间关系。
-
每个空间关系由图像、锚对象、目标对象或目标自由空间点、大小测量、空间关系介词和参考帧标签组成。
-
使用有向3D边界框标注自动生成空间关系。通过分析3D边界框的方向和位置信息,自动提取对象之间的空间关系。
-
-
问答生成:
-
基于生成的关系,构建三种类型的问答对:空间配置、空间上下文和空间兼容性。
-
为了确保模型通过视觉而非语言进行推理,问题和答案采用模板化结构,避免歧义。
-
通过生成平衡的数据集,避免模型偏差,并使用2D边界框创建辅助的对象指代数据集,以教授模型识别对象。
-
实验设置
-
实现细节:
-
实验将数据生成过程应用于三个场景数据集和两个桌面数据集,包括ScanNet、Matterport3D、3RScan、HOPE和GraspNet-1B。
-
这些数据集提供了多样化的室内场景和桌面环境,覆盖了大物体和小物体的导航和操作。
-
选择了多种2D和3D视觉语言模型(VLMs)进行评估,包括VILA、LLaVA-NeXT、SpaceLLaVA、RoboPoint、3D-LLM、LEO、Molmo和GPT-4o等模型。
-
-
空间理解评估:
-
通过回答测试集中的3000个问题(每种空间关系1000个问题)来评估模型。
-
这些问题包括二元(是/否)问题和需要数值响应的问题。评估指标包括正确回答的成功率和数值答案的准确性。
-
-
跨数据集泛化评估:
-
通过在不同场景类型(室内和桌面)上进行训练和测试,评估模型的泛化能力。
-
-
领域外评估:
-
在ROBOSPATIAL-Home和Blink-Spatial基准上评估模型的领域外迁移能力。
-
ROBOSPATIAL-Home是一个手动标注的室内场景数据集,用于测试模型在真实生活杂乱场景中的泛化能力。
-
Blink-Spatial是一个视觉推理基准,用于评估模型在未见过的空间关系上的泛化能力。
-
结果与分析
- 模型性能提升:
-
经过ROBOSPATIAL训练的模型在空间推理任务中表现出显著的性能提升。
-
与未经过ROBOSPATIAL训练的基线模型相比,训练后的模型在各项任务中均取得了更高的成功率。
-
例如,VILA模型在室内场景的配置、上下文和兼容性任务上的成功率分别从54.7%、18.3%和56.3%提高到71.4%、45.9%和77.2%。
-
- 跨数据集泛化能力:
-
评估了模型在不同场景类型(如室内和桌面)之间的泛化能力。
-
结果显示,经过ROBOSPATIAL训练的模型在未见过的场景类型上也能保持良好的性能。
-
例如,当在室内场景上训练并在桌面场景上测试时,RoboPoint模型的成功率从38.7%提高到48.9%。
-
-
领域外评估:
-
在ROBOSPATIAL-Home和Blink-Spatial基准上评估模型的领域外迁移能力。
-
结果显示,ROBOSPATIAL训练的模型在这些基准上也表现出色。
-
例如,在Blink-Spatial基准上,经过ROBOSPATIAL训练的SpaceLLaVA模型在多项任务上的成功率显著提高。
-
-
对细微视角的理解:
-
模型在理解细微视角方面表现出色。经过ROBOSPATIAL训练的模型能够更好地推断出问题中的参考框架。
-
例如,在ROBOSPATIAL-Home数据集上,模型能够正确理解“在床头柜前面”的问题。
-
-
3D VLMs的表现:
-
3D VLMs在处理空间关系方面显示出一定的优势,尤其是在涉及深度信息的任务中。
-
例如,LEO模型在室内场景的配置、上下文和兼容性任务上的成功率分别从56.1%、11.3%和58.3%提高到80.2%、56.7%和82.5%。
-
真实机器人实验
- 实验设计:
- 模型评估:
-
评估了多个VLMs的表现,包括LLaVA-NeXT、RoboPoint、Molmo和GPT-4o。实验比较了经过ROBOSPATIAL训练的模型与未经过训练的基线模型。
-
结果显示,经过ROBOSPATIAL训练的模型在机器人操作任务中表现出色,能够更好地理解和应用空间推理能力。
-
- 实验结果:
-
经过ROBOSPATIAL训练的模型在大多数情况下表现优于基线模型。例如,在“放在小马前面”任务中,只有经过ROBOSPATIAL训练的模型能够正确预测位置。
-
在“放在橙汁盒前面”任务中,经过训练的模型能够识别出相对于对象大小的适当距离来放置物体,而未经过训练的RoboPoint模型的预测点距离太远,难以正确放置物体。
-
总结
论文介绍了ROBOSPATIAL和ROBOSPATIAL-Home,一个大规模的空间理解训练和评估数据集,专为机器人应用设计。
实验结果表明,ROBOSPATIAL训练的模型在空间理解方面表现优异,能够泛化到未见过的空间关系,并在真实机器人实验中展现出实际应用能力。