LLM2D

摘要

arXiv:2412.11026v2 更新类型: 交叉替换摘要：动态场景包含复杂的时空信息，对于移动机器人、无人机和自动驾驶系统来说，这些信息对于做出明智的决策至关重要。将这些场景解析为语义三元组<主体-谓词-客体>以实现准确的场景图生成（SGG）具有极高的挑战性，原因在于其时空复杂性的波动性。受大型语言模型（LLMs）推理性能的启发，我们提出了SceneLLM，这是一种全新的框架，利用LLMs作为强大的场景分析器进行动态SGG。我们的框架引入了一个视频到语言（V2L）映射模块，该模块将视频帧转换为语言信号（场景令牌），从而使输入更好地被LLMs理解。为了更好地编码空间信息，我们设计了一个基于汉字结构的空间信息聚合（SIA）方案，将空间数据编码到令牌中。利用最优传输（OT），我们生成了一个隐式的语言信号，该信号从帧级令牌序列中捕获视频的时空信息。为了进一步提高LLMs处理这种隐式语言输入的能力，我们应用了低秩适应（LoRA）对模型进行微调。最后，我们使用基于变换器的SGG预测器来解码LLMs的推理并预测语义三元组。我们的方法在Action Genome（AG）基准测试上取得了最先进的结果，而大量的实验表明，SceneLLM在理解和生成准确的动态场景图方面非常有效。