LLM2D
SceneLLM:LLM中隐式的语言推理在动态场景图生成中的应用
SceneLLM: Implicit Language Reasoning in LLM for Dynamic Scene Graph Generation
作者: Hang Zhang, Zhuoling Li, Jun Liu
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2412.11026v2

摘要

arXiv:2412.11026v2 更新类型: 交叉替换 摘要:动态场景包含复杂的时空信息,对于移动机器人、无人机和自动驾驶系统来说,这些信息对于做出明智的决策至关重要。将这些场景解析为语义三元组<主体-谓词-客体>以实现准确的场景图生成(SGG)具有极高的挑战性,原因在于其时空复杂性的波动性。受大型语言模型(LLMs)推理性能的启发,我们提出了SceneLLM,这是一种全新的框架,利用LLMs作为强大的场景分析器进行动态SGG。我们的框架引入了一个视频到语言(V2L)映射模块,该模块将视频帧转换为语言信号(场景令牌),从而使输入更好地被LLMs理解。为了更好地编码空间信息,我们设计了一个基于汉字结构的空间信息聚合(SIA)方案,将空间数据编码到令牌中。利用最优传输(OT),我们生成了一个隐式的语言信号,该信号从帧级令牌序列中捕获视频的时空信息。为了进一步提高LLMs处理这种隐式语言输入的能力,我们应用了低秩适应(LoRA)对模型进行微调。最后,我们使用基于变换器的SGG预测器来解码LLMs的推理并预测语义三元组。我们的方法在Action Genome(AG)基准测试上取得了最先进的结果,而大量的实验表明,SceneLLM在理解和生成准确的动态场景图方面非常有效。